論文の概要: RadFlag: A Black-Box Hallucination Detection Method for Medical Vision Language Models
- arxiv url: http://arxiv.org/abs/2411.00299v2
- Date: Sat, 16 Nov 2024 04:37:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:30:27.176536
- Title: RadFlag: A Black-Box Hallucination Detection Method for Medical Vision Language Models
- Title(参考訳): RadFlag:医療ビジョン言語モデルのためのブラックボックス幻覚検出方法
- Authors: Serena Zhang, Sraavya Sambara, Oishi Banerjee, Julian Acosta, L. John Fahrner, Pranav Rajpurkar,
- Abstract要約: 我々はラジオロジーレポート生成の精度を高めるブラックボックス手法であるRadFlagを紹介した。
本手法では, 除去すべき幻覚世代を見つけるために, サンプリングベースのフラグング手法を用いる。
本手法は,個々の幻覚文と幻覚を含む報告を識別する際に高い精度を達成する。
- 参考スコア(独自算出の注目度): 1.803112712536978
- License:
- Abstract: Generating accurate radiology reports from medical images is a clinically important but challenging task. While current Vision Language Models (VLMs) show promise, they are prone to generating hallucinations, potentially compromising patient care. We introduce RadFlag, a black-box method to enhance the accuracy of radiology report generation. Our method uses a sampling-based flagging technique to find hallucinatory generations that should be removed. We first sample multiple reports at varying temperatures and then use a Large Language Model (LLM) to identify claims that are not consistently supported across samples, indicating that the model has low confidence in those claims. Using a calibrated threshold, we flag a fraction of these claims as likely hallucinations, which should undergo extra review or be automatically rejected. Our method achieves high precision when identifying both individual hallucinatory sentences and reports that contain hallucinations. As an easy-to-use, black-box system that only requires access to a model's temperature parameter, RadFlag is compatible with a wide range of radiology report generation models and has the potential to broadly improve the quality of automated radiology reporting.
- Abstract(参考訳): 医療画像から正確な放射線診断レポートを生成することは臨床的に重要であるが、難しい課題である。
現在のビジョン言語モデル(VLM)は、将来性を示すが、幻覚を発生させる傾向があり、患者のケアを損なう可能性がある。
我々はラジオロジーレポート生成の精度を高めるブラックボックス手法であるRadFlagを紹介した。
本手法では, 除去すべき幻覚世代を見つけるために, サンプリングベースのフラグング手法を用いる。
まず、様々な温度で複数のレポートをサンプリングし、次にLarge Language Model(LLM)を使用して、サンプル間で一貫してサポートされていないクレームを特定し、それらのクレームに対する信頼性が低いことを示す。
校正しきい値を用いて、これらの主張のごく一部を幻覚であると宣言する。
本手法は,個々の幻覚文と幻覚を含む報告を識別する際に高い精度を達成する。
RadFlagは、モデルの温度パラメータへのアクセスのみを必要とする使い勝手の良いブラックボックスシステムとして、幅広い放射線学レポート生成モデルと互換性があり、自動放射線学レポートの品質を広範囲に改善する可能性がある。
関連論文リスト
- An X-Ray Is Worth 15 Features: Sparse Autoencoders for Interpretable Radiology Report Generation [6.473805247939424]
既存のビジョンランゲージモデル(VLM)は幻覚に悩まされ、解釈性に欠け、高価な微調整を必要とする。
我々は,SAE-Radを導入し,スパースオートエンコーダ(SAE)を用いて,事前学習された視覚変換器から人間の解釈可能な特徴へ潜在表現を分解する。
論文 参考訳(メタデータ) (2024-10-04T11:40:21Z) - Lookback Lens: Detecting and Mitigating Contextual Hallucinations in Large Language Models Using Only Attention Maps [48.58310785625051]
大型言語モデル(LLM)は詳細を幻覚し、根拠のない回答で応答することができる。
本稿では,このような文脈的幻覚を検出するための簡単なアプローチについて述べる。
論文 参考訳(メタデータ) (2024-07-09T17:44:34Z) - Detecting and Mitigating Hallucination in Large Vision Language Models via Fine-Grained AI Feedback [48.065569871444275]
我々は,LVLM(Large Vision Language Models)における幻覚の検出と緩和について,きめ細かいAIフィードバックを用いて提案する。
プロプライエタリモデルによる小型幻覚アノテーションデータセットを生成する。
そこで本研究では,幻覚緩和モデルの訓練のための選好データセットを自動構築する検出テーマ書き換えパイプラインを提案する。
論文 参考訳(メタデータ) (2024-04-22T14:46:10Z) - Pragmatic Radiology Report Generation [39.96409366755059]
胸部X線で肺炎がみつからなかった場合、この陰性な観察を報告すべきか、省略すべきか。
本研究では,モデル幻覚の源として画像から推測不能な情報を識別する枠組みを開発し,基礎的報告のクリーニングによってそれらを制限する。
論文 参考訳(メタデータ) (2023-11-28T19:00:03Z) - AutoHall: Automated Hallucination Dataset Generation for Large Language Models [56.92068213969036]
本稿では,AutoHallと呼ばれる既存のファクトチェックデータセットに基づいて,モデル固有の幻覚データセットを自動的に構築する手法を提案する。
また,自己コントラディションに基づくゼロリソース・ブラックボックス幻覚検出手法を提案する。
論文 参考訳(メタデータ) (2023-09-30T05:20:02Z) - Detecting and Preventing Hallucinations in Large Vision Language Models [4.7264116948935975]
M-HalDetectは、詳細な画像記述のための最初のマルチモーダル幻覚検出データセットである。
InstructBLIPから細粒度マルチモーダル報酬モデルを訓練し,その有効性を評価する。
LLaVAとmPLUG-OWLの幻覚をそれぞれ15%と57%低減する。
論文 参考訳(メタデータ) (2023-08-11T21:35:20Z) - XrayGPT: Chest Radiographs Summarization using Medical Vision-Language
Models [60.437091462613544]
我々は,会話型医療ビジョン言語モデルであるXrayGPTを紹介する。
胸部X線写真に関するオープンエンドの質問を分析し、答えることができる。
自由テキストラジオグラフィーレポートから217kの対話的かつ高品質な要約を生成する。
論文 参考訳(メタデータ) (2023-06-13T17:59:59Z) - Improving Radiology Report Generation Systems by Removing Hallucinated
References to Non-existent Priors [1.1110995501996481]
本稿では,放射線学報告における過去の文献参照を除去する2つの方法を提案する。
GPT-3をベースとした少数ショットによる医療報告の書き直し手法と,BioBERTをベースとしたトークン分類手法により,先行参照語を直接削除する手法である。
CXR-ReDonEと呼ばれる再学習モデルでは,臨床測定値に対する従来のレポート生成手法を上回り,平均BERTSスコア0.2351(絶対改善率2.57%)を達成した。
論文 参考訳(メタデータ) (2022-09-27T00:44:41Z) - Detecting Hallucinated Content in Conditional Neural Sequence Generation [165.68948078624499]
出力シーケンスの各トークンが(入力に含まれていない)幻覚化されているかどうかを予測するタスクを提案する。
また、合成データに微調整された事前学習言語モデルを用いて幻覚を検出する方法についても紹介する。
論文 参考訳(メタデータ) (2020-11-05T00:18:53Z) - Text Mining to Identify and Extract Novel Disease Treatments From
Unstructured Datasets [56.38623317907416]
Google Cloudを使って、NPRラジオ番組のポッドキャストのエピソードを書き起こします。
次に、テキストを体系的に前処理するためのパイプラインを構築します。
我々のモデルは、Omeprazoleが心臓熱傷の治療に役立てることに成功しました。
論文 参考訳(メタデータ) (2020-10-22T19:52:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。