論文の概要: RadFlag: A Black-Box Hallucination Detection Method for Medical Vision Language Models
- arxiv url: http://arxiv.org/abs/2411.00299v2
- Date: Sat, 16 Nov 2024 04:37:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:30:27.176536
- Title: RadFlag: A Black-Box Hallucination Detection Method for Medical Vision Language Models
- Title(参考訳): RadFlag:医療ビジョン言語モデルのためのブラックボックス幻覚検出方法
- Authors: Serena Zhang, Sraavya Sambara, Oishi Banerjee, Julian Acosta, L. John Fahrner, Pranav Rajpurkar,
- Abstract要約: 我々はラジオロジーレポート生成の精度を高めるブラックボックス手法であるRadFlagを紹介した。
本手法では, 除去すべき幻覚世代を見つけるために, サンプリングベースのフラグング手法を用いる。
本手法は,個々の幻覚文と幻覚を含む報告を識別する際に高い精度を達成する。
- 参考スコア(独自算出の注目度): 1.803112712536978
- License:
- Abstract: Generating accurate radiology reports from medical images is a clinically important but challenging task. While current Vision Language Models (VLMs) show promise, they are prone to generating hallucinations, potentially compromising patient care. We introduce RadFlag, a black-box method to enhance the accuracy of radiology report generation. Our method uses a sampling-based flagging technique to find hallucinatory generations that should be removed. We first sample multiple reports at varying temperatures and then use a Large Language Model (LLM) to identify claims that are not consistently supported across samples, indicating that the model has low confidence in those claims. Using a calibrated threshold, we flag a fraction of these claims as likely hallucinations, which should undergo extra review or be automatically rejected. Our method achieves high precision when identifying both individual hallucinatory sentences and reports that contain hallucinations. As an easy-to-use, black-box system that only requires access to a model's temperature parameter, RadFlag is compatible with a wide range of radiology report generation models and has the potential to broadly improve the quality of automated radiology reporting.
- Abstract(参考訳): 医療画像から正確な放射線診断レポートを生成することは臨床的に重要であるが、難しい課題である。
現在のビジョン言語モデル(VLM)は、将来性を示すが、幻覚を発生させる傾向があり、患者のケアを損なう可能性がある。
我々はラジオロジーレポート生成の精度を高めるブラックボックス手法であるRadFlagを紹介した。
本手法では, 除去すべき幻覚世代を見つけるために, サンプリングベースのフラグング手法を用いる。
まず、様々な温度で複数のレポートをサンプリングし、次にLarge Language Model(LLM)を使用して、サンプル間で一貫してサポートされていないクレームを特定し、それらのクレームに対する信頼性が低いことを示す。
校正しきい値を用いて、これらの主張のごく一部を幻覚であると宣言する。
本手法は,個々の幻覚文と幻覚を含む報告を識別する際に高い精度を達成する。
RadFlagは、モデルの温度パラメータへのアクセスのみを必要とする使い勝手の良いブラックボックスシステムとして、幅広い放射線学レポート生成モデルと互換性があり、自動放射線学レポートの品質を広範囲に改善する可能性がある。
関連論文リスト
- Enhancing Hallucination Detection through Noise Injection [9.582929634879932]
大型言語モデル(LLM)は、幻覚として知られる、もっとも不正確な応答を生成する傾向にある。
ベイズ感覚のモデル不確実性を考慮し,検出精度を著しく向上できることを示す。
サンプリング中にモデルパラメータの適切なサブセット、あるいは等価に隠されたユニットアクティベーションを摂動する、非常に単純で効率的なアプローチを提案する。
論文 参考訳(メタデータ) (2025-02-06T06:02:20Z) - RadAlign: Advancing Radiology Report Generation with Vision-Language Concept Alignment [10.67889367763112]
RadAlignは、視覚言語モデルの予測精度と大きな言語モデルの推論能力を組み合わせた、新しいフレームワークである。
本フレームワークは, 幻覚の低減, 自動医用画像の進歩, 予測AIと生成AIの統合による報告分析を両立させながら, 強力な臨床解釈可能性を維持している。
論文 参考訳(メタデータ) (2025-01-13T17:55:32Z) - ReXTrust: A Model for Fine-Grained Hallucination Detection in AI-Generated Radiology Reports [2.0497867300374373]
ReXTrustは、AI生成放射線学レポートにおける微細言語幻覚検出のための新しいフレームワークである。
我々はMIMIC-CXRデータセットのサブセット上でReXTrustを評価し,既存手法と比較して優れた性能を示した。
論文 参考訳(メタデータ) (2024-12-17T02:07:33Z) - Semantic Consistency-Based Uncertainty Quantification for Factuality in Radiology Report Generation [20.173287130474797]
生成医療ビジョン大言語モデル(VLLM)は幻覚を起こしやすく、不正確な診断情報を生成できる。
報告レベルと文レベルの不確実性の両方を提供するセマンティック一貫性に基づく不確実性定量化フレームワークを新たに導入する。
高不確実性レポートを控えることで、私たちのアプローチは事実性スコアを10ドル%改善し、20ドル%のレポートを拒否します。
論文 参考訳(メタデータ) (2024-12-05T20:43:39Z) - Lookback Lens: Detecting and Mitigating Contextual Hallucinations in Large Language Models Using Only Attention Maps [48.58310785625051]
大型言語モデル(LLM)は詳細を幻覚し、根拠のない回答で応答することができる。
本稿では,このような文脈的幻覚を検出するための簡単なアプローチについて述べる。
論文 参考訳(メタデータ) (2024-07-09T17:44:34Z) - Pragmatic Radiology Report Generation [39.96409366755059]
胸部X線で肺炎がみつからなかった場合、この陰性な観察を報告すべきか、省略すべきか。
本研究では,モデル幻覚の源として画像から推測不能な情報を識別する枠組みを開発し,基礎的報告のクリーニングによってそれらを制限する。
論文 参考訳(メタデータ) (2023-11-28T19:00:03Z) - AutoHall: Automated Hallucination Dataset Generation for Large Language Models [56.92068213969036]
本稿では,AutoHallと呼ばれる既存のファクトチェックデータセットに基づいて,モデル固有の幻覚データセットを自動的に構築する手法を提案する。
また,自己コントラディションに基づくゼロリソース・ブラックボックス幻覚検出手法を提案する。
論文 参考訳(メタデータ) (2023-09-30T05:20:02Z) - XrayGPT: Chest Radiographs Summarization using Medical Vision-Language
Models [60.437091462613544]
我々は,会話型医療ビジョン言語モデルであるXrayGPTを紹介する。
胸部X線写真に関するオープンエンドの質問を分析し、答えることができる。
自由テキストラジオグラフィーレポートから217kの対話的かつ高品質な要約を生成する。
論文 参考訳(メタデータ) (2023-06-13T17:59:59Z) - Elastic Weight Removal for Faithful and Abstractive Dialogue Generation [61.40951756070646]
対話システムは、関連する文書に含まれる知識に忠実な応答を生成するべきである。
多くのモデルは、それと矛盾したり、検証不可能な情報を含んでいる代わりに幻覚応答を生成する。
本手法は,幻覚と抽出反応を同時に阻止するために拡張できることが示唆された。
論文 参考訳(メタデータ) (2023-03-30T17:40:30Z) - Detecting Hallucinated Content in Conditional Neural Sequence Generation [165.68948078624499]
出力シーケンスの各トークンが(入力に含まれていない)幻覚化されているかどうかを予測するタスクを提案する。
また、合成データに微調整された事前学習言語モデルを用いて幻覚を検出する方法についても紹介する。
論文 参考訳(メタデータ) (2020-11-05T00:18:53Z) - Text Mining to Identify and Extract Novel Disease Treatments From
Unstructured Datasets [56.38623317907416]
Google Cloudを使って、NPRラジオ番組のポッドキャストのエピソードを書き起こします。
次に、テキストを体系的に前処理するためのパイプラインを構築します。
我々のモデルは、Omeprazoleが心臓熱傷の治療に役立てることに成功しました。
論文 参考訳(メタデータ) (2020-10-22T19:52:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。