Fugu-MT 論文翻訳(概要): RadFlag: A Black-Box Hallucination Detection Method for Medical Vision Language Models

論文の概要: RadFlag: A Black-Box Hallucination Detection Method for Medical Vision Language Models

arxiv url: http://arxiv.org/abs/2411.00299v2
Date: Sat, 16 Nov 2024 04:37:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:43.157615
Title: RadFlag: A Black-Box Hallucination Detection Method for Medical Vision Language Models
Title（参考訳）: RadFlag:医療ビジョン言語モデルのためのブラックボックス幻覚検出方法
Authors: Serena Zhang, Sraavya Sambara, Oishi Banerjee, Julian Acosta, L. John Fahrner, Pranav Rajpurkar,
Abstract要約: 我々はラジオロジーレポート生成の精度を高めるブラックボックス手法であるRadFlagを紹介した。本手法では, 除去すべき幻覚世代を見つけるために, サンプリングベースのフラグング手法を用いる。本手法は,個々の幻覚文と幻覚を含む報告を識別する際に高い精度を達成する。
参考スコア（独自算出の注目度）: 1.803112712536978
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: Generating accurate radiology reports from medical images is a clinically important but challenging task. While current Vision Language Models (VLMs) show promise, they are prone to generating hallucinations, potentially compromising patient care. We introduce RadFlag, a black-box method to enhance the accuracy of radiology report generation. Our method uses a sampling-based flagging technique to find hallucinatory generations that should be removed. We first sample multiple reports at varying temperatures and then use a Large Language Model (LLM) to identify claims that are not consistently supported across samples, indicating that the model has low confidence in those claims. Using a calibrated threshold, we flag a fraction of these claims as likely hallucinations, which should undergo extra review or be automatically rejected. Our method achieves high precision when identifying both individual hallucinatory sentences and reports that contain hallucinations. As an easy-to-use, black-box system that only requires access to a model's temperature parameter, RadFlag is compatible with a wide range of radiology report generation models and has the potential to broadly improve the quality of automated radiology reporting.
Abstract（参考訳）: 医療画像から正確な放射線診断レポートを生成することは臨床的に重要であるが、難しい課題である。現在のビジョン言語モデル(VLM)は、将来性を示すが、幻覚を発生させる傾向があり、患者のケアを損なう可能性がある。我々はラジオロジーレポート生成の精度を高めるブラックボックス手法であるRadFlagを紹介した。本手法では, 除去すべき幻覚世代を見つけるために, サンプリングベースのフラグング手法を用いる。まず、様々な温度で複数のレポートをサンプリングし、次にLarge Language Model(LLM)を使用して、サンプル間で一貫してサポートされていないクレームを特定し、それらのクレームに対する信頼性が低いことを示す。校正しきい値を用いて、これらの主張のごく一部を幻覚であると宣言する。本手法は,個々の幻覚文と幻覚を含む報告を識別する際に高い精度を達成する。 RadFlagは、モデルの温度パラメータへのアクセスのみを必要とする使い勝手の良いブラックボックスシステムとして、幅広い放射線学レポート生成モデルと互換性があり、自動放射線学レポートの品質を広範囲に改善する可能性がある。

関連論文リスト

Generate, but Verify: Reducing Hallucination in Vision-Language Models with Retrospective Resampling [67.14942827452161]
VLM(Vision-Language Models)は視覚的理解に優れ、視覚幻覚に悩まされることが多い。本研究では,幻覚を意識したトレーニングとオンザフライの自己検証を統合した統合フレームワークREVERSEを紹介する。
論文参考訳（メタデータ） (2025-04-17T17:59:22Z)
RadAlign: Advancing Radiology Report Generation with Vision-Language Concept Alignment [10.67889367763112]
RadAlignは、視覚言語モデルの予測精度と大きな言語モデルの推論能力を組み合わせた、新しいフレームワークである。本フレームワークは, 幻覚の低減, 自動医用画像の進歩, 予測AIと生成AIの統合による報告分析を両立させながら, 強力な臨床解釈可能性を維持している。
論文参考訳（メタデータ） (2025-01-13T17:55:32Z)
ReXTrust: A Model for Fine-Grained Hallucination Detection in AI-Generated Radiology Reports [2.0497867300374373]
ReXTrustは、AI生成放射線学レポートにおける微細言語幻覚検出のための新しいフレームワークである。我々はMIMIC-CXRデータセットのサブセット上でReXTrustを評価し,既存手法と比較して優れた性能を示した。
論文参考訳（メタデータ） (2024-12-17T02:07:33Z)
Semantic Consistency-Based Uncertainty Quantification for Factuality in Radiology Report Generation [20.173287130474797]
生成医療ビジョン大言語モデル(VLLM)は幻覚を起こしやすく、不正確な診断情報を生成できる。報告レベルと文レベルの不確実性の両方を提供するセマンティック一貫性に基づく不確実性定量化フレームワークを新たに導入する。提案手法は,MIMIC-CXRデータセット上のtexttRadialogモデルを用いて,20ドル分のレポートを拒否することで,事実性スコアを10ドル%改善する。
論文参考訳（メタデータ） (2024-12-05T20:43:39Z)
An X-Ray Is Worth 15 Features: Sparse Autoencoders for Interpretable Radiology Report Generation [6.473805247939424]
既存のビジョンランゲージモデル(VLM)は幻覚に悩まされ、解釈性に欠け、高価な微調整を必要とする。我々は,SAE-Radを導入し,スパースオートエンコーダ(SAE)を用いて,事前学習された視覚変換器から人間の解釈可能な特徴へ潜在表現を分解する。
論文参考訳（メタデータ） (2024-10-04T11:40:21Z)
Lookback Lens: Detecting and Mitigating Contextual Hallucinations in Large Language Models Using Only Attention Maps [48.58310785625051]
大型言語モデル(LLM)は詳細を幻覚し、根拠のない回答で応答することができる。本稿では,このような文脈的幻覚を検出するための簡単なアプローチについて述べる。
論文参考訳（メタデータ） (2024-07-09T17:44:34Z)
Detecting and Mitigating Hallucination in Large Vision Language Models via Fine-Grained AI Feedback [48.065569871444275]
我々は,LVLM(Large Vision Language Models)における幻覚の検出と緩和について,きめ細かいAIフィードバックを用いて提案する。プロプライエタリモデルによる小型幻覚アノテーションデータセットを生成する。そこで本研究では,幻覚緩和モデルの訓練のための選好データセットを自動構築する検出テーマ書き換えパイプラインを提案する。
論文参考訳（メタデータ） (2024-04-22T14:46:10Z)
Uncertainty-aware Medical Diagnostic Phrase Identification and Grounding [72.18719355481052]
MRG(Messical Report Grounding)と呼ばれる新しい課題について紹介する。 MRGは医療報告から診断フレーズとその対応する接地箱を直接エンドツーエンドで識別することを目的としている。マルチモーダルな大規模言語モデルを用いて診断フレーズを予測する,堅牢で信頼性の高いフレームワークである uMedGround を提案する。
論文参考訳（メタデータ） (2024-04-10T07:41:35Z)
Pragmatic Radiology Report Generation [39.96409366755059]
胸部X線で肺炎がみつからなかった場合、この陰性な観察を報告すべきか、省略すべきか。本研究では,モデル幻覚の源として画像から推測不能な情報を識別する枠組みを開発し,基礎的報告のクリーニングによってそれらを制限する。
論文参考訳（メタデータ） (2023-11-28T19:00:03Z)
AutoHall: Automated Hallucination Dataset Generation for Large Language Models [56.92068213969036]
本稿では,AutoHallと呼ばれる既存のファクトチェックデータセットに基づいて,モデル固有の幻覚データセットを自動的に構築する手法を提案する。また,自己コントラディションに基づくゼロリソース・ブラックボックス幻覚検出手法を提案する。
論文参考訳（メタデータ） (2023-09-30T05:20:02Z)
Detecting and Preventing Hallucinations in Large Vision Language Models [4.7264116948935975]
M-HalDetectは、詳細な画像記述のための最初のマルチモーダル幻覚検出データセットである。 InstructBLIPから細粒度マルチモーダル報酬モデルを訓練し,その有効性を評価する。 LLaVAとmPLUG-OWLの幻覚をそれぞれ15%と57%低減する。
論文参考訳（メタデータ） (2023-08-11T21:35:20Z)
XrayGPT: Chest Radiographs Summarization using Medical Vision-Language Models [60.437091462613544]
我々は,会話型医療ビジョン言語モデルであるXrayGPTを紹介する。胸部X線写真に関するオープンエンドの質問を分析し、答えることができる。自由テキストラジオグラフィーレポートから217kの対話的かつ高品質な要約を生成する。
論文参考訳（メタデータ） (2023-06-13T17:59:59Z)
Improving Radiology Report Generation Systems by Removing Hallucinated References to Non-existent Priors [1.1110995501996481]
本稿では,放射線学報告における過去の文献参照を除去する2つの方法を提案する。 GPT-3をベースとした少数ショットによる医療報告の書き直し手法と,BioBERTをベースとしたトークン分類手法により,先行参照語を直接削除する手法である。 CXR-ReDonEと呼ばれる再学習モデルでは,臨床測定値に対する従来のレポート生成手法を上回り,平均BERTSスコア0.2351(絶対改善率2.57%)を達成した。
論文参考訳（メタデータ） (2022-09-27T00:44:41Z)
Detecting Hallucinated Content in Conditional Neural Sequence Generation [165.68948078624499]
出力シーケンスの各トークンが(入力に含まれていない)幻覚化されているかどうかを予測するタスクを提案する。また、合成データに微調整された事前学習言語モデルを用いて幻覚を検出する方法についても紹介する。
論文参考訳（メタデータ） (2020-11-05T00:18:53Z)
Text Mining to Identify and Extract Novel Disease Treatments From Unstructured Datasets [56.38623317907416]
Google Cloudを使って、NPRラジオ番組のポッドキャストのエピソードを書き起こします。次に、テキストを体系的に前処理するためのパイプラインを構築します。我々のモデルは、Omeprazoleが心臓熱傷の治療に役立てることに成功しました。
論文参考訳（メタデータ） (2020-10-22T19:52:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。