論文の概要: Hallucination Benchmark in Medical Visual Question Answering
- arxiv url: http://arxiv.org/abs/2401.05827v2
- Date: Wed, 3 Apr 2024 12:42:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 22:27:34.504513
- Title: Hallucination Benchmark in Medical Visual Question Answering
- Title(参考訳): 医学的視覚的質問応答における幻覚のベンチマーク
- Authors: Jinge Wu, Yunsoo Kim, Honghan Wu,
- Abstract要約: 我々は,質問応答セットと組み合わせた医療画像の幻覚ベンチマークを作成し,最先端モデルの総合的な評価を行った。
この研究は、現在のモデルの限界を詳細に分析し、様々なプロンプト戦略の有効性を明らかにする。
- 参考スコア(独自算出の注目度): 2.4302611783073145
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recent success of large language and vision models (LLVMs) on vision question answering (VQA), particularly their applications in medicine (Med-VQA), has shown a great potential of realizing effective visual assistants for healthcare. However, these models are not extensively tested on the hallucination phenomenon in clinical settings. Here, we created a hallucination benchmark of medical images paired with question-answer sets and conducted a comprehensive evaluation of the state-of-the-art models. The study provides an in-depth analysis of current models' limitations and reveals the effectiveness of various prompting strategies.
- Abstract(参考訳): 視覚質問応答(VQA)における大規模言語と視覚モデル(LLVM)の成功、特に医学的応用(Med-VQA)は、医療に有効な視覚アシスタントを実現する大きな可能性を示している。
しかし、これらのモデルは、臨床環境での幻覚現象に対して広範囲に検査されない。
そこで我々は,質問応答セットと組み合わせた医用画像の幻覚ベンチマークを作成し,最先端モデルの総合的な評価を行った。
この研究は、現在のモデルの限界を詳細に分析し、様々なプロンプト戦略の有効性を明らかにする。
関連論文リスト
- Guiding Medical Vision-Language Models with Explicit Visual Prompts: Framework Design and Comprehensive Exploration of Prompt Variations [15.052986179046076]
医用エンティティ抽出,視覚的プロンプト生成,およびデータセット適応を統合した,視覚的プロンプトによる微調整のための先駆的フレームワークであるMedVPを紹介する。
我々は、複数の医療用VQAデータセットにおいて、最新の最先端の大規模モデルを上回る結果を得た。
論文 参考訳(メタデータ) (2025-01-04T21:23:36Z) - HALLUCINOGEN: A Benchmark for Evaluating Object Hallucination in Large Visual-Language Models [57.58426038241812]
LVLM(Large Vision-Language Models)は、複雑なマルチモーダルタスクの実行において顕著な性能を示す。
本稿では,新しい視覚的質問応答(VQA)オブジェクト幻覚攻撃ベンチマークであるHALLUCINOGENを提案する。
バイオメディカルドメインに適合した幻覚攻撃であるMED-HALLUCINOGENを導入した。
論文 参考訳(メタデータ) (2024-12-29T23:56:01Z) - H-POPE: Hierarchical Polling-based Probing Evaluation of Hallucinations in Large Vision-Language Models [0.0]
対象物の存在と属性の幻覚を評価する粗粒度ベンチマークであるH-POPEを提案する。
評価の結果,モデルが物体の存在に幻覚を与える傾向がみられ,さらに微粒な属性が生じる傾向が示唆された。
論文 参考訳(メタデータ) (2024-11-06T17:55:37Z) - Explore the Hallucination on Low-level Perception for MLLMs [83.12180878559295]
低レベルの視覚知覚と理解タスクにおけるMLLMの自己認識性を定義し,評価することを目的としている。
低レベルの視覚に対する人間の反応をシミュレートするベンチマーク設定であるQL-Benchを提案する。
いくつかのモデルでは、ロバストな低レベル視覚能力を示すが、その自己認識性は比較的未発達である。
論文 参考訳(メタデータ) (2024-09-15T14:38:29Z) - MedVH: Towards Systematic Evaluation of Hallucination for Large Vision Language Models in the Medical Context [21.562034852024272]
LVLM(Large Vision Language Models)は、最近、自然画像やテキストデータにおける様々なタスクにおいて、優れたパフォーマンスを実現している。
それらの進歩にもかかわらず、より小さなデータセットで微調整された場合の幻覚に対するこれらのモデルの堅牢性について、精査された研究がなされている。
領域固有のLVLMの幻覚を評価するために,新しいベンチマークデータセットであるMedVH(MedVH)を導入する。
論文 参考訳(メタデータ) (2024-07-03T00:59:03Z) - Detecting and Evaluating Medical Hallucinations in Large Vision Language Models [22.30139330566514]
大規模ビジョン言語モデル(LVLM)は、医療アプリケーションにとってますます不可欠なものになっている。
LVLMは幻覚への感受性を継承する。
幻覚検出と評価に特化して設計された最初のベンチマークであるMed-HallMarkを紹介する。
また,正確な幻覚検出のための医療用LVLMであるMedHallDetectorも紹介した。
論文 参考訳(メタデータ) (2024-06-14T17:14:22Z) - Quantity Matters: Towards Assessing and Mitigating Number Hallucination in Large Vision-Language Models [57.42800112251644]
本研究では,画像中の特定の物体の数を誤って識別するモデルを参照しながら,特定の種類の幻覚数幻覚に焦点を当てた。
そこで,本研究では,数幻覚を減らすための一貫性向上を目的としたトレーニング手法を考案し,直接微調整法よりも8%の性能向上を図った。
論文 参考訳(メタデータ) (2024-03-03T02:31:11Z) - Towards Mitigating Hallucination in Large Language Models via
Self-Reflection [63.2543947174318]
大規模言語モデル(LLM)は、質問応答(QA)タスクを含む生成的および知識集約的なタスクを約束している。
本稿では,広範に採用されているLCMとデータセットを用いた医療再生QAシステムにおける幻覚現象を解析する。
論文 参考訳(メタデータ) (2023-10-10T03:05:44Z) - Negative Object Presence Evaluation (NOPE) to Measure Object Hallucination in Vision-Language Models [67.8024390595066]
NOPE(Negative Object Presence Evaluation)は、視覚言語(VL)モデルにおける物体幻覚を評価するために設計された新しいベンチマークである。
視覚的問題における物体の非存在を識別するために,10種類の最先端VLモデルの性能を広範囲に検討する。
論文 参考訳(メタデータ) (2023-10-09T01:52:27Z) - Artificial General Intelligence for Medical Imaging Analysis [92.3940918983821]
大規模人工知能(AGI)モデルは、様々な汎用ドメインタスクにおいて前例のない成功を収めた。
これらのモデルは、医学分野固有の複雑さとユニークな特徴から生じる顕著な課題に直面している。
このレビューは、医療画像、医療などにおけるAGIの将来的な意味についての洞察を提供することを目的としている。
論文 参考訳(メタデータ) (2023-06-08T18:04:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。