論文の概要: Hallucination Benchmark in Medical Visual Question Answering
- arxiv url: http://arxiv.org/abs/2401.05827v1
- Date: Thu, 11 Jan 2024 10:52:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-12 15:00:10.616488
- Title: Hallucination Benchmark in Medical Visual Question Answering
- Title(参考訳): 医用視覚質問応答における幻覚ベンチマーク
- Authors: Jinge Wu, Yunsoo Kim, Honghan Wu
- Abstract要約: 我々は,質問応答セットと組み合わせた医療画像の幻覚ベンチマークを作成し,最先端モデルの総合的な評価を行った。
この研究は、現在のモデル制限の詳細な分析を提供し、様々なプロンプト戦略の有効性を明らかにする。
- 参考スコア(独自算出の注目度): 2.731370016108389
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recent success of large language and vision models on vision question
answering (VQA), particularly their applications in medicine (Med-VQA), has
shown a great potential of realizing effective visual assistants for
healthcare. However, these models are not extensively tested on the
hallucination phenomenon in clinical settings. Here, we created a hallucination
benchmark of medical images paired with question-answer sets and conducted a
comprehensive evaluation of the state-of-the-art models. The study provides an
in-depth analysis of current models limitations and reveals the effectiveness
of various prompting strategies.
- Abstract(参考訳): 視覚質問応答(VQA)における大規模言語と視覚モデルの成功、特に医学的応用(Med-VQA)は、医療に有効な視覚アシスタントを実現する大きな可能性を示している。
しかし、これらのモデルは、臨床環境での幻覚現象に対して広範囲に検査されない。
そこで我々は,問答セットと組み合わせた医用画像の幻覚ベンチマークを作成し,最新モデルの包括的評価を行った。
この研究は、現在のモデルの限界を詳細に分析し、様々なプロンプト戦略の有効性を明らかにする。
関連論文リスト
- H-POPE: Hierarchical Polling-based Probing Evaluation of Hallucinations in Large Vision-Language Models [0.0]
対象物の存在と属性の幻覚を評価する粗粒度ベンチマークであるH-POPEを提案する。
評価の結果,モデルが物体の存在に幻覚を与える傾向がみられ,さらに微粒な属性が生じる傾向が示唆された。
論文 参考訳(メタデータ) (2024-11-06T17:55:37Z) - Explore the Hallucination on Low-level Perception for MLLMs [83.12180878559295]
低レベルの視覚知覚と理解タスクにおけるMLLMの自己認識性を定義し,評価することを目的としている。
低レベルの視覚に対する人間の反応をシミュレートするベンチマーク設定であるQL-Benchを提案する。
いくつかのモデルでは、ロバストな低レベル視覚能力を示すが、その自己認識性は比較的未発達である。
論文 参考訳(メタデータ) (2024-09-15T14:38:29Z) - MedVH: Towards Systematic Evaluation of Hallucination for Large Vision Language Models in the Medical Context [21.562034852024272]
LVLM(Large Vision Language Models)は、最近、自然画像やテキストデータにおける様々なタスクにおいて、優れたパフォーマンスを実現している。
それらの進歩にもかかわらず、より小さなデータセットで微調整された場合の幻覚に対するこれらのモデルの堅牢性について、精査された研究がなされている。
領域固有のLVLMの幻覚を評価するために,新しいベンチマークデータセットであるMedVH(MedVH)を導入する。
論文 参考訳(メタデータ) (2024-07-03T00:59:03Z) - Detecting and Evaluating Medical Hallucinations in Large Vision Language Models [22.30139330566514]
大規模ビジョン言語モデル(LVLM)は、医療アプリケーションにとってますます不可欠なものになっている。
LVLMは幻覚への感受性を継承する。
幻覚検出と評価に特化して設計された最初のベンチマークであるMed-HallMarkを紹介する。
また,正確な幻覚検出のための医療用LVLMであるMedHallDetectorも紹介した。
論文 参考訳(メタデータ) (2024-06-14T17:14:22Z) - Quantity Matters: Towards Assessing and Mitigating Number Hallucination in Large Vision-Language Models [57.42800112251644]
本研究では,画像中の特定の物体の数を誤って識別するモデルを参照しながら,特定の種類の幻覚数幻覚に焦点を当てた。
そこで,本研究では,数幻覚を減らすための一貫性向上を目的としたトレーニング手法を考案し,直接微調整法よりも8%の性能向上を図った。
論文 参考訳(メタデータ) (2024-03-03T02:31:11Z) - On Large Visual Language Models for Medical Imaging Analysis: An
Empirical Study [13.972931873011914]
大規模言語モデル(LLM)は自然言語処理において注目されている。
LLaVA、Flamingo、CLIPといったビジュアル言語モデル(VLM)は、様々な視覚言語タスクにおいて印象的なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-21T23:01:38Z) - OmniMedVQA: A New Large-Scale Comprehensive Evaluation Benchmark for Medical LVLM [48.16696073640864]
我々は,新しい包括的ビジュアル質問回答(VQA)ベンチマークであるOmniMedVQAを紹介する。
このベンチマークのすべての画像は、本物の医療シナリオから得られたものです。
既存のLVLMはこれらの医療用VQA問題に効果的に取り組むのに苦労していることがわかった。
論文 参考訳(メタデータ) (2024-02-14T13:51:56Z) - Towards Mitigating Hallucination in Large Language Models via
Self-Reflection [63.2543947174318]
大規模言語モデル(LLM)は、質問応答(QA)タスクを含む生成的および知識集約的なタスクを約束している。
本稿では,広範に採用されているLCMとデータセットを用いた医療再生QAシステムにおける幻覚現象を解析する。
論文 参考訳(メタデータ) (2023-10-10T03:05:44Z) - Negative Object Presence Evaluation (NOPE) to Measure Object Hallucination in Vision-Language Models [67.8024390595066]
NOPE(Negative Object Presence Evaluation)は、視覚言語(VL)モデルにおける物体幻覚を評価するために設計された新しいベンチマークである。
視覚的問題における物体の非存在を識別するために,10種類の最先端VLモデルの性能を広範囲に検討する。
論文 参考訳(メタデータ) (2023-10-09T01:52:27Z) - Artificial General Intelligence for Medical Imaging Analysis [92.3940918983821]
大規模人工知能(AGI)モデルは、様々な汎用ドメインタスクにおいて前例のない成功を収めた。
これらのモデルは、医学分野固有の複雑さとユニークな特徴から生じる顕著な課題に直面している。
このレビューは、医療画像、医療などにおけるAGIの将来的な意味についての洞察を提供することを目的としている。
論文 参考訳(メタデータ) (2023-06-08T18:04:13Z) - A Question-Centric Model for Visual Question Answering in Medical
Imaging [3.619444603816032]
そこで本稿では,画像の問合せを質問文で行う視覚質問解答手法を提案する。
種々の医用・自然画像データセットを用いた実験により, 提案手法は, 画像特徴と疑問特徴を新しい方法で融合させることで, 従来の手法と同等あるいは高い精度を達成できることが示されている。
論文 参考訳(メタデータ) (2020-03-02T10:16:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。