論文の概要: Hallucination-Aware Multimodal Benchmark for Gastrointestinal Image Analysis with Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2505.07001v1
- Date: Sun, 11 May 2025 14:54:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.153893
- Title: Hallucination-Aware Multimodal Benchmark for Gastrointestinal Image Analysis with Large Vision-Language Models
- Title(参考訳): 幻覚モデルを用いた消化管画像解析のための幻覚型マルチモーダルベンチマーク
- Authors: Bidur Khanal, Sandesh Pokhrel, Sanjay Bhandari, Ramesh Rana, Nikesh Shrestha, Ram Bahadur Gurung, Cristian Linte, Angus Watson, Yash Raj Shrestha, Binod Bhattarai,
- Abstract要約: VLM(Vision-Language Models)は、医療領域において、医療画像と臨床言語とのギャップを埋めることによって、ますます人気が高まっている。
しかしながら、幻覚(幻覚)-視覚内容と矛盾する記述を生成する傾向-は、VLMにおいて重要な問題である。
VLMによる消化管画像解析と幻覚の研究を容易にするため,マルチモーダル画像テキストGIデータセットをキュレートする。
このデータセットは2段階のパイプラインを使用して作成される。まず、Kvasir-v2画像の詳細な医療報告はChatGPTを使用して生成される。
- 参考スコア(独自算出の注目度): 5.545334160894197
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) are becoming increasingly popular in the medical domain, bridging the gap between medical images and clinical language. Existing VLMs demonstrate an impressive ability to comprehend medical images and text queries to generate detailed, descriptive diagnostic medical reports. However, hallucination--the tendency to generate descriptions that are inconsistent with the visual content--remains a significant issue in VLMs, with particularly severe implications in the medical field. To facilitate VLM research on gastrointestinal (GI) image analysis and study hallucination, we curate a multimodal image-text GI dataset: Gut-VLM. This dataset is created using a two-stage pipeline: first, descriptive medical reports of Kvasir-v2 images are generated using ChatGPT, which introduces some hallucinated or incorrect texts. In the second stage, medical experts systematically review these reports, and identify and correct potential inaccuracies to ensure high-quality, clinically reliable annotations. Unlike traditional datasets that contain only descriptive texts, our dataset also features tags identifying hallucinated sentences and their corresponding corrections. A common approach to reducing hallucination in VLM is to finetune the model on a small-scale, problem-specific dataset. However, we take a different strategy using our dataset. Instead of finetuning the VLM solely for generating textual reports, we finetune it to detect and correct hallucinations, an approach we call hallucination-aware finetuning. Our results show that this approach is better than simply finetuning for descriptive report generation. Additionally, we conduct an extensive evaluation of state-of-the-art VLMs across several metrics, establishing a benchmark. GitHub Repo: https://github.com/bhattarailab/Hallucination-Aware-VLM.
- Abstract(参考訳): VLM(Vision-Language Models)は、医療領域において、医療画像と臨床言語とのギャップを埋めることによって、ますます人気が高まっている。
既存のVLMでは、医用画像やテキストクエリを理解でき、詳細な詳細な診断医療レポートを生成することができる。
しかしながら、幻覚(幻覚)は、視覚内容と矛盾する記述を生成する傾向にあり、特に医療分野に深刻な影響を及ぼす。
VLMによる消化管画像解析と幻覚の研究を容易にするために,マルチモーダル画像テキストGIデータセットGut-VLMをキュレートする。
このデータセットは2段階のパイプラインを使用して作成される。まず、Kvasir-v2イメージの詳細な医療報告はChatGPTを使用して生成される。
第2段階では、医療専門家はこれらの報告を体系的にレビューし、高品質で臨床的に信頼できるアノテーションを保証するために潜在的な不正確さを特定し、修正する。
記述テキストのみを含む従来のデータセットとは異なり、私たちのデータセットは、幻覚文とそれに対応する修正を識別するタグも備えています。
VLMにおける幻覚を減らすための一般的なアプローチは、小規模で問題固有のデータセット上でモデルを微調整することである。
しかし、データセットを使って異なる戦略をとっています。
VLMを微細化してテキストレポートを生成する代わりに、幻覚を検知し、修正するように微調整します。
以上の結果から,本手法は記述的なレポート生成を単純に微調整するよりも優れていることが示唆された。
さらに,いくつかの指標にまたがって最先端のVLMを広範囲に評価し,ベンチマークを確立する。
GitHubリポジトリ:https://github.com/bhattarailab/Hallucination-Aware-VLM
関連論文リスト
- Reducing Hallucinations of Medical Multimodal Large Language Models with Visual Retrieval-Augmented Generation [15.468023420115431]
MLLMは、検索強化された生成フレームワークであるVisual RAGをサポートするためにどのように拡張されるかを示す。
MIMIC-CXR胸部X線レポート生成とマルチケア医療画像キャプション生成データセットについて,ビジュアルRAGが実体探索の精度を向上させることを示す。
論文 参考訳(メタデータ) (2025-02-20T20:55:34Z) - LLaVA-Ultra: Large Chinese Language and Vision Assistant for Ultrasound [7.941670191244354]
パラメータ効率の調整による中国の医用視覚会話のための微粒化適応型VLMアーキテクチャを提案する。
具体的には、微妙な医用視覚意味論の強化を実現するために、微細な視覚エンコーダを備えた融合モジュールを考案する。
実施にあたっては,病院から得られた大規模マルチモーダル中国語超音波データセットを利用する。
論文 参考訳(メタデータ) (2024-10-19T11:38:31Z) - ViKL: A Mammography Interpretation Framework via Multimodal Aggregation of Visual-knowledge-linguistic Features [54.37042005469384]
MVKLは,マルチビュー画像,詳細な表示,報告を含む最初のマルチモーダルマンモグラフィーデータセットである。
このデータセットに基づいて、教師なし事前学習のチャラリングタスクに焦点を当てる。
視覚,知識,言語機能を相乗化するフレームワークであるViKLを提案する。
論文 参考訳(メタデータ) (2024-09-24T05:01:23Z) - Make VLM Recognize Visual Hallucination on Cartoon Character Image with Pose Information [5.501684533538496]
視覚言語モデル(VLM)を用いた意味幻覚検出システムを提案する。
我々は、プロンプト、RGB画像、ポーズ情報を超えて視覚データをさらに入力することで、VLMの全体的な性能を改善する、ポーズ認識型インコンテキスト・ビジュアル・ラーニング(PA-ICVL)を導入する。
本研究は、コンテキスト内視覚学習による視覚幻覚を緩和し、非フォトリアリスティック領域における潜在能力を拡大することにより、TTIモデルの現実世界への応用に向けての能力を向上させる。
論文 参考訳(メタデータ) (2024-03-22T09:13:09Z) - Hallucination Augmented Contrastive Learning for Multimodal Large
Language Model [53.65682783591723]
マルチモーダル大規模言語モデル(MLLM)は、自然言語と視覚情報を効率的に統合し、マルチモーダルタスクを処理できることが示されている。
しかし、MLLMは幻覚の基本的な限界に直面しており、誤った情報や偽情報を生成する傾向がある。
本稿では,MLLMにおける幻覚を表現学習の新たな視点から論じる。
論文 参考訳(メタデータ) (2023-12-12T04:05:15Z) - Med-HALT: Medical Domain Hallucination Test for Large Language Models [0.0]
本研究では,大規模言語モデル(LLM)における幻覚による課題に焦点を当てた。
我々は,幻覚の評価と低減を目的とした新しいベンチマークとデータセット,Med-HALT (Medical Domain Hallucination Test) を提案する。
論文 参考訳(メタデータ) (2023-07-28T06:43:04Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - AlignTransformer: Hierarchical Alignment of Visual Regions and Disease
Tags for Medical Report Generation [50.21065317817769]
本稿では,Align Hierarchical Attention (AHA)とMulti-Grained Transformer (MGT)モジュールを含むAlign Transformerフレームワークを提案する。
パブリックなIU-XrayとMIMIC-CXRデータセットの実験は、AlignTransformerが2つのデータセットの最先端メソッドと競合する結果が得られることを示している。
論文 参考訳(メタデータ) (2022-03-18T13:43:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。