Fugu-MT 論文翻訳(概要): Better Eyes, Better Thoughts: Why Vision Chain-of-Thought Fails in Medicine

論文の概要: Better Eyes, Better Thoughts: Why Vision Chain-of-Thought Fails in Medicine

arxiv url: http://arxiv.org/abs/2603.06665v1
Date: Mon, 02 Mar 2026 10:32:44 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-10 15:13:12.689676
Title: Better Eyes, Better Thoughts: Why Vision Chain-of-Thought Fails in Medicine
Title（参考訳）: 視力が良く、思考が良くなる: 医学における視力の連鎖はなぜ機能しないのか
Authors: Yuan Wu, Zongxian Yang, Jiayu Qian, Songpan Gao, Guanxing Chen, Qiankun Li, Yu-An Huang, Zhi-An Huang,
Abstract要約: 大規模視覚言語モデル(VLM)は、一般的なドメインにおいてチェーン・オブ・シント(CoT)の恩恵を受けることが多いが、医療ビジョン言語タスクにおけるその有効性は未解明のままである。医学的視覚的質問応答では、CoTは汎用モデルと医療特化モデルにまたがって直接回答(DirA)を過小評価することが多い。微妙でドメイン固有の手がかりは視覚的接地を弱め、CoTはそれを修正するよりも早期の知覚の不確実性を複雑にする可能性がある。
参考スコア（独自算出の注目度）: 14.357554289480591
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Large vision-language models (VLMs) often benefit from chain-of-thought (CoT) prompting in general domains, yet its efficacy in medical vision-language tasks remains underexplored. We report a counter-intuitive trend: on medical visual question answering, CoT frequently underperforms direct answering (DirA) across general-purpose and medical-specific models. We attribute this to a \emph{medical perception bottleneck}: subtle, domain-specific cues can weaken visual grounding, and CoT may compound early perceptual uncertainty rather than correct it. To probe this hypothesis, we introduce two training-free, inference-time grounding interventions: (i) \emph{perception anchoring} via region-of-interest cues and (ii) \emph{description grounding} via high-quality textual guidance. Across multiple benchmarks and model families, these interventions improve accuracy, mitigate CoT degradation, and in several settings reverse the CoT--DirA inversion. Our findings suggest that reliable clinical VLMs require robust visual grounding and cross-modal alignment, beyond extending text-driven reasoning chains. Code is available \href{https://github.com/TianYin123/Better_Eyes_Better_Thoughts}{here}.
Abstract（参考訳）: 大規模視覚言語モデル(VLM)は、一般的なドメインにおいてチェーン・オブ・シント(CoT)の恩恵を受けることが多いが、医療ビジョン言語タスクにおけるその有効性は未解明のままである。医学的視覚的質問応答では、CoTは汎用モデルと医療特化モデルにまたがって直接回答(DirA)を過小評価することが多い。微妙でドメイン固有の手がかりは視覚的接地を弱め、CoTはそれを修正するよりも早期の知覚の不確実性を複雑にする可能性がある。この仮説を解明するために、我々は2つのトレーニングなし、推論時の接地的介入を紹介した。 (i)エリア・オブ・関心の手がかりによるemph{perception anchoring} (ii)高品質テキスト案内によるemph{description grounding} 複数のベンチマークとモデルファミリにわたって、これらの介入は精度を改善し、CoTの劣化を緩和し、いくつかの設定でCoT--DirAの反転を反転させる。以上の結果から,信頼性の高い臨床VLMは,テキスト駆動推論チェーンの拡張を超えて,堅牢な視覚的接地と横断的アライメントを必要とすることが示唆された。コードは href{https://github.com/TianYin123/Better_Eyes_Better_Thoughts}{here} で入手できる。

関連論文リスト

Deep Expert Injection for Anchoring Retinal VLMs with Domain-Specific Knowledge [66.67024684187915]
LVLM(Large Vision Language Models)は、眼科における自動診断の可能性を秘めている。彼らの臨床展開は、ドメイン固有の知識の欠如によって著しく妨げられている。 EyExInは、Deep Expert Injectionメカニズムを通じて専門知識で網膜VLMを固定するように設計されたフレームワークである。
論文参考訳（メタデータ） (2026-03-07T09:43:49Z)
Seeing Through the Chain: Mitigate Hallucination in Multimodal Reasoning Models via CoT Compression and Contrastive Preference Optimization [78.94590726578014]
マルチモーダル推論モデル (Multimodal reasoning model, MLRM) は幻覚の傾向が強く, 効果的な解はいまだ未発見のままである。 textbfCompression と textbfPreference textbfOptimization を組み合わせたトレーニングベースの緩和フレームワーク C3PO を提案する。
論文参考訳（メタデータ） (2026-02-03T11:00:55Z)
Thinking with Deltas: Incentivizing Reinforcement Learning via Differential Visual Reasoning Policy [75.66913260900726]
検証可能なリワードによる強化学習は、大規模言語モデルにおいてかなり高度な推論能力を持っている。既存のパラダイムは、テキスト中心の成果報酬によって推進され、モデルが視覚的知覚をバイパスすることを奨励します。我々はtextbfDifferential Visual Reasoning Policy によって駆動されるフレームワーク Deltas を用いた textbfThinking を提案する。
論文参考訳（メタデータ） (2026-01-11T08:25:34Z)
Revisiting the Necessity of Lengthy Chain-of-Thought in Vision-centric Reasoning Generalization [55.6995787502694]
本研究では,異なる言語パターン(CoT)設計が,一般化可能な視覚的推論能力の獲得にどのように影響するかを検討する。代表的なCoTフォーマットであるLanguage CoT, Grounding CoT, Visual CoTを比較した。実験の結果,視覚的および長時間のCoTは収束を主に加速するが,最終的な性能天井は持ち上げないことがわかった。
論文参考訳（メタデータ） (2025-11-27T16:19:34Z)
Causally-Grounded Dual-Path Attention Intervention for Object Hallucination Mitigation in LVLMs [26.144870818163387]
構造因果グラフを用いて幻覚過程をモデル化する枠組みを提案する。本稿では、復号時のモダリティ寄与不均衡を定量化する新しい計量であるVTACRを紹介する。トークン・レイヤ・アテンションを動的に調整する微細言語によるアテンション介入機構を設計する。
論文参考訳（メタデータ） (2025-11-12T06:13:26Z)
S-Chain: Structured Visual Chain-of-Thought For Medicine [81.97605645734741]
S-Chainは,有界ボックスと構造化ビジュアルCoT(SV-CoT)を備えた,12,000のエキスパートアノテートされた医用画像の最初の大規模データセットである。データセットはさらに16言語をサポートし、幅広い多言語適用性のための合計700万VQAペアをサポートする。 S-Chainは、根拠のある医療推論のための新しいベンチマークを確立し、より信頼性が高く説明可能な医療ビジョン言語モデルへの道を開く。
論文参考訳（メタデータ） (2025-10-26T15:57:14Z)
MedAlign: A Synergistic Framework of Multimodal Preference Optimization and Federated Meta-Cognitive Reasoning [52.064286116035134]
我々はMed-VQA(Med-VQA)のための視覚的LVLM応答を保証するフレームワークであるMedAlignを開発した。まず、優先学習を視覚的コンテキストに合わせるために、マルチモーダルな直接選好最適化(mDPO)の目的を提案する。次に、画像とテキストの類似性を生かし、クエリを専門的でコンテキスト拡張されたLVLMにルーティングする検索型混合処理(RA-MoE)アーキテクチャを設計する。
論文参考訳（メタデータ） (2025-10-24T02:11:05Z)
Treble Counterfactual VLMs: A Causal Approach to Hallucination [6.3952983618258665]
VisionLanguage Models (VLM) には、画像キャプション、視覚的質問応答、推論といった高度なマルチモーダルタスクがある。視覚的文脈やプロンプトと矛盾しない幻覚出力をしばしば生成する。既存の研究では、幻覚は統計的バイアス、言語優先、偏見のある特徴学習と結びついているが、構造的な因果理解は欠如している。
論文参考訳（メタデータ） (2025-03-08T11:13:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。