Fugu-MT 論文翻訳(概要): Look-Closer-Then-Diagnose: Confidence-Aware Ultrasound VQA via Active Zooming

論文の概要: Look-Closer-Then-Diagnose: Confidence-Aware Ultrasound VQA via Active Zooming

arxiv url: http://arxiv.org/abs/2605.21652v2
Date: Sat, 23 May 2026 13:26:54 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-26 16:32:37.944142
Title: Look-Closer-Then-Diagnose: Confidence-Aware Ultrasound VQA via Active Zooming
Title（参考訳）: Look-Closer-Then-Diagnose: 能動ズームによる信頼度対応超音波VQA
Authors: Yue Zhou, Erxuan Wu, Yikang Sun, Hongjoo Lee, Yuan Bi, Huixiong Xu, Nassir Navab, Zhongliang Jiang,
Abstract要約: VLM(Vision-Language Models)は、医学的な視覚的質問応答がかなり進歩しているが、超音波におけるその性能は依然として最適である。本稿では,ソノグラフィーの認知ワークフローを考慮したフレームワークを提案する。まず,構造的Zoom-then-Diagnoseパラダイムを導入する。
参考スコア（独自算出の注目度）: 41.40761036883243
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision-Language Models (VLMs) have significantly advanced medical visual question answering, yet their performance in ultrasound remains suboptimal. In clinical practice, sonographers explicitly focus on lesion regions to formulate reports, though diagnostic interpretations sometimes vary due to inherent subjectivity. However, existing VLMs are not explicitly structured to interactively zoom into lesions prior to diagnosis; moreover, they typically treat annotations as unbiased ground truths, failing to account for their inherent subjectivity and ambiguity. In this paper, we propose a framework specifically designed to consider the sonographer's cognitive workflow. We first introduce a structured Zoom-then-Diagnose paradigm, which replicates the interactive search process to enable lesion-focused reasoning. Furthermore, within the Group Relative Policy Optimization (GRPO) framework, we introduce an uncertainty-aware reward derived from stochastic group-wise rollouts to estimate prediction consistency as a proxy for model confidence. Together, these two components encourage the model to reinforce accurate predictions on clear cases while remaining cautious under ambiguity. Experiments across liver, breast, and thyroid datasets show that our framework improves lesion localization by 39.3\%, demonstrating that our model has learned the ability to actively look closer and diagnose.
Abstract（参考訳）: VLM(Vision-Language Models)は、医学的な視覚的質問応答がかなり進歩しているが、超音波におけるその性能は依然として最適である。臨床実践では、ソノグラフィーは報告を定式化するために病変領域に明示的に焦点をあてるが、診断の解釈は固有の主観性によって異なることがある。しかしながら、既存のVLMは診断前の病変をインタラクティブに拡大するために明示的に構成されていない。本稿では,ソノグラフィーの認知ワークフローを考慮したフレームワークを提案する。まず,構造的Zoom-then-Diagnoseパラダイムを導入する。さらに、GRPO(Group Relative Policy Optimization)フレームワークにおいて、確率的グループワイドロールアウトから導かれる不確実性を考慮した報酬を導入し、モデル信頼性のプロキシとして予測一貫性を推定する。これら2つのコンポーネントは、あいまいさに注意しながら、明確なケースの正確な予測を強化することを奨励する。肝臓、乳腺、甲状腺のデータセットでの実験では、我々のフレームワークは病変の局在を39.3倍に改善し、我々のモデルが積極的に近づき、診断する能力を学んだことを示している。

関連論文リスト

Medical Context Distorts Decisions in Clinical Vision Language Models [7.537887356414114]
ヴィジュアル言語モデル (VLM) は, 臨床診断支援のためにますます提案されているが, 現実シナリオにおける信頼性は乏しい。本報告では,画像上のテキストに対するモダリティの過度依存,関係のない臨床歴への急激な依存,意味論的に等価な入力に対する迅速な感度の3つの障害モードを同定する。
論文参考訳（メタデータ） (2026-05-17T13:11:38Z)
Dialectic-Med: Mitigating Diagnostic Hallucinations via Counterfactual Adversarial Multi-Agent Debate [2.645243404278707]
本稿では,対数弁証法を用いて診断厳格を強制するマルチエージェントフレームワークDialectic-Medを提案する。ファリシフィケーションの認知過程を明示的にモデル化することにより、診断的推論が検証された視覚領域にしっかりと根付いていることを保証する。
論文参考訳（メタデータ） (2026-04-13T10:09:36Z)
Delving Aleatoric Uncertainty in Medical Image Segmentation via Vision Foundation Models [56.29123284262618]
本研究は,視覚基盤モデルの普遍的表現能力を生かして固有データ不確実性を推定することを提案する。モデルのデコード表現の特徴の多様性を分析し,その特異値エネルギーを定量化し,各クラスに対する意味知覚尺度を定義する。この基礎に基づいて,本研究は,(1)潜在的にノイズの多いサンプルを排除し,モデル学習品質を向上させるためのアレータリック不確実性認識データフィルタリング機構,(2)意味認識尺度に基づくトレーニング中にクラス固有の損失重みを適応的に調整する動的不確実性認識最適化戦略,およびトレーニング安定性を向上させるラベル認知機構の2つの不確実性駆動型アプリケーション戦略を設計する。
論文参考訳（メタデータ） (2026-04-13T03:59:54Z)
Clinical Cognition Alignment for Gastrointestinal Diagnosis with Multimodal LLMs [63.535652574541764]
MLLM(Multimodal Large Language Models)は医用画像解析において顕著な可能性を示した。消化器内視鏡におけるそれらの応用は、現在、2つの重要な限界によって妨げられている。本稿では,これらの課題に対処する新しい臨床認知アライメント(CogAlign)フレームワークを提案する。
論文参考訳（メタデータ） (2026-03-21T07:47:37Z)
Deep Expert Injection for Anchoring Retinal VLMs with Domain-Specific Knowledge [66.67024684187915]
LVLM(Large Vision Language Models)は、眼科における自動診断の可能性を秘めている。彼らの臨床展開は、ドメイン固有の知識の欠如によって著しく妨げられている。 EyExInは、Deep Expert Injectionメカニズムを通じて専門知識で網膜VLMを固定するように設計されたフレームワークである。
論文参考訳（メタデータ） (2026-03-07T09:43:49Z)
Toward Guarantees for Clinical Reasoning in Vision Language Models via Formal Verification [12.60121003165514]
ヴィジュアル言語モデル(VLM)は放射線学レポートの起草において有望であるが、しばしば論理的矛盾に悩まされる。標準的な語彙測度は、臨床パラフレージングを強く罰し、これらの誘因的障害を捉えるのに失敗する。本稿では,VLMレポートの内部一貫性を決定的に監査するニューロシンボリック検証フレームワークを提案する。
論文参考訳（メタデータ） (2026-02-27T15:49:59Z)
Self-Supervised Anatomical Consistency Learning for Vision-Grounded Medical Report Generation [61.350584471060756]
医用画像の臨床的に正確な記述を作成することを目的とした医用レポート生成。本稿では, 自己監督型解剖学的一貫性学習(SS-ACL)を提案し, 生成された報告を対応する解剖学的領域と整合させる。 SS-ACLは、ヒト解剖学の不変のトップダウン包摂構造にインスパイアされた階層的な解剖学的グラフを構築する。
論文参考訳（メタデータ） (2025-09-30T08:59:06Z)
Uncertainty-Driven Expert Control: Enhancing the Reliability of Medical Vision-Language Models [52.2001050216955]
既存の方法は、モデル構造を調整したり、高品質なデータで微調整したり、好みの微調整によって、医療ビジョン言語モデル(MedVLM)の性能を向上させることを目的としている。我々は,MedVLMと臨床専門知識の連携を図るために,Expert-Controlled-Free Guidance (Expert-CFG) という,ループ内のエキスパート・イン・ザ・ループフレームワークを提案する。
論文参考訳（メタデータ） (2025-07-12T09:03:30Z)
Unveiling Interpretability in Self-Supervised Speech Representations for Parkinson's Diagnosis [9.91077163490596]
本稿では,パーキンソン病の診断を支援するための新しい枠組みを提案する。提案するフレームワークは, 単純かつ効果的なクロスアテンション機構の設計を通じて, 2つの異なる相補的視点から解釈可能性を提供する。提案手法は最先端の手法と競合すると同時に,言語間シナリオにおける堅牢性も実証する。
論文参考訳（メタデータ） (2024-12-02T22:23:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。