Fugu-MT 論文翻訳(概要): ClinCoT: Clinical-Aware Visual Chain-of-Thought for Medical Vision Language Models

論文の概要: ClinCoT: Clinical-Aware Visual Chain-of-Thought for Medical Vision Language Models

arxiv url: http://arxiv.org/abs/2603.01124v1
Date: Sun, 01 Mar 2026 14:15:54 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-03 19:50:56.522544
Title: ClinCoT: Clinical-Aware Visual Chain-of-Thought for Medical Vision Language Models
Title（参考訳）: ClinCoT:医療ビジョン言語モデルのための臨床認識型ビジュアルチェーン
Authors: Xiwei Liu, Yulong Li, Xinlin Zhuang, Xuhui Li, Jianxu Chen, Haolin Yang, Imran Razzak, Yutong Xie,
Abstract要約: そこで我々は,ClinCoTを提案することで,好みの最適化を応答レベルの補正から視覚駆動推論へ変換する。 ClinCoTは,従来の嗜好に基づくアライメント手法と比較して,事実上のグラウンド化を一貫して改善し,優れた性能を実現することを示す。
参考スコア（独自算出の注目度）: 24.19721015692576
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Medical Vision-Language Models have shown promising potential in clinical decision support, yet they remain prone to factual hallucinations due to insufficient grounding in localized pathological evidence. Existing medical alignment methods primarily operate at the response level through preference optimization, improving output correctness but leaving intermediate reasoning weakly connected to visual regions. Although chain-of-thought (CoT) enhances multimodal reasoning, it remains largely text-centric, limiting effective integration of clinical visual cues. To address this gap, we propose ClinCoT, a clinical-aware visual chain-of-thought framework that transforms preference optimization from response-level correction to visual-driven reasoning. We introduce an automatic data generation pipeline that constructs clinically grounded preference pairs through reasoning with hypotheses-driven region proposals. Multiple Med-LLMs evaluators rank and assign scores to each response, and these rankings serve as supervision to train the target model. We further introduce a scoring-based margin-aware optimization strategy that incorporates both preference ranking and score difference to refine region-level reasoning trajectories. To maintain alignment as the model's policy evolves during training, we adopt an iterative learning scheme that dynamically regenerates preference data. Extensive experiments on three medical VQA and report generation benchmarks demonstrate that ClinCoT consistently improves factual grounding and achieves superior performance compared with existing preference-based alignment methods.
Abstract（参考訳）: 医療ビジョン・ランゲージモデル(英語版)は、臨床診断支援に有望な可能性を示しているが、局所的な病理学的証拠の根拠が不十分なため、事実上の幻覚を呈する傾向にある。既存の医療アライメント手法は、優先最適化によって主に応答レベルで動作し、出力の正しさを向上するが、中間的推論は視覚領域と弱い結びつきを残している。チェーン・オブ・シント(CoT)は多モーダル推論を強化するが、主にテキスト中心であり、臨床視覚的手がかりの効果的な統合を制限している。このギャップに対処するため、我々はClinCoTを提案する。ClinCoTは、好みの最適化を応答レベルの補正から視覚駆動推論に変換する、臨床対応型ビジュアルチェーン・オブ・思想フレームワークである。本稿では,仮説駆動型領域提案による推論により,臨床的根拠を持つ選好ペアを構築する自動データ生成パイプラインを提案する。複数のMed-LLM評価器は、各応答にスコアをランク付けし割り当て、これらのランキングはターゲットモデルをトレーニングする監督役として機能する。さらに、選好ランクとスコア差の両方を組み込んだスコアベースのマージン認識最適化戦略を導入し、地域レベルの推論を洗練させる。トレーニング中にモデルのポリシーが進化するにつれてアライメントを維持するために、好みデータを動的に再生する反復学習方式を採用する。 3つの医療用VQAおよびレポート生成ベンチマークの広範囲な実験により、ClinCoTは、既存の嗜好に基づくアライメント手法と比較して、事実上のグラウンド化を一貫して改善し、優れたパフォーマンスを達成することが示された。

関連論文リスト

MedScope: Incentivizing "Think with Videos" for Clinical Reasoning via Coarse-to-Fine Tool Calling [51.31633278218137]
MedScope(メドスコープ)は、ロングフォームなプロシージャを追求する粗大な証拠を実行する、ツールを用いた臨床ビデオ推論モデルである。 ClinVideoSuiteは、エビデンス中心の、きめ細かい臨床ビデオスイートだ。フルできめ細かいビデオ理解ベンチマークでは、MedScopeは最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2026-02-11T09:47:02Z)
S-Chain: Structured Visual Chain-of-Thought For Medicine [81.97605645734741]
S-Chainは,有界ボックスと構造化ビジュアルCoT(SV-CoT)を備えた,12,000のエキスパートアノテートされた医用画像の最初の大規模データセットである。データセットはさらに16言語をサポートし、幅広い多言語適用性のための合計700万VQAペアをサポートする。 S-Chainは、根拠のある医療推論のための新しいベンチマークを確立し、より信頼性が高く説明可能な医療ビジョン言語モデルへの道を開く。
論文参考訳（メタデータ） (2025-10-26T15:57:14Z)
MedAlign: A Synergistic Framework of Multimodal Preference Optimization and Federated Meta-Cognitive Reasoning [52.064286116035134]
我々はMed-VQA(Med-VQA)のための視覚的LVLM応答を保証するフレームワークであるMedAlignを開発した。まず、優先学習を視覚的コンテキストに合わせるために、マルチモーダルな直接選好最適化(mDPO)の目的を提案する。次に、画像とテキストの類似性を生かし、クエリを専門的でコンテキスト拡張されたLVLMにルーティングする検索型混合処理(RA-MoE)アーキテクチャを設計する。
論文参考訳（メタデータ） (2025-10-24T02:11:05Z)
Self-Supervised Anatomical Consistency Learning for Vision-Grounded Medical Report Generation [61.350584471060756]
医用画像の臨床的に正確な記述を作成することを目的とした医用レポート生成。本稿では, 自己監督型解剖学的一貫性学習(SS-ACL)を提案し, 生成された報告を対応する解剖学的領域と整合させる。 SS-ACLは、ヒト解剖学の不変のトップダウン包摂構造にインスパイアされた階層的な解剖学的グラフを構築する。
論文参考訳（メタデータ） (2025-09-30T08:59:06Z)
Optimizing Long-Form Clinical Text Generation with Claim-Based Rewards [9.525090594500577]
長期臨床テキスト生成のための評価統合強化学習フレームワークを提案する。提案手法は,個別の報酬モデルを訓練したり,人手による参照に頼ることなく,現実的な接地と完全性を直接的に最適化する。このフレームワークは現実世界の設定にスケーラブルで、ガイドラインの遵守や請求の好みといったカスタムの目的を組み込むことができる。
論文参考訳（メタデータ） (2025-09-26T17:53:08Z)
Fleming-R1: Toward Expert-Level Medical Reasoning via Reinforcement Learning [6.778254993886297]
Fleming-R1は、3つの相補的な革新を通じて、医学的推論を検証するために設計されたモデルである。まず、我々のReasoning-Oriented Data Strategy(RODS)は、キュレートされた医療用QAデータセットと知識グラフ誘導合成を組み合わせる。第2に,教師モデルから高品質な推論軌跡を蒸留するために,CoTコールドスタート(Chain-of-Thought)を用いる。第三に、検証可能なリワードフレームワークから2段階の強化学習を実装します。
論文参考訳（メタデータ） (2025-09-18T13:35:14Z)
RPRO: Ranked Preference Reinforcement Optimization for Enhancing Medical QA and Diagnostic Reasoning [5.493679122639688]
医学的な質問応答には、ドメイン知識と論理的推論を統合する高度な推論が必要である。そこで我々は,強化学習と嗜好駆動型推論改良を組み合わせた新しいフレームワークであるランキング優先強化最適化(RPRO)を提案する。
論文参考訳（メタデータ） (2025-08-31T19:38:25Z)
Uncertainty-Driven Expert Control: Enhancing the Reliability of Medical Vision-Language Models [52.2001050216955]
既存の方法は、モデル構造を調整したり、高品質なデータで微調整したり、好みの微調整によって、医療ビジョン言語モデル(MedVLM)の性能を向上させることを目的としている。我々は,MedVLMと臨床専門知識の連携を図るために,Expert-Controlled-Free Guidance (Expert-CFG) という,ループ内のエキスパート・イン・ザ・ループフレームワークを提案する。
論文参考訳（メタデータ） (2025-07-12T09:03:30Z)
GEMeX-RMCoT: An Enhanced Med-VQA Dataset for Region-Aware Multimodal Chain-of-Thought Reasoning [60.03671205298294]
医学的視覚的質問応答は、医学的イメージに基づいた自然言語的質問にモデルで答えることによって、臨床的な意思決定を支援することを目的としている。現在の方法はまだ、答えの信頼性の制限と解釈性の低下に悩まされている。この研究はまず、回答を生成するプロセスが中間的推論ステップのシーケンスに先行する領域対応マルチモーダル・チェーン・オブ・ソートデータセットを提案する。
論文参考訳（メタデータ） (2025-06-22T08:09:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。