論文の概要: Step-CoT: Stepwise Visual Chain-of-Thought for Medical Visual Question Answering
- arxiv url: http://arxiv.org/abs/2603.13878v1
- Date: Sat, 14 Mar 2026 10:23:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.462545
- Title: Step-CoT: Stepwise Visual Chain-of-Thought for Medical Visual Question Answering
- Title(参考訳): Step-CoT: 医用ビジュアル質問応答のためのステップワイドビジュアルチェーン
- Authors: Lin Fan, Yafei Ou, Zhipeng Deng, Pengyu Dai, Hou Chongxian, Jiale Yan, Yaqian Li, Kaiwen Long, Xun Gong, Masayuki Ikebe, Yefeng Zheng,
- Abstract要約: チェーン・オブ・シークレット(CoT)推論は高度な医用視覚質問応答(VQA)を持つ
既存のCoTの合理性の多くは自由形であり、臨床医が実際に追従する構造的推論過程を捉えていない。
臨床診断に適合した多段階CoTを用いた大規模医療推論データセットであるStep-CoTを紹介する。
- 参考スコア(独自算出の注目度): 28.059247592857755
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Chain-of-thought (CoT) reasoning has advanced medical visual question answering (VQA), yet most existing CoT rationales are free-form and fail to capture the structured reasoning process clinicians actually follow. This work asks: Can traceable, multi-step reasoning supervision improve reasoning accuracy and the interpretability of Medical VQA? To this end, we introduce Step-CoT, a large-scale medical reasoning dataset with expert-curated, structured multi-step CoT aligned to clinical diagnostic workflows, implicitly grounding the model's reasoning in radiographic evidence. Step-CoT comprises more than 10K real clinical cases and 70K VQA pairs organized around diagnostic workflows, providing supervised intermediate steps that guide models to follow valid reasoning trajectories. To effectively learn from Step-CoT, we further introduce a teacher-student framework with a dynamic graph-structured focusing mechanism that prioritizes diagnostically informative steps while filtering out less relevant contexts. Our experiments show that using Step-CoT can improve reasoning accuracy and interpretability. Benchmark: github.com/hahaha111111/Step-CoT. Dataset Card: huggingface.co/datasets/fl-15o/Step-CoT
- Abstract(参考訳): チェーン・オブ・シント(CoT)推論は、先進的な医用視覚的質問応答(VQA)を持つが、既存のCoT論理はフリーフォームであり、臨床医が実際に従う構造的推論過程を捉えない。
追跡可能な多段階推論監督は、推論精度と医療用VQAの解釈可能性を改善することができるか?
この目的のために、我々は、専門的なキュレートされた構造化された多段階のCoTを用いた大規模医療推論データセットであるStep-CoTを導入し、X線学的エビデンスにおけるモデルの推論を暗黙的に根拠づける。
Step-CoTは、診断ワークフローを中心に構成された10K以上の実際の臨床ケースと70KのVQAペアで構成されており、モデルが有効な推論軌跡に従うように誘導する調整された中間ステップを提供する。
さらに,Step-CoTから効果的に学習するために,より関連性の低いコンテキストをフィルタリングしながら,診断に有意なステップを優先する動的グラフ構造化集中機構を備えた教師学生フレームワークを導入する。
実験の結果,Step-CoTを用いることで推論精度と解釈性が改善された。
ベンチマーク:github.com/hahaha1111/Step-CoT
Dataset Card: huggingface.co/datasets/fl-15o/Step-CoT
関連論文リスト
- Diagnosing Pathological Chain-of-Thought in Reasoning Models [2.8521161475937675]
チェーン・オブ・シンクレット(CoT)推論は現代のLLMアーキテクチャの基本である。
我々は, ポストホック合理化, エンコード推論, 内在的推論の3つの異なる病態を同定した。
我々の研究は、CoTの病態を評価するための実用的なツールキットを提供し、トレーニング時のモニタリングに直接的な意味を持つ。
論文 参考訳(メタデータ) (2026-02-14T21:53:47Z) - PathReasoner-R1: Instilling Structured Reasoning into Pathology Vision-Language Model via Knowledge-Guided Policy Optimization [6.821738567680833]
PathReasonerは,WSI推論の最初の大規模データセットである。
PathReasoner-R1は、教師付き微調整と推論指向の強化学習を相乗し、構造化されたチェーン・オブ・シント機能を注入する。
実験により、PathReasoner-R1はPathReasonerと公開ベンチマークの両方で、様々な画像スケールで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2026-01-29T12:21:16Z) - M3CoTBench: Benchmark Chain-of-Thought of MLLMs in Medical Image Understanding [66.78251988482222]
CoT(Chain-of-Thought)推論は、ステップバイステップの中間推論を奨励することによって、大規模言語モデルの強化に有効であることが証明されている。
医用画像理解のための現在のベンチマークでは、推論パスを無視しながら最終回答に重点を置いている。
M3CoTBenchは、透明で信頼性が高く、診断的に正確な医療用AIシステムの開発を促進することを目的としている。
論文 参考訳(メタデータ) (2026-01-13T17:42:27Z) - MedCoT-RAG: Causal Chain-of-Thought RAG for Medical Question Answering [4.285647375182588]
大規模言語モデル (LLM) は医学的な疑問に答える上で有望であるが、幻覚や浅い推論に苦しむことが多い。
Retrieval-augmented Generation (RAG)は、外部の医療知識でLSMを強化するための実用的でプライバシー保護の手段を提供する。
MedCoT-RAGは、因果認識ドキュメント検索と構造化チェーン・オブ・シークレット・プロンプトを組み合わせたドメイン固有フレームワークである。
論文 参考訳(メタデータ) (2025-08-20T05:43:26Z) - GEMeX-RMCoT: An Enhanced Med-VQA Dataset for Region-Aware Multimodal Chain-of-Thought Reasoning [60.03671205298294]
医学的視覚的質問応答は、医学的イメージに基づいた自然言語的質問にモデルで答えることによって、臨床的な意思決定を支援することを目的としている。
現在の方法はまだ、答えの信頼性の制限と解釈性の低下に悩まされている。
この研究はまず、回答を生成するプロセスが中間的推論ステップのシーケンスに先行する領域対応マルチモーダル・チェーン・オブ・ソートデータセットを提案する。
論文 参考訳(メタデータ) (2025-06-22T08:09:58Z) - Chiron-o1: Igniting Multimodal Large Language Models towards Generalizable Medical Reasoning via Mentor-Intern Collaborative Search [41.81463064393831]
マルチモーダルな大規模言語モデル(MLLM)は、一般的なタスクに対して堅牢な推論能力を実証し始めているが、医療分野への応用はまだ初期段階にある。
我々は、厳密で効果的な医療用CoTデータを生成するための新しい推論パス探索手法であるMentor-Intern Collaborative Search (MICS)を提案する。
我々は,難易度の高いマルチタスク医療推論データセットであるMMRPと,カリキュラム学習戦略によって考案された新しい医療MLLMであるChiron-o1を構築した。
論文 参考訳(メタデータ) (2025-06-20T12:51:19Z) - Stepwise Perplexity-Guided Refinement for Efficient Chain-of-Thought Reasoning in Large Language Models [56.37421741507468]
CoT推論は大規模言語モデル(LLM)の性能を大幅に向上させた。
本稿では,その重要性の尺度としてパープレキシティを用いた批判的推論ステップの同定手法を提案する。
論文 参考訳(メタデータ) (2025-02-18T20:04:51Z) - A Hopfieldian View-based Interpretation for Chain-of-Thought Reasoning [48.51969964676017]
CoT(Chain-of-Thought)は、大規模言語モデルの推論性能を高める上で重要な位置を占めている。
本稿では,CoTの精度を制御するためのリード・アンド・コントロル手法を提案する。
論文 参考訳(メタデータ) (2024-06-18T04:07:13Z) - CoRelation: Boosting Automatic ICD Coding Through Contextualized Code
Relation Learning [56.782963838838036]
我々は,ICDコード表現の学習を促進するために,文脈的かつ柔軟なフレームワークである新しい手法を提案する。
提案手法では,可能なすべてのコード関係をモデル化する際の臨床ノートのコンテキストを考慮した,依存型学習パラダイムを採用している。
論文 参考訳(メタデータ) (2024-02-24T03:25:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。