Fugu-MT 論文翻訳(概要): MedScope: Incentivizing "Think with Videos" for Clinical Reasoning via Coarse-to-Fine Tool Calling

論文の概要: MedScope: Incentivizing "Think with Videos" for Clinical Reasoning via Coarse-to-Fine Tool Calling

arxiv url: http://arxiv.org/abs/2602.13332v1
Date: Wed, 11 Feb 2026 09:47:02 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-17 14:17:27.923295
Title: MedScope: Incentivizing "Think with Videos" for Clinical Reasoning via Coarse-to-Fine Tool Calling
Title（参考訳）: MedScope:"Sink with Videos"をインセンティブとして,粗いツールコールによる臨床推論
Authors: Wenjie Li, Yujie Zhang, Haoran Sun, Xingqi He, Hongcheng Gao, Chenglong Ma, Ming Hu, Guankun Wang, Shiyi Yao, Renhao Yang, Hongliang Ren, Lei Wang, Junjun He, Yankai Jiang,
Abstract要約: MedScope(メドスコープ)は、ロングフォームなプロシージャを追求する粗大な証拠を実行する、ツールを用いた臨床ビデオ推論モデルである。 ClinVideoSuiteは、エビデンス中心の、きめ細かい臨床ビデオスイートだ。フルできめ細かいビデオ理解ベンチマークでは、MedScopeは最先端のパフォーマンスを実現している。
参考スコア（独自算出の注目度）: 51.31633278218137
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Long-form clinical videos are central to visual evidence-based decision-making, with growing importance for applications such as surgical robotics and related settings. However, current multimodal large language models typically process videos with passive sampling or weakly grounded inspection, which limits their ability to iteratively locate, verify, and justify predictions with temporally targeted evidence. To close this gap, we propose MedScope, a tool-using clinical video reasoning model that performs coarse-to-fine evidence seeking over long-form procedures. By interleaving intermediate reasoning with targeted tool calls and verification on retrieved observations, MedScope produces more accurate and trustworthy predictions that are explicitly grounded in temporally localized visual evidence. To address the lack of high-fidelity supervision, we build ClinVideoSuite, an evidence-centric, fine-grained clinical video suite. We then optimize MedScope with Grounding-Aware Group Relative Policy Optimization (GA-GRPO), which directly reinforces tool use with grounding-aligned rewards and evidence-weighted advantages. On full and fine-grained video understanding benchmarks, MedScope achieves state-of-the-art performance in both in-domain and out-of-domain evaluations. Our approach illuminates a path toward medical AI agents that can genuinely "think with videos" through tool-integrated reasoning. We will release our code, models, and data.
Abstract（参考訳）: ロングフォームな臨床ビデオは、視覚的エビデンスに基づく意思決定の中心であり、外科ロボティクスや関連する設定などの応用において重要性が増している。しかし、現在のマルチモーダルな大規模言語モデルは、通常、受動的サンプリングまたは弱い接地検査でビデオを処理し、時間的対象の証拠で予測を反復的に見つけ、検証し、正当化する能力を制限する。このギャップを埋めるために,我々は,長期的手続きを追求する粗大な証拠を提示するツールを用いた臨床ビデオ推論モデルであるMedScopeを提案する。 MedScopeは、対象とするツールコールと中間的推論をインターリーブすることで、時間的局所的な視覚的エビデンスに明確に根ざした、より正確で信頼性の高い予測を生成する。高忠実度監視の欠如に対処するため、証拠中心できめ細かな臨床ビデオスイートであるClinVideoSuiteを開発した。次に、グラウンド・アウェア・グループ相対政策最適化(GA-GRPO)を用いてMedScopeを最適化し、グラウンド・アライン・報酬とエビデンス・ヘビード・アドバンテージでツールの利用を直接強化する。フルかつきめ細かいビデオ理解ベンチマークでは、MedScopeはドメイン内およびドメイン外の両方で最先端のパフォーマンスを達成する。われわれのアプローチは、ツール統合推論を通じて「ビデオで考える」ことができる医療AIエージェントへの道を照らしている。コード、モデル、データをリリースします。

関連論文リスト

A Very Big Video Reasoning Suite [155.70016888896927]
ビデオモデルの急速な普及は視覚的品質を捉えており、その推論能力は未解明のままである。 Very Big Video Reasoning(VBVR)データセットは、200のキュレートされた推論タスクにまたがる、前例のない大規模なリソースである。 VBVR-Benchは、ルールベースのヒューマンアライメントスコアラーによるモデルベースの判断を超えて、検証可能な評価フレームワークである。
論文参考訳（メタデータ） (2026-02-23T18:59:41Z)
Clinical-Prior Guided Multi-Modal Learning with Latent Attention Pooling for Gait-Based Scoliosis Screening [8.010714901985898]
思春期特発性強皮症(AIS)は,早期発見により進行を緩和できる脊髄変形である。現在のスクリーニング手法は主観的であり、スケールが難しく、専門的な専門知識に依存している。ビデオベースの歩行分析は、有望な代替手段を提供するが、現在のデータセットとメソッドは、しばしばデータ漏洩に悩まされる。 ScoliGaitは、トレーニング用の1,572の歩行ビデオクリップと、テスト用の300の完全に独立したクリップからなる、新しいベンチマークデータセットである。
論文参考訳（メタデータ） (2026-02-06T14:44:22Z)
MedGround: Bridging the Evidence Gap in Medical Vision-Language Models with Verified Grounding Data [32.65971100171597]
セグメンテーションリソースを高品質な医療参照基盤データに変換する自動パイプラインであるMedGroundを紹介する。我々はまた、MedGround-35Kという新しいマルチモーダル医療データセットを提示する。
論文参考訳（メタデータ） (2026-01-11T10:34:18Z)
Video-BrowseComp: Benchmarking Agentic Video Research on Open Web [64.53060049124961]
Video-BrowseCompは、オープンウェブのエージェントによるビデオ推論に適した210の質問からなるベンチマークである。これは時間的視覚的証拠に必須に依存しており、回答はテキスト検索のみでは導き出せないことを保証している。初のオープンWebビデオ調査ベンチマークとして、Video-BrowseCompは、受動的知覚を越えて、プロアクティブなビデオ推論へと分野を前進させた。
論文参考訳（メタデータ） (2025-12-28T19:08:27Z)
LongVT: Incentivizing "Thinking with Long Videos" via Native Tool Calling [87.98096428508181]
LongVTは、Multimodal Chain-of-Tool-Thoughtを通じて"Thinking with Long Videos"を可能にするエンドツーエンドのエージェントフレームワークである。我々は、LMM固有の時間的接地機能を利用して、特定のビデオクリップをズームインし、よりきめ細かいビデオフレームを再サンプリングするネイティブビデオトリミングツールを開発した。トレーニングデータセットは, ツール統合型冷間始動微調整用247.9K試料, エージェント強化学習用1.6K試料, エージェント強化微調整用15.4K試料からなる。
論文参考訳（メタデータ） (2025-11-25T19:22:48Z)
EchoAgent: Guideline-Centric Reasoning Agent for Echocardiography Measurement and Interpretation [23.197431495208672]
EchoAgentは、心エコービデオ解析のための構造化、解釈可能な自動化を可能にするフレームワークである。 LLM(Large Language Model)コントロールの下で特殊な視覚ツールを編成し、時間的局所化、空間計測、臨床解釈を行う。時間的ビデオ解析の複雑さが増したにもかかわらず、正確で解釈可能な結果が得られる。
論文参考訳（メタデータ） (2025-11-17T22:06:12Z)
MedBrowseComp: Benchmarking Medical Deep Research and Computer Use [10.565661515629412]
MedBrowseCompは、エージェントが医療事実を検索し、合成する能力を体系的にテストするベンチマークである。臨床シナリオを反映した1,000以上の人為的な質問が含まれている。 MedBrowseCompをフロンティアエージェントシステムに適用すると、パフォーマンスの欠点が10%も低くなる。
論文参考訳（メタデータ） (2025-05-20T22:42:33Z)
ViDRiP-LLaVA: A Dataset and Benchmark for Diagnostic Reasoning from Pathology Videos [2.832420256346882]
計算病理学における最初の大規模マルチモーダルモデル(LMM)であるViDRiP-LLaVAを提案する。単一のパッチイメージ、自動的に分割された病理ビデオクリップ、手動で分割された病理ビデオを含む3つの異なるイメージシナリオを統合している。 ViDRiP-LLaVAは、詳細な組織学的記述を生成し、確定的なサインアウト診断を達成することによって、診断的推論で視覚的物語を橋渡しする。
論文参考訳（メタデータ） (2025-05-07T07:41:19Z)
VITED: Video Temporal Evidence Distillation [49.38292490256531]
そこで我々は,チェーン・オブ・エビデンス推論による複雑なビデオ質問応答について検討した。モデルは、固定数のフレームを均一にサンプリングするため、多段階の推論に苦労する。本稿では,既存のビデオQAデータセットをエビデンス・アソシエーション・チェーンで拡張するフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-17T06:30:02Z)
Uncertainty-aware Medical Diagnostic Phrase Identification and Grounding [72.18719355481052]
MRG(Messical Report Grounding)と呼ばれる新しい課題について紹介する。 MRGは医療報告から診断フレーズとその対応する接地箱を直接エンドツーエンドで識別することを目的としている。マルチモーダルな大規模言語モデルを用いて診断フレーズを予測する,堅牢で信頼性の高いフレームワークである uMedGround を提案する。
論文参考訳（メタデータ） (2024-04-10T07:41:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。