Fugu-MT 論文翻訳(概要): Lightweight Structured Multimodal Reasoning for Clinical Scene Understanding in Robotics

論文の概要: Lightweight Structured Multimodal Reasoning for Clinical Scene Understanding in Robotics

arxiv url: http://arxiv.org/abs/2509.22014v1
Date: Fri, 26 Sep 2025 07:49:49 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-29 20:57:54.279105
Title: Lightweight Structured Multimodal Reasoning for Clinical Scene Understanding in Robotics
Title（参考訳）: ロボットにおける臨床シーン理解のための軽量構造型マルチモーダル推論
Authors: Saurav Jha, Stefan K. Ehrlich,
Abstract要約: 映像に基づくシーン理解のための軽量なエージェント・マルチモーダル・フレームワークを提案する。チェーンオブ思考の推論、音声ビジョンの融合、動的ツールの実行をサポートする。
参考スコア（独自算出の注目度）: 4.253383204461325
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Healthcare robotics requires robust multimodal perception and reasoning to ensure safety in dynamic clinical environments. Current Vision-Language Models (VLMs) demonstrate strong general-purpose capabilities but remain limited in temporal reasoning, uncertainty estimation, and structured outputs needed for robotic planning. We present a lightweight agentic multimodal framework for video-based scene understanding. Combining the Qwen2.5-VL-3B-Instruct model with a SmolAgent-based orchestration layer, it supports chain-of-thought reasoning, speech-vision fusion, and dynamic tool invocation. The framework generates structured scene graphs and leverages a hybrid retrieval module for interpretable and adaptive reasoning. Evaluations on the Video-MME benchmark and a custom clinical dataset show competitive accuracy and improved robustness compared to state-of-the-art VLMs, demonstrating its potential for applications in robot-assisted surgery, patient monitoring, and decision support.
Abstract（参考訳）: 医療ロボティクスは、動的臨床環境における安全性を確保するために、堅牢なマルチモーダル認識と推論を必要とする。現在のビジョン・ランゲージ・モデル(VLM)は、強力な汎用能力を示すが、時間的推論、不確実性推定、ロボット計画に必要な構造化出力に制限されている。映像に基づくシーン理解のための軽量なエージェント・マルチモーダル・フレームワークを提案する。 Qwen2.5-VL-3B-InstructモデルとSmolAgentベースのオーケストレーション層を組み合わせることで、チェーンオブ思考推論、音声ビジョンの融合、動的ツールの実行をサポートする。このフレームワークは、構造化シーングラフを生成し、解釈可能な適応推論のためのハイブリッド検索モジュールを利用する。 Video-MMEベンチマークとカスタム臨床データセットの評価は、最先端のVLMと比較して、競争精度と堅牢性の向上を示し、ロボット支援手術、患者モニタリング、意思決定支援への応用の可能性を示している。

関連論文リスト

From Perception to Action: An Interactive Benchmark for Vision Reasoning [51.11355591375073]
Causal Hierarchy of Actions and Interactions (CHAIN)ベンチマークは、モデルが物理的制約に基づいて構造化されたアクションシーケンスを理解し、計画し、実行できるかを評価するために設計された。 CHAINは、受動的知覚からアクティブな問題解決、機械パズルのインターロックや3D積み重ね、パッキングといったタスクへと評価をシフトする。以上の結果から,トップパフォーマンスモデルでは,物理構造や因果制約の内在化に苦慮し,信頼性の高い長期計画の作成に失敗することが多く,認識された構造を効果的に翻訳することができないことが示唆された。
論文参考訳（メタデータ） (2026-02-24T15:33:02Z)
MedSAM-Agent: Empowering Interactive Medical Image Segmentation with Multi-turn Agentic Reinforcement Learning [53.37068897861388]
MedSAM-Agentは、対話的なセグメンテーションを多段階の自律的な意思決定プロセスとして再構築するフレームワークである。マルチターン・エンド・ツー・エンドの成果検証を統合した2段階のトレーニングパイプラインを開発した。 6つの医療モダリティと21のデータセットにわたる実験は、MedSAM-Agentが最先端のパフォーマンスを達成することを示す。
論文参考訳（メタデータ） (2026-02-03T09:47:49Z)
VICoT-Agent: A Vision-Interleaved Chain-of-Thought Framework for Interpretable Multimodal Reasoning and Scalable Remote Sensing Analysis [10.584087870930354]
新たなマルチモーダルエージェントフレームワークVision-Interleaved Chain-of-Thought Framework (VICoT)を提案する。 VICoTは、視覚ツールを思考の連鎖に動的に組み込むことにより、明示的な多ラウンド推論を実装している。また, 複雑なエージェントの挙動を小型軽量モデルに移行するためのReasoning Stack蒸留法を提案する。
論文参考訳（メタデータ） (2025-11-25T09:00:28Z)
Med-K2N: Flexible K-to-N Modality Translation for Medical Image Synthesis [13.589690091116802]
クロスモーダルな医用画像合成研究は、臨床診断を支援するために利用可能な画像から欠落した画像のモダリティを再構築することに焦点を当てている。様々な目的タスクに対する異なるモダリティの不均一な寄与をモデル化するにはどうすればよいか? マルチアウトプット生成におけるモーダリティアイデンティティの整合性を維持するには?
論文参考訳（メタデータ） (2025-10-03T08:47:17Z)
FrameMind: Frame-Interleaved Video Reasoning via Reinforcement Learning [65.42201665046505]
現在のビデオ理解モデルは、各質問の特定の推論条件にかかわらず、固定されたフレームサンプリング戦略に依存し、所定の視覚入力を処理する。この静的アプローチは、視覚的エビデンスを適応的に収集する能力を制限し、広範囲の時間的カバレッジやきめ細かい空間的詳細を必要とするタスクにおいて、最適以下のパフォーマンスをもたらす。 Frame-Interleaved Chain-of-Thought (FiCOT)を通して、モデルが推論中に視覚情報を動的に要求することを可能にする強化学習で訓練されたエンドツーエンドフレームワークであるFrameMindを紹介する。従来のアプローチとは異なり、FrameMindは複数のターンで動作し、モデルがテキスト推論とアクティブな視覚知覚を交互に切り替え、ツールを使って抽出する。
論文参考訳（メタデータ） (2025-09-28T17:59:43Z)
Baichuan-M2: Scaling Medical Capability with Large Verifier System [40.86227022086866]
静的解答検証を超越した,新しい動的検証フレームワークを提案する。多段階強化学習戦略によって訓練された医療強化推論モデルBaichuan-M2を開発した。 HealthBenchでの評価では、Baichuan-M2は、他のすべてのオープンソースモデルや、最も高度なクローズドソースモデルよりも優れています。
論文参考訳（メタデータ） (2025-09-02T11:23:35Z)
Foundation Model for Skeleton-Based Human Action Understanding [56.89025287217221]
本稿では,統一骨格に基づくDense Representation Learningフレームワークを提案する。 USDRLはトランスフォーマーベースのDense Spatio-Temporal (DSTE)、Multi-Grained Feature Deorrelation (MG-FD)、Multi-Perspective Consistency Training (MPCT)で構成されている。
論文参考訳（メタデータ） (2025-08-18T02:42:16Z)
MetAdv: A Unified and Interactive Adversarial Testing Platform for Autonomous Driving [63.875372281596576]
MetAdvは、現実的でダイナミックでインタラクティブな評価を可能にする、新しい対向テストプラットフォームである。フレキシブルな3D車両モデリングと、シミュレートされた環境と物理的環境のシームレスな遷移をサポートする。生理的信号のリアルタイムキャプチャとドライバからの行動フィードバックを可能にする。
論文参考訳（メタデータ） (2025-08-04T03:07:54Z)
AURA: A Multi-Modal Medical Agent for Understanding, Reasoning & Annotation [0.8397730500554048]
AURAは、医用画像の包括的分析、説明、評価のために特別に設計された最初の視覚的言語説明性エージェントである。 AURAは、より透明性があり、適応可能で、臨床的に整合したAIシステムに向けた大きな進歩を示している。
論文参考訳（メタデータ） (2025-07-22T18:24:18Z)
MoRE: Multi-Modal Contrastive Pre-training with Transformers on X-Rays, ECGs, and Diagnostic Report [4.340464264725625]
我々は,X線,心電図(ECG),放射線学・心臓医学報告を相乗的に組み合わせた,新しいマルチモーダルコントラスト事前学習フレームワークを提案する。我々はLoRA-Peftを用いて、LLMにおけるトレーニング可能なパラメータを著しく削減し、視覚変換器(ViT)に最近の線形アテンション降下戦略を取り入れ、よりスムーズなアテンションを実現する。我々の知る限り、我々はX線、心電図、放射線学・医学レポートをこの手法と組み合わせた統合モデルを提案している。
論文参考訳（メタデータ） (2024-10-21T17:42:41Z)
Dr-LLaVA: Visual Instruction Tuning with Symbolic Clinical Grounding [53.629132242389716]
VLM(Vision-Language Models)は、医用画像を分析し、自然言語の相互作用に関与することによって、臨床医を支援する。 VLMはしばしば「幻覚的」な振る舞いを示し、文脈的マルチモーダル情報に基づかないテキスト出力を生成する。本稿では,臨床推論の象徴的表現を用いて医療知識にVLMを基盤とする新たなアライメントアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-05-29T23:19:28Z)
Extending Process Discovery with Model Complexity Optimization and Cyclic States Identification: Application to Healthcare Processes [62.997667081978825]
モデル最適化のための半自動支援を実現するプロセスマイニング手法を提案する。所望の粒度で生モデルを抽象化するモデル単純化手法が提案されている。医療分野の異なるアプリケーションから得られた3つのデータセットを用いて、技術的ソリューションの能力を実証することを目的としている。
論文参考訳（メタデータ） (2022-06-10T16:20:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。