論文の概要: Lightweight Structured Multimodal Reasoning for Clinical Scene Understanding in Robotics
- arxiv url: http://arxiv.org/abs/2509.22014v1
- Date: Fri, 26 Sep 2025 07:49:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.279105
- Title: Lightweight Structured Multimodal Reasoning for Clinical Scene Understanding in Robotics
- Title(参考訳): ロボットにおける臨床シーン理解のための軽量構造型マルチモーダル推論
- Authors: Saurav Jha, Stefan K. Ehrlich,
- Abstract要約: 映像に基づくシーン理解のための軽量なエージェント・マルチモーダル・フレームワークを提案する。
チェーンオブ思考の推論、音声ビジョンの融合、動的ツールの実行をサポートする。
- 参考スコア(独自算出の注目度): 4.253383204461325
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Healthcare robotics requires robust multimodal perception and reasoning to ensure safety in dynamic clinical environments. Current Vision-Language Models (VLMs) demonstrate strong general-purpose capabilities but remain limited in temporal reasoning, uncertainty estimation, and structured outputs needed for robotic planning. We present a lightweight agentic multimodal framework for video-based scene understanding. Combining the Qwen2.5-VL-3B-Instruct model with a SmolAgent-based orchestration layer, it supports chain-of-thought reasoning, speech-vision fusion, and dynamic tool invocation. The framework generates structured scene graphs and leverages a hybrid retrieval module for interpretable and adaptive reasoning. Evaluations on the Video-MME benchmark and a custom clinical dataset show competitive accuracy and improved robustness compared to state-of-the-art VLMs, demonstrating its potential for applications in robot-assisted surgery, patient monitoring, and decision support.
- Abstract(参考訳): 医療ロボティクスは、動的臨床環境における安全性を確保するために、堅牢なマルチモーダル認識と推論を必要とする。
現在のビジョン・ランゲージ・モデル(VLM)は、強力な汎用能力を示すが、時間的推論、不確実性推定、ロボット計画に必要な構造化出力に制限されている。
映像に基づくシーン理解のための軽量なエージェント・マルチモーダル・フレームワークを提案する。
Qwen2.5-VL-3B-InstructモデルとSmolAgentベースのオーケストレーション層を組み合わせることで、チェーンオブ思考推論、音声ビジョンの融合、動的ツールの実行をサポートする。
このフレームワークは、構造化シーングラフを生成し、解釈可能な適応推論のためのハイブリッド検索モジュールを利用する。
Video-MMEベンチマークとカスタム臨床データセットの評価は、最先端のVLMと比較して、競争精度と堅牢性の向上を示し、ロボット支援手術、患者モニタリング、意思決定支援への応用の可能性を示している。
関連論文リスト
- Baichuan-M2: Scaling Medical Capability with Large Verifier System [40.86227022086866]
静的解答検証を超越した,新しい動的検証フレームワークを提案する。
多段階強化学習戦略によって訓練された医療強化推論モデルBaichuan-M2を開発した。
HealthBenchでの評価では、Baichuan-M2は、他のすべてのオープンソースモデルや、最も高度なクローズドソースモデルよりも優れています。
論文 参考訳(メタデータ) (2025-09-02T11:23:35Z) - Foundation Model for Skeleton-Based Human Action Understanding [56.89025287217221]
本稿では,統一骨格に基づくDense Representation Learningフレームワークを提案する。
USDRLはトランスフォーマーベースのDense Spatio-Temporal (DSTE)、Multi-Grained Feature Deorrelation (MG-FD)、Multi-Perspective Consistency Training (MPCT)で構成されている。
論文 参考訳(メタデータ) (2025-08-18T02:42:16Z) - MetAdv: A Unified and Interactive Adversarial Testing Platform for Autonomous Driving [63.875372281596576]
MetAdvは、現実的でダイナミックでインタラクティブな評価を可能にする、新しい対向テストプラットフォームである。
フレキシブルな3D車両モデリングと、シミュレートされた環境と物理的環境のシームレスな遷移をサポートする。
生理的信号のリアルタイムキャプチャとドライバからの行動フィードバックを可能にする。
論文 参考訳(メタデータ) (2025-08-04T03:07:54Z) - AURA: A Multi-Modal Medical Agent for Understanding, Reasoning & Annotation [0.8397730500554048]
AURAは、医用画像の包括的分析、説明、評価のために特別に設計された最初の視覚的言語説明性エージェントである。
AURAは、より透明性があり、適応可能で、臨床的に整合したAIシステムに向けた大きな進歩を示している。
論文 参考訳(メタデータ) (2025-07-22T18:24:18Z) - MoRE: Multi-Modal Contrastive Pre-training with Transformers on X-Rays, ECGs, and Diagnostic Report [4.340464264725625]
我々は,X線,心電図(ECG),放射線学・心臓医学報告を相乗的に組み合わせた,新しいマルチモーダルコントラスト事前学習フレームワークを提案する。
我々はLoRA-Peftを用いて、LLMにおけるトレーニング可能なパラメータを著しく削減し、視覚変換器(ViT)に最近の線形アテンション降下戦略を取り入れ、よりスムーズなアテンションを実現する。
我々の知る限り、我々はX線、心電図、放射線学・医学レポートをこの手法と組み合わせた統合モデルを提案している。
論文 参考訳(メタデータ) (2024-10-21T17:42:41Z) - Dr-LLaVA: Visual Instruction Tuning with Symbolic Clinical Grounding [53.629132242389716]
VLM(Vision-Language Models)は、医用画像を分析し、自然言語の相互作用に関与することによって、臨床医を支援する。
VLMはしばしば「幻覚的」な振る舞いを示し、文脈的マルチモーダル情報に基づかないテキスト出力を生成する。
本稿では,臨床推論の象徴的表現を用いて医療知識にVLMを基盤とする新たなアライメントアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-29T23:19:28Z) - Extending Process Discovery with Model Complexity Optimization and
Cyclic States Identification: Application to Healthcare Processes [62.997667081978825]
モデル最適化のための半自動支援を実現するプロセスマイニング手法を提案する。
所望の粒度で生モデルを抽象化するモデル単純化手法が提案されている。
医療分野の異なるアプリケーションから得られた3つのデータセットを用いて、技術的ソリューションの能力を実証することを目的としている。
論文 参考訳(メタデータ) (2022-06-10T16:20:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。