論文の概要: From Scanning Guidelines to Action: A Robotic Ultrasound Agent with LLM-Based Reasoning
- arxiv url: http://arxiv.org/abs/2603.14393v1
- Date: Sun, 15 Mar 2026 14:18:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-21 18:33:56.827267
- Title: From Scanning Guidelines to Action: A Robotic Ultrasound Agent with LLM-Based Reasoning
- Title(参考訳): スキャンガイドラインから行動へ:LDMをベースとしたロボット超音波エージェント
- Authors: Yuan Bi, Yiping Zhou, Pei Liu, Feng Li, Zhongliang Jiang, Nassir Navab,
- Abstract要約: ロボット超音波は、オペレータ依存の改善や縮小を含む、フリーハンドスキャンよりも利点がある。
臨床実践において、米国の買収はソノグラフィーの経験と状況判断に大きく依存している。
本研究では,自律型ロボットUSスキャンのための統合フレームワークを提案する。
- 参考スコア(独自算出の注目度): 40.0270830612572
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robotic ultrasound offers advantages over free-hand scanning, including improved reproducibility and reduced operator dependency. In clinical practice, US acquisition relies heavily on the sonographer's experience and situational judgment. When transferring this process to robotic systems, such expertise is often encoded explicitly through fixed procedures and task-specific models, yielding pipelines that can be difficult to adapt to new scanning tasks. In this work, we propose a unified framework for autonomous robotic US scanning that leverages a LLM-based agent to interpret US scanning guidelines and execute scans by dynamically invoking a set of provided software tools. Instead of encoding fixed scanning procedures, the LLM agent retrieves and reasons over guideline steps from scanning handbooks and adapts its planning decisions based on observations and the current scanning state. This enables the system to handle variable and decision-dependent workflows, such as adjusting scanning strategies, repeating steps, or selecting the appropriate next tool call in response to image quality or anatomical findings. Because the reasoning underlying tool selection is also critical for transparent and trustworthy planning, we further fine tune the LLM agent using a RL based strategy to improve both its reasoning quality and the correctness of tool selection and parameterization, while maintaining robust generalization to unseen guidelines and related tasks. We first validate the approach via verbal execution on 10 US scanning guidelines, assessing reasoning as well as tool selection and parameterization, and showing the benefit of RL fine tuning. We then demonstrate real world feasibility on robotic scanning of the gallbladder, spine, and kidney. Overall, the framework follows diverse guidelines and enables reliable autonomous scanning across multiple anatomical targets within a unified system.
- Abstract(参考訳): ロボット超音波は、再現性の向上や操作者の依存性の低減など、フリーハンドスキャンよりも利点がある。
臨床実践において、米国の買収はソノグラフィーの経験と状況判断に大きく依存している。
このプロセスをロボットシステムに転送する場合、そのような専門知識は固定された手順やタスク固有のモデルを通じて明示的に符号化され、新しいスキャンタスクに適応することが難しいパイプラインを生成する。
本研究では,LLMをベースとしたエージェントを用いて,米国におけるスキャンガイドラインを解釈し,提供されたソフトウェアツールのセットを動的に呼び出してスキャンを実行する,自律型USスキャンのための統一フレームワークを提案する。
LLMエージェントは、固定されたスキャン手順をコーディングする代わりに、ハンドブックのスキャンからガイドラインステップを検索し、その計画決定を観察と現在のスキャン状態に基づいて適用する。
これにより、スキャン戦略の調整、ステップを繰り返したり、画像の品質や解剖学的発見に応じて、適切な次のツールコールを選択するといった、変数と決定に依存したワークフローを処理できるようになる。
根拠となるツールの選択は透明で信頼性の高い計画にも重要であるため、RLベースの戦略を用いてLCMエージェントを微調整し、その推論品質と、ツールの選択とパラメータ化の正しさを両立させながら、未確認のガイドラインや関連するタスクへの堅牢な一般化を維持しながら、さらに微調整を行う。
提案手法はまず,米国における10USスキャンガイドラインの動詞実行による検証,推論,ツールの選択,パラメータ化,RLファインチューニングのメリットを示す。
次に、胆嚢、脊椎、腎臓のロボットスキャンの実現可能性を示す。
全体として、このフレームワークは多様なガイドラインに従っており、統一システム内の複数の解剖学的ターゲットを横断する信頼性の高い自律スキャンを可能にする。
関連論文リスト
- ET-Agent: Incentivizing Effective Tool-Integrated Reasoning Agent via Behavior Calibration [68.89572566071575]
ETAgentはエージェントのツール使用行動を調整するためのトレーニングフレームワークである。
過誤行動パターンを最適行動に段階的に校正するように設計されている。
論文 参考訳(メタデータ) (2026-01-11T11:05:26Z) - INFORM-CT: INtegrating LLMs and VLMs FOR Incidental Findings Management in Abdominal CT [1.3048920509133808]
CTスキャンの偶発的な所見は、しばしば無視されるが、臨床的に重要な意味を持ち、確立されたガイドラインに従って報告すべきである。
本稿では,大規模言語モデル (LLM) と基本視覚言語モデル (VLM) を計画・実行エージェントアプローチで活用する新しいフレームワークを提案する。
腹腔内臓器の医療ガイドラインを考慮し, 腹腔鏡下手術による腹腔鏡下手術を施行し, 腹腔鏡下手術を施行した。
論文 参考訳(メタデータ) (2025-12-10T23:28:26Z) - Simple Agents Outperform Experts in Biomedical Imaging Workflow Optimization [69.36509281190662]
生産レベルのコンピュータビジョンツールを科学データセットに適応させることは、重要な"ラストマイル"ボトルネックである。
我々は、AIエージェントを使ってこの手動コーディングを自動化し、最適なエージェント設計のオープンな問題に焦点を当てる。
簡単なエージェントフレームワークが、人間-専門家のソリューションよりも優れた適応コードを生成することを実証する。
論文 参考訳(メタデータ) (2025-12-02T18:42:26Z) - EchoAgent: Guideline-Centric Reasoning Agent for Echocardiography Measurement and Interpretation [23.197431495208672]
EchoAgentは、心エコービデオ解析のための構造化、解釈可能な自動化を可能にするフレームワークである。
LLM(Large Language Model)コントロールの下で特殊な視覚ツールを編成し、時間的局所化、空間計測、臨床解釈を行う。
時間的ビデオ解析の複雑さが増したにもかかわらず、正確で解釈可能な結果が得られる。
論文 参考訳(メタデータ) (2025-11-17T22:06:12Z) - Iterative Tool Usage Exploration for Multimodal Agents via Step-wise Preference Tuning [68.00304954972232]
コントローラ、例えば視覚言語モデルと外部ツールを統合するマルチモーダルエージェントは、複雑なマルチモーダルタスクに対処する際、顕著な能力を示した。
これらのエージェントを訓練するための既存のアプローチは、広範囲なヒューマン・アノテートされたタスク・アンサー・ペアとツール・トラジェクトリに依存している。
本研究では,事前に収集したデータのないマルチモーダルエージェント,すなわち SPORT の反復ツール利用探索手法を提案する。
Sportには、タスク合成、ステップサンプリング、ステップ検証、優先度調整の4つの反復的なコンポーネントがある。
論文 参考訳(メタデータ) (2025-04-30T12:01:27Z) - Transforming Surgical Interventions with Embodied Intelligence for Ultrasound Robotics [24.014073238400137]
本稿では,超音波ロボットと大規模言語モデル(LLM)とドメイン固有知識強化を組み合わせた,新しい超音波身体情報システムを提案する。
まず、LLMを超音波ロボットと統合して、医師の言葉による指示を正確に動作計画に解釈する。
以上の結果から,提案システムは超音波スキャンの効率と品質を向上し,自律型医療スキャン技術のさらなる進歩の道を開くことが示唆された。
論文 参考訳(メタデータ) (2024-06-18T14:22:16Z) - Enhancing Surgical Robots with Embodied Intelligence for Autonomous Ultrasound Scanning [24.014073238400137]
超音波ロボットは、医療診断や早期疾患スクリーニングにますます利用されている。
現在の超音波ロボットは人間の意図や指示を理解する知性に欠けています。
本研究では,超音波ロボットに大規模言語モデルとドメイン知識を付加した新しい超音波エンボディードインテリジェンスシステムを提案する。
論文 参考訳(メタデータ) (2024-05-01T11:39:38Z) - Learning Autonomous Ultrasound via Latent Task Representation and
Robotic Skills Adaptation [2.3830437836694185]
本稿では,自律型超音波の潜在タスク表現とロボットスキル適応を提案する。
オフラインの段階では、マルチモーダル超音波技術が統合され、低次元確率モデルにカプセル化される。
オンライン段階では、確率モデルは最適な予測を選択して評価する。
論文 参考訳(メタデータ) (2023-07-25T08:32:36Z) - Robotic Navigation Autonomy for Subretinal Injection via Intelligent
Real-Time Virtual iOCT Volume Slicing [88.99939660183881]
網膜下注射のための自律型ロボットナビゲーションの枠組みを提案する。
提案手法は,機器のポーズ推定方法,ロボットとi OCTシステム間のオンライン登録,およびインジェクションターゲットへのナビゲーションに適した軌道計画から構成される。
ブタ前眼の精度と再現性について実験を行った。
論文 参考訳(メタデータ) (2023-01-17T21:41:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。