論文の概要: When Imitation Learning Outperforms Reinforcement Learning in Surgical Action Planning
- arxiv url: http://arxiv.org/abs/2507.05011v1
- Date: Mon, 07 Jul 2025 13:49:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.444444
- Title: When Imitation Learning Outperforms Reinforcement Learning in Surgical Action Planning
- Title(参考訳): 手術行動計画における模擬学習が強化学習に与える影響
- Authors: Maxence Boels, Harry Robertshaw, Alejandro Granados, Prokar Dasgupta, Sebastien Ourselin,
- Abstract要約: 今回,CholecT50の手術行動計画において,ILとRLの総合的な比較を行った。
DARILベースラインは、34.6%のアクショントリプレット認識mAPと33.6%の次フレーム予測mAPを達成し、10秒水平線で29.2%のスムーズな計画劣化を実現した。
分析の結果,有意なRLポリシーよりも,専門家アノテートされたテストセット上での分布マッチングがILを体系的に好んでいることが明らかとなった。
- 参考スコア(独自算出の注目度): 39.8949330069792
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Surgical action planning requires predicting future instrument-verb-target triplets for real-time assistance. While teleoperated robotic surgery provides natural expert demonstrations for imitation learning (IL), reinforcement learning (RL) could potentially discover superior strategies through exploration. We present the first comprehensive comparison of IL versus RL for surgical action planning on CholecT50. Our Dual-task Autoregressive Imitation Learning (DARIL) baseline achieves 34.6% action triplet recognition mAP and 33.6% next frame prediction mAP with smooth planning degradation to 29.2% at 10-second horizons. We evaluated three RL variants: world model-based RL, direct video RL, and inverse RL enhancement. Surprisingly, all RL approaches underperformed DARIL i.e. world model RL dropped to 3.1% mAP at 10s while direct video RL achieved only 15.9%. Our analysis reveals that distribution matching on expert-annotated test sets systematically favors IL over potentially valid RL policies that differ from training demonstrations. This challenges assumptions about RL superiority in sequential decision making and provides crucial insights for surgical AI development.
- Abstract(参考訳): 外科的行動計画には、リアルタイムの補助のために、将来の計器・垂直三重奏を予測する必要がある。
遠隔操作型ロボット手術は、模倣学習(IL)の自然な専門家によるデモンストレーションを提供するが、強化学習(RL)は探索を通じて優れた戦略を発見する可能性がある。
CholecT50の手術行動計画におけるILとRLの総合比較を行った。
DARIL(Dual-task Autoregressive Imitation Learning)ベースラインは、34.6%のアクショントリプレット認識mAPと33.6%の次のフレーム予測mAPを達成した。
我々は,3つのRL変種(ワールドモデルベースRL,ダイレクトビデオRL,逆RL拡張)を評価した。
驚くべきことに、全てのRLアプローチはDARILの低性能、すなわち世界モデルRLは10秒で3.1% mAPに低下し、直接ビデオRLは15.9%しか達成できなかった。
分析の結果,専門家が注釈付けしたテストセット上での分布マッチングは,実演と異なる潜在的に有効なRLポリシーよりも,ILを体系的に好んでいることが明らかとなった。
これは、シーケンシャルな意思決定におけるRLの優位性に関する仮定に挑戦し、外科的AI開発にとって重要な洞察を提供する。
関連論文リスト
- Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [82.43575191712726]
本稿では,強化学習が推論に与える影響を明らかにするための,きめ細かい分析フレームワークを提案する。
本フレームワークは,RLトレーニングの恩恵を受けると仮定された重要な要素を具体的に調査する。
論文 参考訳(メタデータ) (2025-06-05T07:53:59Z) - Beyond Markovian: Reflective Exploration via Bayes-Adaptive RL for LLM Reasoning [55.36978389831446]
我々はベイズ適応RLフレームワークにおける反射探査を再放送する。
我々のアルゴリズムであるBARLは、観測結果に基づいて戦略を縫い替えるようにLLMに指示する。
論文 参考訳(メタデータ) (2025-05-26T22:51:00Z) - IN-RIL: Interleaved Reinforcement and Imitation Learning for Policy Fine-Tuning [25.642307880136332]
イミテーションラーニング(IL)と強化ラーニング(RL)はそれぞれ、ロボットポリシーラーニングに明確なアドバンテージを提供する。
IL-based pre-training と RL-based fine-tuning を用いた既存のロボット学習アプローチは有望であるが、この2段階学習パラダイムは、RL 微細チューニングフェーズの不安定性とサンプル効率の低下に悩まされることが多い。
本研究では,政策微調整のためのIN-RIL,INterleaved Reinforcement Learning and Imitation Learningを紹介する。
論文 参考訳(メタデータ) (2025-05-15T16:01:21Z) - Perception-R1: Pioneering Perception Policy with Reinforcement Learning [68.13805658351944]
本稿では,MLLMポストトレーニング中にGRPOを用いたスケーラブルなRLフレームワークPerception-R1を提案する。
Qwen2.5-VL-3B-インストラクションでは、Perception-R1はRefCOCO+で+4.2%、PixMo-Countで+17.9%、特にCOCO 2017 valで31.9%のAPを達成した。
論文 参考訳(メタデータ) (2025-04-10T17:58:27Z) - An Empirical Study on Eliciting and Improving R1-like Reasoning Models [90.52239241349504]
RLトレーニングのスケーリングは、そのような推論モデルを実装するための中心的なテクニックとなっている。
我々のRLトレーニングアプローチはQwen2.5-32Bベースモデルを継続的に改善することを示した。
また、ツール操作の利用についても検討し、大きな推論モデルの推論性能を大幅に向上させることを見出した。
論文 参考訳(メタデータ) (2025-03-06T15:34:27Z) - On the Emergence of Thinking in LLMs I: Searching for the Right Intuition [34.32871896067864]
自己学習による強化学習(RLSP)というポストトレーニングフレームワークを提案する。
RLSPは、推論プロセスの人間または合成的なデモンストレーションによる微調整、多種多様な効率的な推論行動を促進するための探索報酬信号の使用、報酬ハッキングを予防しながら正当性を確保するための結果検証器によるRLトレーニングの3段階を含む。
数学領域における実証的研究は、RLSPが推論を改善することを示している。
論文 参考訳(メタデータ) (2025-02-10T18:52:04Z) - Imitation Bootstrapped Reinforcement Learning [31.916571349600684]
模擬ブートストラップ強化学習(IBRL)はサンプル効率強化学習のための新しいフレームワークである。
IBRLを6つのシミュレーションと3つの実世界のタスクで評価した。
論文 参考訳(メタデータ) (2023-11-03T19:03:20Z) - POAR: Efficient Policy Optimization via Online Abstract State
Representation Learning [6.171331561029968]
状態表現学習(SRL)は,複雑な感覚データからタスク関連特徴を低次元状態に符号化する。
我々は、SRLの解釈を改善するために、専門家のデモンストレーションを活用するために、ドメイン類似と呼ばれる新しいSRLを導入する。
我々はPOARを実証的に検証し、高次元のタスクを効率的に処理し、スクラッチから直接実生活ロボットの訓練を容易にする。
論文 参考訳(メタデータ) (2021-09-17T16:52:03Z) - Learning to Prune Deep Neural Networks via Reinforcement Learning [64.85939668308966]
PuRLは、ニューラルネットワークのプルーニングのためのディープ強化学習ベースのアルゴリズムである。
現在の最先端の手法に匹敵する幅と精度を実現している。
論文 参考訳(メタデータ) (2020-07-09T13:06:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。