論文の概要: SutureAgent: Learning Surgical Trajectories via Goal-conditioned Offline RL in Pixel Space
- arxiv url: http://arxiv.org/abs/2603.26720v1
- Date: Thu, 19 Mar 2026 01:36:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 02:36:13.10581
- Title: SutureAgent: Learning Surgical Trajectories via Goal-conditioned Offline RL in Pixel Space
- Title(参考訳): SutureAgent: 画像空間におけるゴール条件付きオフラインRLによる外科的軌跡の学習
- Authors: Huanrong Liu, Chunlin Tian, Tongyu Jia, Tailai Zhou, Qin Liu, Yu Gao, Yutong Ban, Yun Gu, Guy Rosman, Xin Ma, Qingbiao Li,
- Abstract要約: 内視鏡的ビデオからの針の軌跡の予測はロボットによる縫合に不可欠である。
画像に基づく針軌道予測を逐次決定問題として定式化する。
SutureAgentは、観測エンコーダを使用して可変長クリップを符号化し、局所的な空間的キューと長距離時間ダイナミクスの両方をキャプチャする。
- 参考スコア(独自算出の注目度): 22.300952176139948
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Predicting surgical needle trajectories from endoscopic video is critical for robot-assisted suturing, enabling anticipatory planning, real-time guidance, and safer motion execution. Existing methods that directly learn motion distributions from visual observations tend to overlook the sequential dependency among adjacent motion steps. Moreover, sparse waypoint annotations often fail to provide sufficient supervision, further increasing the difficulty of supervised or imitation learning methods. To address these challenges, we formulate image-based needle trajectory prediction as a sequential decision-making problem, in which the needle tip is treated as an agent that moves step by step in pixel space. This formulation naturally captures the continuity of needle motion and enables the explicit modeling of physically plausible pixel-wise state transitions over time. From this perspective, we propose SutureAgent, a goal-conditioned offline reinforcement learning framework that leverages sparse annotations to dense reward signals via cubic spline interpolation, encouraging the policy to exploit limited expert guidance while exploring plausible future motion paths. SutureAgent encodes variable-length clips using an observation encoder to capture both local spatial cues and long-range temporal dynamics, and autoregressively predicts future waypoints through actions composed of discrete directions and continuous magnitudes. To enable stable offline policy optimization from expert demonstrations, we adopt Conservative Q-Learning with Behavioral Cloning regularization. Experiments on a new kidney wound suturing dataset containing 1,158 trajectories from 50 patients show that SutureAgent reduces Average Displacement Error by 58.6% compared with the strongest baseline, demonstrating the effectiveness of modeling needle trajectory prediction as pixel-level sequential action learning.
- Abstract(参考訳): 内視鏡的ビデオからの手術針の軌跡の予測は、ロボットによる縫合、予測計画、リアルタイムガイダンス、より安全な動作実行を可能にするために重要である。
視覚的観察から運動分布を直接学習する既存の手法は、隣接する動きステップ間の逐次的依存を無視する傾向にある。
さらに、疎度なウェイポイントアノテーションは十分な監視を提供しないことが多く、教師付きや模倣の学習方法の難しさが増す。
これらの課題に対処するため,画像に基づく針の軌跡予測を逐次決定問題として定式化し,針先端を段階的にピクセル空間に移動させるエージェントとして扱う。
この定式化は、針の動きの連続性を自然に捉え、時間とともに物理的に可塑性な画素状態遷移の明示的なモデリングを可能にする。
この観点から,3次スプライン補間による厳密な報酬信号に対するスパースアノテーションを活用する,目標条件付きオフライン強化学習フレームワークSutureAgentを提案する。
SutureAgentは、観測エンコーダを用いて可変長のクリップを符号化し、局所的な空間的手がかりと長距離時間的ダイナミクスの両方をキャプチャし、離散的な方向と連続的な大きさからなるアクションによって、自動回帰的に将来のウェイポイントを予測する。
専門家による実証から安定したオフラインポリシーの最適化を可能にするため、我々は行動クローン正規化による保守的なQ-Learningを採用する。
50人の患者から1,158件のトラジェクトリを含む新しい腎臓創傷縫合データセットの実験により、SutureAgentは最強のベースラインと比較して平均変位誤差を58.6%削減し、ピクセルレベルのシーケンシャルな動作学習として針軌道予測をモデル化する効果を実証した。
関連論文リスト
- Training-free Temporal Object Tracking in Surgical Videos [20.689670966095097]
腹腔鏡下胆嚢摘出術(LC)手術ビデオにおけるオンライン物体追跡のための新しいアプローチを提案する。
提案手法は,既存のデータセットに固有の,コストの高いピクセルレベルのアノテーションとラベルの不整合の課題に対処する。
論文 参考訳(メタデータ) (2026-03-08T23:09:16Z) - GeoMotion: Rethinking Motion Segmentation via Latent 4D Geometry [61.24189040578178]
そこで本研究では,注目機構を介し,潜在特徴表現から移動対象を直接推論する完全学習型アプローチを提案する。
我々の重要な洞察は、明示的な対応推定を回避し、代わりに、モデルが暗黙的にオブジェクトとカメラの動きを歪めることを学ぶことである。
提案手法は,最先端の動作セグメンテーション性能を高い効率で達成する。
論文 参考訳(メタデータ) (2026-02-25T11:36:33Z) - ResAD: Normalized Residual Trajectory Modeling for End-to-End Autonomous Driving [64.42138266293202]
ResADは正規化された残留軌道モデリングフレームワークである。
学習タスクを再編成し、慣性参照からの残留偏差を予測する。
NAVSIMベンチマークでは、ResADはバニラ拡散ポリシーを用いて最先端のPDMS 88.6を達成している。
論文 参考訳(メタデータ) (2025-10-09T17:59:36Z) - Fine-Grained Behavior and Lane Constraints Guided Trajectory Prediction Method [3.303114252531234]
本稿では,行動意図認識と車線制約モデリングを統合した新しいデュアルストリームアーキテクチャBLNetを提案する。
我々のネットワークは、既存の直接回帰とゴールベースアルゴリズムよりも大きな性能向上を示す。
論文 参考訳(メタデータ) (2025-03-27T13:06:57Z) - Self-Supervised Class-Agnostic Motion Prediction with Spatial and Temporal Consistency Regularizations [53.797896854533384]
クラスに依存しない動き予測法は点雲全体の動きを直接予測する。
既存のほとんどのメソッドは、完全に教師付き学習に依存しているが、ポイントクラウドデータの手作業によるラベル付けは、手間と時間を要する。
3つの簡単な空間的・時間的正則化損失を導入し,自己指導型学習プロセスの効率化を図る。
論文 参考訳(メタデータ) (2024-03-20T02:58:45Z) - Layout Sequence Prediction From Noisy Mobile Modality [53.49649231056857]
軌道予測は、自律運転やロボット工学などの応用における歩行者運動を理解する上で重要な役割を担っている。
現在の軌道予測モデルは、視覚的モダリティからの長い、完全な、正確に観察されたシーケンスに依存する。
本稿では,物体の障害物や視界外を,完全に視認できる軌跡を持つものと同等に扱う新しいアプローチであるLTrajDiffを提案する。
論文 参考訳(メタデータ) (2023-10-09T20:32:49Z) - Uncovering the Missing Pattern: Unified Framework Towards Trajectory
Imputation and Prediction [60.60223171143206]
軌道予測は、観測されたシーケンスから実体運動や人間の行動を理解する上で重要な作業である。
現在の方法では、観測されたシーケンスが完了したと仮定し、欠落した値の可能性を無視する。
本稿では,グラフに基づく条件変動リカレントニューラルネットワーク (GC-VRNN) の統一フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-28T14:27:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。