論文の概要: One to Many: Adaptive Instrument Segmentation via Meta Learning and
Dynamic Online Adaptation in Robotic Surgical Video
- arxiv url: http://arxiv.org/abs/2103.12988v1
- Date: Wed, 24 Mar 2021 05:02:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-25 14:02:14.973749
- Title: One to Many: Adaptive Instrument Segmentation via Meta Learning and
Dynamic Online Adaptation in Robotic Surgical Video
- Title(参考訳): 1対多:ロボット手術ビデオにおけるメタラーニングと動的オンライン適応による適応型機器セグメンテーション
- Authors: Zixu Zhao, Yueming Jin, Bo Lu, Chi-Fai Ng, Qi Dou, Yun-Hui Liu, and
Pheng-Ann Heng
- Abstract要約: MDALは、ロボット支援手術における機器セグメンテーションのための動的オンライン適応学習スキームです。
ビデオ固有のメタ学習パラダイムを通じて、楽器の一般的な知識と高速適応能力を学ぶ。
2つのデータセットで他の最先端のメソッドよりも優れています。
- 参考スコア(独自算出の注目度): 71.43912903508765
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Surgical instrument segmentation in robot-assisted surgery (RAS) - especially
that using learning-based models - relies on the assumption that training and
testing videos are sampled from the same domain. However, it is impractical and
expensive to collect and annotate sufficient data from every new domain. To
greatly increase the label efficiency, we explore a new problem, i.e., adaptive
instrument segmentation, which is to effectively adapt one source model to new
robotic surgical videos from multiple target domains, only given the annotated
instruments in the first frame. We propose MDAL, a meta-learning based dynamic
online adaptive learning scheme with a two-stage framework to fast adapt the
model parameters on the first frame and partial subsequent frames while
predicting the results. MDAL learns the general knowledge of instruments and
the fast adaptation ability through the video-specific meta-learning paradigm.
The added gradient gate excludes the noisy supervision from pseudo masks for
dynamic online adaptation on target videos. We demonstrate empirically that
MDAL outperforms other state-of-the-art methods on two datasets (including a
real-world RAS dataset). The promising performance on ex-vivo scenes also
benefits the downstream tasks such as robot-assisted suturing and camera
control.
- Abstract(参考訳): ロボット支援手術(RAS)における手術器具のセグメンテーション(特に学習モデルを用いた場合)は、トレーニングとテストビデオが同じドメインからサンプリングされるという仮定に依存している。
しかし、新しいドメインごとに十分なデータを収集し注釈を付けるのは非現実的で高価である。
ラベル効率を著しく向上させるため, 1つの音源モデルを複数の対象領域の新たなロボット手術ビデオに効果的に適用する, アノテーテッド・インスツルメンテーション(adaptive instrument segmentation)という新たな問題を検討した。
本研究では,2段階フレームワークを用いたメタラーニングに基づく動的オンライン適応学習方式であるmdalを提案する。
MDALは、ビデオ固有のメタ学習パラダイムを通じて、楽器の一般的な知識と高速適応能力を学ぶ。
グラデーションゲートは、ターゲットビデオに対する動的オンライン適応のために、偽のマスクからノイズの多い監視を除外する。
我々はMDALが2つのデータセット(実世界のRASデータセットを含む)で他の最先端手法よりも優れていることを実証的に示す。
元vivoシーンでの有望なパフォーマンスは、ロボット支援の縫合やカメラ制御といった下流のタスクにもメリットがある。
関連論文リスト
- VidMan: Exploiting Implicit Dynamics from Video Diffusion Model for Effective Robot Manipulation [79.00294932026266]
VidManは、安定性を高め、データ利用効率を向上させるために、2段階のトレーニングメカニズムを使用する新しいフレームワークである。
我々のフレームワークは、CALVINベンチマークで最先端のベースラインモデルGR-1を上回り、11.7%の相対的な改善を実現し、OXEの小規模データセットで9%以上の精度向上を示す。
論文 参考訳(メタデータ) (2024-11-14T03:13:26Z) - Any-point Trajectory Modeling for Policy Learning [64.23861308947852]
我々は、ビデオフレーム内の任意の点の将来の軌跡を予測するために、ATM(Any-point Trajectory Modeling)を導入する。
ATMは、強力なビデオ事前トレーニングベースラインを平均80%上回っている。
本研究では,人間の動画やビデオからの操作スキルを,異なるロボット形態から効果的に伝達する学習方法を示す。
論文 参考訳(メタデータ) (2023-12-28T23:34:43Z) - XVO: Generalized Visual Odometry via Cross-Modal Self-Training [11.70220331540621]
XVOは、一般化された単眼視眼視(英語版)モデル(英語版)(VO)を訓練するための半教師付き学習法である。
単一のデータセット内の既知のキャリブレーションをよく研究する標準的な単分子VOアプローチとは対照的に、XVOは現実のスケールで相対的なポーズを回復するのを効率的に学習する。
そこで我々は,YouTubeで公開されている大量の非拘束・異質なダッシュカメラビデオから,自己学習による動作推定モデルを最適化した。
論文 参考訳(メタデータ) (2023-09-28T18:09:40Z) - Domain Adaptive Sim-to-Real Segmentation of Oropharyngeal Organs Towards
Robot-assisted Intubation [15.795665057836636]
この作業では、Open Framework Architectureフレームワークによって生成された仮想データセットを導入し、実際の内視鏡画像の可用性の制限を克服する。
また,画像ブレンディング戦略を用いた咽頭臓器画像分割のための領域適応型Sim-to-Real法を提案する。
実験結果は,ドメイン適応モデルを用いた提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2023-05-19T14:08:15Z) - ProFormer: Learning Data-efficient Representations of Body Movement with
Prototype-based Feature Augmentation and Visual Transformers [31.908276711898548]
身体からのデータ効率の高い認識法は、画像のような配列として構造化された骨格配列をますます活用している。
我々は、このパラダイムをトランスフォーマーネットワークの観点から見て、初めて、骨格運動のデータ効率の高いエンコーダとして視覚トランスフォーマーを探索する。
私たちのパイプラインでは、画像のような表現としてキャストされたボディポーズシーケンスをパッチ埋め込みに変換し、深いメトリック学習に最適化されたビジュアルトランスフォーマーバックボーンに渡します。
論文 参考訳(メタデータ) (2022-02-23T11:11:54Z) - EAN: Event Adaptive Network for Enhanced Action Recognition [66.81780707955852]
本稿では,映像コンテンツの動的性質を調査するための統合された行動認識フレームワークを提案する。
まず、局所的な手がかりを抽出する際に、動的スケールの時空間カーネルを生成し、多様な事象を適応的に適合させる。
第2に、これらのキューを正確にグローバルなビデオ表現に集約するために、トランスフォーマーによって選択されたいくつかの前景オブジェクト間のインタラクションのみをマイニングすることを提案する。
論文 参考訳(メタデータ) (2021-07-22T15:57:18Z) - Domain Adaptive Robotic Gesture Recognition with Unsupervised
Kinematic-Visual Data Alignment [60.31418655784291]
本稿では,マルチモダリティ知識,すなわちキネマティックデータとビジュアルデータを同時にシミュレータから実ロボットに伝達できる,教師なしドメイン適応フレームワークを提案する。
ビデオの時間的手がかりと、ジェスチャー認識に対するマルチモーダル固有の相関を用いて、トランスファー可能な機能を強化したドメインギャップを修復する。
その結果, 本手法は, ACCでは最大12.91%, F1scoreでは20.16%と, 実際のロボットではアノテーションを使わずに性能を回復する。
論文 参考訳(メタデータ) (2021-03-06T09:10:03Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。