論文の概要: Motion2Vec: Semi-Supervised Representation Learning from Surgical Videos
- arxiv url: http://arxiv.org/abs/2006.00545v1
- Date: Sun, 31 May 2020 15:46:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-26 13:07:56.501287
- Title: Motion2Vec: Semi-Supervised Representation Learning from Surgical Videos
- Title(参考訳): Motion2Vec: 手術ビデオからの半教師付き表現学習
- Authors: Ajay Kumar Tanwani, Pierre Sermanet, Andy Yan, Raghav Anand, Mariano
Phielipp, Ken Goldberg
- Abstract要約: 動作セグメント/サブゴール/オプションにグループ化することで,手術映像の動作中心の表現を学習する。
我々はビデオ観察から深い埋め込み特徴空間を学習するアルゴリズムであるMotion2Vecを紹介する。
この表現を用いて,JIGSAWSデータセットの公開ビデオからの外科的縫合動作を模倣する。
- 参考スコア(独自算出の注目度): 23.153335327822685
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning meaningful visual representations in an embedding space can
facilitate generalization in downstream tasks such as action segmentation and
imitation. In this paper, we learn a motion-centric representation of surgical
video demonstrations by grouping them into action segments/sub-goals/options in
a semi-supervised manner. We present Motion2Vec, an algorithm that learns a
deep embedding feature space from video observations by minimizing a metric
learning loss in a Siamese network: images from the same action segment are
pulled together while pushed away from randomly sampled images of other
segments, while respecting the temporal ordering of the images. The embeddings
are iteratively segmented with a recurrent neural network for a given
parametrization of the embedding space after pre-training the Siamese network.
We only use a small set of labeled video segments to semantically align the
embedding space and assign pseudo-labels to the remaining unlabeled data by
inference on the learned model parameters. We demonstrate the use of this
representation to imitate surgical suturing motions from publicly available
videos of the JIGSAWS dataset. Results give 85.5 % segmentation accuracy on
average suggesting performance improvement over several state-of-the-art
baselines, while kinematic pose imitation gives 0.94 centimeter error in
position per observation on the test set. Videos, code and data are available
at https://sites.google.com/view/motion2vec
- Abstract(参考訳): 埋め込み空間における意味ある視覚表現の学習は、アクションセグメンテーションや模倣のような下流タスクの一般化を促進する。
本稿では,動作セグメント/サブゴール/オプションにグループ化することで,手術映像の動作中心の表現を半教師付きで学習する。
映像の時間順序を尊重しつつ、他のセグメントのランダムにサンプリングされた画像から、同じ動作セグメントからの画像をプッシュしながら、同じアクションセグメントからのイメージをプルして、映像を最小化することで、ビデオ観察から深い埋め込み特徴空間を学ぶアルゴリズムmotion2vecを提案する。
埋め込みは、シームズネットワークを事前訓練した後、所定の埋め込み空間のパラメトリゼーションのために繰り返しニューラルネットワークで繰り返しセグメンテーションされる。
埋め込み空間を意味的にアライメントし、学習したモデルパラメータを推測することで、残りの未ラベルデータに擬似ラベルを割り当てるために、ラベル付きビデオセグメントの小さなセットのみを使用する。
この表現を用いて,JIGSAWSデータセットの公開ビデオからの外科的縫合動作を模倣する。
その結果、85.5パーセントのセグメンテーション精度が、いくつかの最先端のベースラインに対するパフォーマンス改善を示唆する一方で、キネマティックなポーズ模倣は、テストセットにおける観察毎の位置で0.94センチの誤差を与える。
ビデオ、コード、データはhttps://sites.google.com/view/motion2vecで入手できる。
関連論文リスト
- Guess What Moves: Unsupervised Video and Image Segmentation by
Anticipating Motion [92.80981308407098]
本稿では,動きに基づくセグメンテーションと外観に基づくセグメンテーションの強みを組み合わせたアプローチを提案する。
本稿では、画像分割ネットワークを監督し、単純な動きパターンを含む可能性のある領域を予測することを提案する。
教師なしのビデオセグメンテーションモードでは、ネットワークは、学習プロセス自体をこれらのビデオをセグメンテーションするアルゴリズムとして使用して、ラベルのないビデオの集合に基づいて訓練される。
論文 参考訳(メタデータ) (2022-05-16T17:55:34Z) - Min-Max Similarity: A Contrastive Learning Based Semi-Supervised
Learning Network for Surgical Tools Segmentation [0.0]
コントラスト学習に基づく半教師付きセグメンテーションネットワークを提案する。
従来の最先端技術とは対照的に、両視点トレーニングの対照的な学習形式を導入する。
提案手法は、最先端の半教師付きおよび完全教師付きセグメンテーションアルゴリズムを一貫して上回る。
論文 参考訳(メタデータ) (2022-03-29T01:40:26Z) - The Emergence of Objectness: Learning Zero-Shot Segmentation from Videos [59.12750806239545]
動画は移動成分によって同じシーンを異なる視点で見ることができ、適切な領域分割と領域フローは相互のビュー合成を可能にする。
モデルでは,1枚の画像に対して特徴に基づく領域分割を出力する出現経路と,1枚の画像に対して動作特徴を出力する動き経路の2つの経路から開始する。
セグメントフローに基づく視線合成誤差を最小限に抑えるためにモデルを訓練することにより、我々の外観経路と運動経路は、それぞれ低レベルのエッジや光フローから構築することなく、領域のセグメンテーションとフロー推定を自動的に学習する。
論文 参考訳(メタデータ) (2021-11-11T18:59:11Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - Weakly Supervised Instance Segmentation for Videos with Temporal Mask
Consistency [28.352140544936198]
弱い教師付きインスタンスセグメンテーションは、モデルのトレーニングに必要なアノテーションのコストを削減します。
画像ではなく弱いラベル付きビデオでトレーニングすることで,これらの問題に対処できることを示す。
私たちは、弱い教師付きインスタンスセグメンテーションに取り組むために、これらのビデオ信号の使用を初めて調査しました。
論文 参考訳(メタデータ) (2021-03-23T23:20:46Z) - ASIST: Annotation-free synthetic instance segmentation and tracking for
microscope video analysis [8.212196747588361]
サブセルマイクロビリの顕微鏡映像を解析するための,アノテーションのない新規な合成インスタンスセグメンテーション・トラッキングアルゴリズムを提案する。
実験結果から,提案手法は教師あり学習よりも優れた性能を示した。
論文 参考訳(メタデータ) (2020-11-02T14:39:26Z) - Self-supervised Video Representation Learning by Uncovering
Spatio-temporal Statistics [74.6968179473212]
本稿では,自己指導型学習問題に対処する新しい前提課題を提案する。
最大運動の空間的位置や支配的な方向など,分割的・時間的統計的な要約を連続して計算する。
ビデオフレームを入力として与えられた統計的要約を得るために、ニューラルネットワークを構築して訓練する。
論文 参考訳(メタデータ) (2020-08-31T08:31:56Z) - DyStaB: Unsupervised Object Segmentation via Dynamic-Static
Bootstrapping [72.84991726271024]
我々は,コヒーレントなシーン全体を移動しているように見えるシーンの画像の一部を検出し,分割するための教師なしの手法について述べる。
提案手法はまず,セグメント間の相互情報を最小化することにより,運動場を分割する。
セグメントを使用してオブジェクトモデルを学習し、静的なイメージの検出に使用することができる。
論文 参考訳(メタデータ) (2020-08-16T22:05:13Z) - Unsupervised Learning of Video Representations via Dense Trajectory
Clustering [86.45054867170795]
本稿では,ビデオにおける行動認識のための表現の教師なし学習の課題に対処する。
まず、このクラスの2つのトップパフォーマンス目標(インスタンス認識と局所集約)を適用することを提案する。
有望な性能を観察するが、定性的解析により、学習した表現が動きのパターンを捉えないことを示す。
論文 参考訳(メタデータ) (2020-06-28T22:23:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。