論文の概要: SiamParseNet: Joint Body Parsing and Label Propagation in Infant
Movement Videos
- arxiv url: http://arxiv.org/abs/2007.08646v1
- Date: Thu, 16 Jul 2020 21:14:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-09 23:42:33.347142
- Title: SiamParseNet: Joint Body Parsing and Label Propagation in Infant
Movement Videos
- Title(参考訳): SiamParseNet:幼児運動ビデオにおける共同身体解析とラベル伝播
- Authors: Haomiao Ni, Yuan Xue, Qian Zhang, Xiaolei Huang
- Abstract要約: 乳児運動ビデオ(IMV)の一般運動評価(GMA)は、乳幼児の脳性麻痺(CP)の早期発見に有効な方法である。
半教師付きボディパーシングモデルSiamParseNet(SPN)を提案する。
- 参考スコア(独自算出の注目度): 12.99371655893686
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: General movement assessment (GMA) of infant movement videos (IMVs) is an
effective method for the early detection of cerebral palsy (CP) in infants.
Automated body parsing is a crucial step towards computer-aided GMA, in which
infant body parts are segmented and tracked over time for movement analysis.
However, acquiring fully annotated data for video-based body parsing is
particularly expensive due to the large number of frames in IMVs. In this
paper, we propose a semi-supervised body parsing model, termed SiamParseNet
(SPN), to jointly learn single frame body parsing and label propagation between
frames in a semi-supervised fashion. The Siamese-structured SPN consists of a
shared feature encoder, followed by two separate branches: one for intra-frame
body parts segmentation, and one for inter-frame label propagation. The two
branches are trained jointly, taking pairs of frames from the same videos as
their input. An adaptive training process is proposed that alternates training
modes between using input pairs of only labeled frames and using inputs of both
labeled and unlabeled frames. During testing, we employ a multi-source
inference mechanism, where the final result for a test frame is either obtained
via the segmentation branch or via propagation from a nearby key frame. We
conduct extensive experiments on a partially-labeled IMV dataset where SPN
outperforms all prior arts, demonstrating the effectiveness of our proposed
method.
- Abstract(参考訳): 乳児運動ビデオ(IMV)の一般運動評価(GMA)は、乳幼児の脳性麻痺(CP)の早期発見に有効な方法である。
自動身体解析はコンピュータ支援GMAに向けた重要なステップであり、幼児の身体の部位を時間とともに分割して追跡し、運動分析を行う。
しかし、imvのフレーム数が多いため、ビデオベースのボディ解析のための完全に注釈付きデータを取得することは特に高価である。
本稿では,SiamParseNet(SPN)と呼ばれる半教師付きボディパーシングモデルを提案する。
siamese-structured spnは、共有特徴エンコーダと、フレーム内ボディ部分セグメンテーション用とフレーム間ラベル伝搬用という2つの別々のブランチで構成される。
2つのブランチは共同でトレーニングされ、入力と同じビデオからペアのフレームを取ります。
ラベル付きフレームのみの入力ペアとラベル付きフレームとラベル付きフレームの両方の入力とでトレーニングモードを交互に使用する適応型トレーニングプロセスを提案する。
テストでは、マルチソース推論機構を採用し、テストフレームの最終結果がセグメンテーションブランチまたは近くのキーフレームからの伝搬を介して取得される。
提案手法の有効性を実証するために,spnがすべての先行技術を上回る部分ラベルipvデータセットを広範囲に実験した。
関連論文リスト
- Dual Prototype Attention for Unsupervised Video Object Segmentation [28.725754274542304]
教師なしビデオオブジェクトセグメンテーション(VOS)は、ビデオ中の最も有能なオブジェクトを検出し、セグメンテーションすることを目的としている。
本稿では,2つの新しいプロトタイプベースアテンション機構,IMA(Inter-modality attention)とフレーム間アテンション(IFA)を提案する。
論文 参考訳(メタデータ) (2022-11-22T06:19:17Z) - Semi-supervised Body Parsing and Pose Estimation for Enhancing Infant
General Movement Assessment [11.33138866472943]
乳児運動ビデオ(IMV)の一般運動評価(GMA)は、乳幼児の脳性麻痺(CP)の早期発見に有効な方法である。
本稿では、画像シーケンス認識のためのエンドツーエンドのトレーニング可能なニューラルネットワークが、GMAの優れた結果を得るために適用可能であることを実証する。
本研究では,SiamParseNet(SPN)と呼ばれる半教師付きモデルを提案する。
論文 参考訳(メタデータ) (2022-10-14T18:46:30Z) - Retrieval of surgical phase transitions using reinforcement learning [11.130363429095048]
オフライン位相遷移検索のための新しい強化学習形式を導入する。
構成上,本モデルでは突発的でノイズの多い相転移は生じないが,連続的な相転移は生じない。
提案手法は,TeCNO と Trans-SVNet を用いた最近のトップパフォーマンスフレームベースアプローチと比較する。
論文 参考訳(メタデータ) (2022-08-01T14:43:15Z) - Skimming, Locating, then Perusing: A Human-Like Framework for Natural
Language Video Localization [19.46938403691984]
そこで我々は,Skimming-Locating-Perusingと呼ばれる2段階のヒューマンライクなフレームワークを提案する。
SLPはSkimming-and-Locating (SL) モジュールと Bi-directional Perusing (BP) モジュールで構成されている。
我々のSLPは最先端の手法よりも優れており、より正確なセグメント境界をローカライズしている。
論文 参考訳(メタデータ) (2022-07-27T10:59:33Z) - TTVFI: Learning Trajectory-Aware Transformer for Video Frame
Interpolation [50.49396123016185]
ビデオフレーム(VFI)は、2つの連続するフレーム間の中間フレームを合成することを目的としている。
ビデオフレーム補間用トラジェクトリ対応トランス (TTVFI) を提案する。
提案手法は,4つの広く使用されているVFIベンチマークにおいて,他の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2022-07-19T03:37:49Z) - Tag-Based Attention Guided Bottom-Up Approach for Video Instance
Segmentation [83.13610762450703]
ビデオインスタンスは、ビデオシーケンス全体にわたるオブジェクトインスタンスのセグメンテーションと追跡を扱う、基本的なコンピュータビジョンタスクである。
そこで本研究では,従来の領域プロモーター方式ではなく,画素レベルの粒度でインスタンスマスク予測を実現するための,単純なエンドツーエンドのボトムアップ方式を提案する。
提案手法は,YouTube-VIS と DAVIS-19 のデータセット上での競合結果を提供する。
論文 参考訳(メタデータ) (2022-04-22T15:32:46Z) - Part-level Action Parsing via a Pose-guided Coarse-to-Fine Framework [108.70949305791201]
パートレベルのアクションパーシング(PAP)は、ビデオレベルのアクションを予測するだけでなく、ビデオ内の各人に対するフレームレベルのきめ細かいアクションやインタラクションを認識することを目的としている。
特に,本フレームワークは,まず入力ビデオの映像レベルのクラスを予測し,次に身体部位をローカライズし,部分レベルの動作を予測する。
我々のフレームワークは最先端のパフォーマンスを達成し、既存の手法を31.10%のROCスコアで上回ります。
論文 参考訳(メタデータ) (2022-03-09T01:30:57Z) - Contrastive Transformation for Self-supervised Correspondence Learning [120.62547360463923]
野生のラベルのない動画を用いて,視覚的対応の自己監督学習について検討する。
本手法は,信頼性の高い対応推定のための映像内および映像間表現関連を同時に検討する。
我々のフレームワークは、近年の視覚的タスクにおける自己監督型対応手法よりも優れています。
論文 参考訳(メタデータ) (2020-12-09T14:05:06Z) - Learning Motion Flows for Semi-supervised Instrument Segmentation from
Robotic Surgical Video [64.44583693846751]
本研究は,スパースアノテーションを用いたロボット手術ビデオから半教師楽器のセグメンテーションについて検討する。
生成されたデータペアを利用することで、我々のフレームワークはトレーニングシーケンスの時間的一貫性を回復し、強化することができます。
その結果,本手法は最先端の半教師あり手法よりも大きなマージンで優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-06T02:39:32Z) - SF-Net: Single-Frame Supervision for Temporal Action Localization [60.202516362976645]
単一フレームの監視は、低いアノテーションのオーバーヘッドを維持しながら、追加の時間的アクション信号を導入します。
本研究では,SF-Netと呼ばれる単一フレーム監視システムを提案する。
SF-Netは、セグメントローカライゼーションと単一フレームローカライゼーションの両方の観点から、最先端の弱い教師付き手法を大幅に改善する。
論文 参考訳(メタデータ) (2020-03-15T15:06:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。