論文の概要: Transfer of Representations to Video Label Propagation: Implementation
Factors Matter
- arxiv url: http://arxiv.org/abs/2203.05553v1
- Date: Thu, 10 Mar 2022 18:58:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-11 15:45:01.380224
- Title: Transfer of Representations to Video Label Propagation: Implementation
Factors Matter
- Title(参考訳): ビデオラベル伝播における表現の伝達:実施要因
- Authors: Daniel McKee, Zitong Zhan, Bing Shuai, Davide Modolo, Joseph Tighe,
Svetlana Lazebnik
- Abstract要約: 特徴抽出とラベル伝搬における重要な実装要因の影響について検討する。
映像ベースの通信手段を静止画像ベースで拡張することで、さらなる性能向上が期待できることを示す。
本研究は, 評価実践の改善と, 時間的対応における今後の研究方向性の報知に役立つことを期待する。
- 参考スコア(独自算出の注目度): 31.030799003595522
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work studies feature representations for dense label propagation in
video, with a focus on recently proposed methods that learn video
correspondence using self-supervised signals such as colorization or temporal
cycle consistency. In the literature, these methods have been evaluated with an
array of inconsistent settings, making it difficult to discern trends or
compare performance fairly. Starting with a unified formulation of the label
propagation algorithm that encompasses most existing variations, we
systematically study the impact of important implementation factors in feature
extraction and label propagation. Along the way, we report the accuracies of
properly tuned supervised and unsupervised still image baselines, which are
higher than those found in previous works. We also demonstrate that augmenting
video-based correspondence cues with still-image-based ones can further improve
performance. We then attempt a fair comparison of recent video-based methods on
the DAVIS benchmark, showing convergence of best methods to performance levels
near our strong ImageNet baseline, despite the usage of a variety of
specialized video-based losses and training particulars. Additional comparisons
on JHMDB and VIP datasets confirm the similar performance of current methods.
We hope that this study will help to improve evaluation practices and better
inform future research directions in temporal correspondence.
- Abstract(参考訳): 本研究は,カラー化や時間周期の整合性といった自己教師付き信号を用いて映像対応を学習する手法に焦点をあてて,映像中の濃密なラベル伝搬の表現を特徴付ける。
文献では、これらの手法は一貫性のない一連の設定で評価されており、傾向の識別や性能の比較が困難である。
まず,既存のバリエーションを包含するラベル伝播アルゴリズムの統一的定式化から,特徴抽出とラベル伝播における重要な実装因子の影響を体系的に検討する。
そこで本研究では,従来の作品よりも高画質の静止画像ベースラインを,適切に調整し,教師なしの静止画像ベースラインの精度を報告する。
また,静止画による映像対応の強化により,さらなる性能向上が期待できることを示す。
次に、DAVISベンチマークにおける最近のビデオベース手法の公正な比較を試みた。これは、様々な専門的なビデオベース損失の使用とトレーニング特質にもかかわらず、強力なImageNetベースラインに近いパフォーマンスレベルへのベストメソッドの収束を示すものである。
JHMDBとVIPデータセットのさらなる比較では、現在の手法と同様のパフォーマンスが確認されている。
本研究は, 評価実践の改善と, 時間的対応における今後の研究方向性の報知に役立つことを期待する。
関連論文リスト
- ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - CoCon: Cooperative-Contrastive Learning [52.342936645996765]
自己教師付き視覚表現学習は効率的な映像分析の鍵である。
最近の画像表現の学習の成功は、コントラスト学習がこの課題に取り組むための有望なフレームワークであることを示唆している。
コントラスト学習の協調的バリエーションを導入し、ビュー間の相補的な情報を活用する。
論文 参考訳(メタデータ) (2021-04-30T05:46:02Z) - Weakly Supervised Video Salient Object Detection [79.51227350937721]
本稿では,relabeled relabeled "fixation guided scribble annotations" に基づく最初の弱教師付きビデオサリエント物体検出モデルを提案する。
効果的なマルチモーダル学習と長期時間文脈モデリングを実現するために,「アプレンス・モーション・フュージョン・モジュール」と双方向のConvLSTMベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-06T09:48:38Z) - Composable Augmentation Encoding for Video Representation Learning [94.2358972764708]
自己教師型ビデオ表現学習におけるコントラスト手法に着目した。
対照的な学習における一般的なパラダイムは、同じインスタンスで異なるデータビューをサンプリングし、異なるデータインスタンスを負として、ポジティブペアを構築することである。
そこで我々は,拡張パラメータの列を明示的に提供する,拡張対応型コントラスト学習フレームワークを提案する。
提案手法は,特定の空間的あるいは時間的拡張に関する情報をエンコードすると同時に,多数のビデオベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-04-01T16:48:53Z) - Self-supervised Co-training for Video Representation Learning [103.69904379356413]
実例に基づく情報ノイズコントラスト推定訓練に意味クラス正の付加を施すことの利点について検討する。
本稿では,インフォネッションNCEの損失を改善するための,自己指導型協調学習手法を提案する。
本研究では,2つの下流タスク(行動認識とビデオ検索)における学習表現の質を評価する。
論文 参考訳(メタデータ) (2020-10-19T17:59:01Z) - Self-supervised Video Representation Learning Using Inter-intra
Contrastive Framework [43.002621928500425]
ビデオから特徴表現を学習するための自己教師付き手法を提案する。
映像表現が重要であるので、負のサンプルを非負のサンプルによって拡張する。
学習した映像表現を用いて,映像検索と映像認識タスクの実験を行う。
論文 参考訳(メタデータ) (2020-08-06T09:08:14Z) - Self-supervised learning using consistency regularization of
spatio-temporal data augmentation for action recognition [15.701647552427708]
整合正則化に基づく高次特徴写像に基づく代理監視信号を得るための新しい手法を提案する。
本手法は,動作認識のための最先端の自己教師型学習法と比較して,大幅に改善されている。
論文 参考訳(メタデータ) (2020-08-05T12:41:59Z) - Unsupervised Learning of Video Representations via Dense Trajectory
Clustering [86.45054867170795]
本稿では,ビデオにおける行動認識のための表現の教師なし学習の課題に対処する。
まず、このクラスの2つのトップパフォーマンス目標(インスタンス認識と局所集約)を適用することを提案する。
有望な性能を観察するが、定性的解析により、学習した表現が動きのパターンを捉えないことを示す。
論文 参考訳(メタデータ) (2020-06-28T22:23:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。