論文の概要: No More Shortcuts: Realizing the Potential of Temporal Self-Supervision
- arxiv url: http://arxiv.org/abs/2312.13008v1
- Date: Wed, 20 Dec 2023 13:20:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 15:42:58.337065
- Title: No More Shortcuts: Realizing the Potential of Temporal Self-Supervision
- Title(参考訳): no more shortcuts:temporal self-supervisionの可能性
- Authors: Ishan Rajendrakumar Dave, Simon Jenni, Mubarak Shah
- Abstract要約: 本稿では、フレームレベルの認識タスクではなく、フレームレベルの認識タスクとして、時間的自己監督のより困難な再構築を提案する。
我々は、より困難なフレームレベルのタスクの定式化とショートカットの削除が、時間的自己監督によって学習された特徴の質を大幅に改善することを示した。
- 参考スコア(独自算出の注目度): 69.59938105887538
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised approaches for video have shown impressive results in video
understanding tasks. However, unlike early works that leverage temporal
self-supervision, current state-of-the-art methods primarily rely on tasks from
the image domain (e.g., contrastive learning) that do not explicitly promote
the learning of temporal features. We identify two factors that limit existing
temporal self-supervision: 1) tasks are too simple, resulting in saturated
training performance, and 2) we uncover shortcuts based on local appearance
statistics that hinder the learning of high-level features. To address these
issues, we propose 1) a more challenging reformulation of temporal
self-supervision as frame-level (rather than clip-level) recognition tasks and
2) an effective augmentation strategy to mitigate shortcuts. Our model extends
a representation of single video frames, pre-trained through contrastive
learning, with a transformer that we train through temporal self-supervision.
We demonstrate experimentally that our more challenging frame-level task
formulations and the removal of shortcuts drastically improve the quality of
features learned through temporal self-supervision. The generalization
capability of our self-supervised video method is evidenced by its
state-of-the-art performance in a wide range of high-level semantic tasks,
including video retrieval, action classification, and video attribute
recognition (such as object and scene identification), as well as low-level
temporal correspondence tasks like video object segmentation and pose tracking.
Additionally, we show that the video representations learned through our method
exhibit increased robustness to the input perturbations.
- Abstract(参考訳): ビデオに対する自己監督的アプローチは、ビデオ理解タスクにおいて印象的な結果を示している。
しかし、時間的自己超越を利用する初期の研究とは異なり、現在の最先端の手法は主に時間的特徴の学習を明示的に促進しない画像領域(例えば、対照的な学習)からのタスクに依存している。
既存の時間的自己監督を制限する2つの要因を同定する。
1)タスクは単純すぎ、結果としてトレーニング性能が飽和し、
2)高レベル特徴の学習を妨げる局所的出現統計に基づくショートカットを明らかにする。
これらの問題に対処するために
1)フレームレベル(クリップレベルではなく)認識タスクとしての時間的自己監督のより困難な改革
2)ショートカットを緩和するための効果的な増強戦略。
我々のモデルは、コントラスト学習を通じて事前訓練された単一のビデオフレームの表現を拡張し、時間的自己監督を通じてトレーニングするトランスフォーマーである。
より挑戦的なフレームレベルのタスクの定式化とショートカットの削除が,時間的自己スーパービジョンを通じて学んだ機能の質を劇的に向上させることを実験的に実証した。
自己教師付き映像法の一般化は,映像検索や行動分類,映像属性認識(物体識別やシーン識別など)や,映像オブジェクトのセグメンテーションやポーズ追跡といった低レベルの時間対応タスクなど,幅広い高レベルの意味的タスクにおいて,その最先端のパフォーマンスが証明されている。
さらに,本手法を用いて学習した映像表現は,入力摂動に対する頑健性を高めたことを示す。
関連論文リスト
- Time Is MattEr: Temporal Self-supervision for Video Transformers [72.42240984211283]
我々は、時間的ダイナミクスをよりよく学習するために、ビデオモデルのための単純で効果的な自己教師型タスクを設計する。
ビデオフレームの時間順序を余分な自己監督として学習し、ランダムにシャッフルされたフレームを低信頼出力に強制する。
様々なビデオ行動認識タスクにおいて,本手法の有効性と最先端のビデオ変換器との互換性を実証する。
論文 参考訳(メタデータ) (2022-07-19T04:44:08Z) - Tragedy Plus Time: Capturing Unintended Human Activities from
Weakly-labeled Videos [31.1632730473261]
W-Oopsは2100の意図しない人間のアクションビデオで構成され、44のゴール指向と30の意図しないビデオレベルのアクティビティラベルが人間のアノテーションを通じて収集されている。
本稿では,映像中の意図しない時間領域だけでなく,目標指向の局所化のための弱教師付きアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-04-28T14:56:43Z) - Boundary-aware Self-supervised Learning for Video Scene Segmentation [20.713635723315527]
シーンセグメンテーション(英: Video scene segmentation)は、ビデオ内のシーン境界を時間的に局所化するタスクである。
本稿では,3つの境界対応プレテキストタスク,ショットシーンマッチング,コンテキストグループマッチング,擬似境界予測を紹介する。
我々はMovieNet-SSegベンチマークの最先端性を実現する。
論文 参考訳(メタデータ) (2022-01-14T02:14:07Z) - Exploring Temporal Granularity in Self-Supervised Video Representation
Learning [99.02421058335533]
本研究は,ビデオ表現学習における時間的グラニュラリティの探索を目的とした,TeGという自己教師型学習フレームワークを提案する。
TeGの柔軟性は、8つのビデオベンチマークで最先端の結果をもたらし、ほとんどの場合、教師付き事前トレーニングよりも優れています。
論文 参考訳(メタデータ) (2021-12-08T18:58:42Z) - Stacked Temporal Attention: Improving First-person Action Recognition by
Emphasizing Discriminative Clips [39.29955809641396]
ファーストパーソンビデオの背景やノイズの多いフレームは、学習プロセス中にアクション認識モデルに注意をそらすことができる。
従来の研究は、時間的注意を払ってこの問題に対処しようとしたが、全ビデオのグローバルな文脈を考慮できなかった。
本稿では,ビデオクリップ間のグローバルな知識に基づいて時間的注意を計算するための,シンプルで効果的なスタックド・テンポラル・アテンション・モジュールを提案する。
論文 参考訳(メタデータ) (2021-12-02T08:02:35Z) - Self-Regulated Learning for Egocentric Video Activity Anticipation [147.9783215348252]
自己制御学習(SRL)は、中間表現を連続的に制御し、現在のタイムスタンプのフレームにおける新しい情報を強調する表現を作り出すことを目的としている。
SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2021-11-23T03:29:18Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - RSPNet: Relative Speed Perception for Unsupervised Video Representation
Learning [100.76672109782815]
本研究では,未ラベル映像のみから動作特徴と外観特徴の両方を学習するための教師なし映像表現学習について検討する。
動作と外観の両方をうまくモデル化するために、適切な自己指導タスクを構築することは困難である。
再生速度を知覚し、2つのビデオクリップ間の相対速度をラベルとして利用するための新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-27T16:42:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。