論文の概要: Representation learning from videos in-the-wild: An object-centric
approach
- arxiv url: http://arxiv.org/abs/2010.02808v2
- Date: Tue, 9 Feb 2021 17:08:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 07:33:06.224687
- Title: Representation learning from videos in-the-wild: An object-centric
approach
- Title(参考訳): 動画からの表現学習 : オブジェクト中心のアプローチ
- Authors: Rob Romijnders, Aravindh Mahendran, Michael Tschannen, Josip Djolonga,
Marvin Ritter, Neil Houlsby, Mario Lucic
- Abstract要約: 未修正ビデオから画像表現を学習する手法を提案する。
我々は、市販の物体検出器からの監視的損失と、各ビデオに存在するビデオショットフレームオブジェクト階層から自然に生じる自己監督的損失とを組み合わせる。
- 参考スコア(独自算出の注目度): 40.46013713992305
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a method to learn image representations from uncurated videos. We
combine a supervised loss from off-the-shelf object detectors and
self-supervised losses which naturally arise from the video-shot-frame-object
hierarchy present in each video. We report competitive results on 19 transfer
learning tasks of the Visual Task Adaptation Benchmark (VTAB), and on 8
out-of-distribution-generalization tasks, and discuss the benefits and
shortcomings of the proposed approach. In particular, it improves over the
baseline on all 18/19 few-shot learning tasks and 8/8 out-of-distribution
generalization tasks. Finally, we perform several ablation studies and analyze
the impact of the pretrained object detector on the performance across this
suite of tasks.
- Abstract(参考訳): 未修正ビデオから画像表現を学習する手法を提案する。
我々は、市販の物体検出器からの監視的損失と、各ビデオに存在するビデオショットフレームオブジェクト階層から自然に生じる自己監督的損失を組み合わせる。
本稿では,Visual Task Adaptation Benchmark (VTAB) の19の移行学習タスクと8つのアウト・オブ・ディストリビューション・ジェネリゼーションタスクの競合結果について報告し,提案手法の利点と欠点について考察する。
特に、18/19の少数ショット学習タスクと8/8の分散一般化タスクのベースラインよりも改善されている。
最後に,いくつかのアブレーション研究を行い,事前学習された物体検出器がタスク全体の性能に与える影響を分析した。
関連論文リスト
- Object-Centric Temporal Consistency via Conditional Autoregressive Inductive Biases [69.46487306858789]
Conditional Autoregressive Slot Attention (CA-SA) は、ビデオ中心の視覚タスクにおいて抽出されたオブジェクト中心の表現の時間的一貫性を高めるフレームワークである。
本稿では,提案手法が下流タスクのベースラインよりも優れていることを示す定性的,定量的な結果を示す。
論文 参考訳(メタデータ) (2024-10-21T07:44:44Z) - What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - Contrastive Losses Are Natural Criteria for Unsupervised Video
Summarization [27.312423653997087]
ビデオの要約は、ビデオ内の最も情報に富むサブセットを選択して、効率的なビデオブラウジングを容易にすることを目的としている。
本稿では,局所的な相似性,グローバルな一貫性,一意性という,望ましいキーフレームを特徴とする3つの指標を提案する。
本研究は,事前学習した特徴を軽量なプロジェクションモジュールで洗練することにより,フレームレベルの重要度をさらに向上できることを示す。
論文 参考訳(メタデータ) (2022-11-18T07:01:28Z) - SS-VAERR: Self-Supervised Apparent Emotional Reaction Recognition from
Video [61.21388780334379]
この研究は、自己監督的な方法で行われるビデオのみの入力からの明らかな感情的反応の認識に焦点を当てる。
ネットワークは、まず異なる自己教師付きプレテキストタスクで事前訓練され、その後、下流のターゲットタスクで微調整される。
論文 参考訳(メタデータ) (2022-10-20T15:21:51Z) - Hierarchical Self-supervised Representation Learning for Movie
Understanding [24.952866206036536]
本稿では,階層的映画理解モデルの各レベルを個別に事前学習する,新しい階層的自己指導型事前学習戦略を提案する。
具体的には、コントラスト学習目標を用いた低レベルビデオバックボーンの事前トレーニングと、イベントマスク予測タスクを用いた高レベルビデオコンテクストアライザの事前トレーニングを提案する。
まず、我々の自己指導型事前学習戦略が効果的であることを示し、VidSituベンチマーク[37]における全てのタスクとメトリクスのパフォーマンス改善につながっている(例:意味的役割予測を47%から61% CIDErスコアに改善する)。
論文 参考訳(メタデータ) (2022-04-06T21:28:41Z) - Learning Actor-centered Representations for Action Localization in
Streaming Videos using Predictive Learning [18.757368441841123]
ストリーミングビデオのアクションの認識やローカライズなどのイベント認識タスクは、視覚的な理解タスクに取り組む上で不可欠です。
我々は,連続的階層的予測学習という概念を通じて,テクスタクタ中心の表現を学習する問題に取り組む。
イベント知覚の認知理論に触発され、新しい自己監督型フレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-29T06:06:58Z) - Memory-augmented Dense Predictive Coding for Video Representation
Learning [103.69904379356413]
本稿では,新しいアーキテクチャと学習フレームワーク Memory-augmented Predictive Coding (MemDPC) を提案する。
本稿では、RGBフレームからの視覚のみの自己教師付きビデオ表現学習や、教師なし光学フローからの学習、あるいはその両方について検討する。
いずれの場合も、トレーニングデータの桁数が桁違いに少ない他のアプローチに対して、最先端または同等のパフォーマンスを示す。
論文 参考訳(メタデータ) (2020-08-03T17:57:01Z) - Unsupervised Learning of Video Representations via Dense Trajectory
Clustering [86.45054867170795]
本稿では,ビデオにおける行動認識のための表現の教師なし学習の課題に対処する。
まず、このクラスの2つのトップパフォーマンス目標(インスタンス認識と局所集約)を適用することを提案する。
有望な性能を観察するが、定性的解析により、学習した表現が動きのパターンを捉えないことを示す。
論文 参考訳(メタデータ) (2020-06-28T22:23:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。