論文の概要: Is an Object-Centric Video Representation Beneficial for Transfer?
- arxiv url: http://arxiv.org/abs/2207.10075v1
- Date: Wed, 20 Jul 2022 17:59:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-21 14:03:26.721083
- Title: Is an Object-Centric Video Representation Beneficial for Transfer?
- Title(参考訳): オブジェクト中心のビデオ表現は転送に有益か?
- Authors: Chuhan Zhang, Ankush Gupta, Andrew Zisserman
- Abstract要約: トランスアーキテクチャ上にオブジェクト中心のビデオ認識モデルを導入する。
対象中心モデルが先行映像表現より優れていることを示す。
- 参考スコア(独自算出の注目度): 86.40870804449737
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The objective of this work is to learn an object-centric video
representation, with the aim of improving transferability to novel tasks, i.e.,
tasks different from the pre-training task of action classification. To this
end, we introduce a new object-centric video recognition model based on a
transformer architecture. The model learns a set of object-centric summary
vectors for the video, and uses these vectors to fuse the visual and
spatio-temporal trajectory `modalities' of the video clip. We also introduce a
novel trajectory contrast loss to further enhance objectness in these summary
vectors. With experiments on four datasets -- SomethingSomething-V2,
SomethingElse, Action Genome and EpicKitchens -- we show that the
object-centric model outperforms prior video representations (both
object-agnostic and object-aware), when: (1) classifying actions on unseen
objects and unseen environments; (2) low-shot learning to novel classes; (3)
linear probe to other downstream tasks; as well as (4) for standard action
classification.
- Abstract(参考訳): 本研究の目的は,アクション分類の事前学習タスクとは異なる,新たなタスクへの転送性の向上を目的とした,オブジェクト中心のビデオ表現の学習である。
そこで本稿では,トランスフォーマアーキテクチャに基づく新しいオブジェクト中心ビデオ認識モデルを提案する。
モデルは、ビデオのオブジェクト中心の要約ベクトルの集合を学習し、これらのベクトルを使用して、ビデオクリップの視覚的および時空間的軌跡「モダリティ」を融合する。
また,これらの要約ベクトルの客観性を高めるために,新たなトラジェクトリコントラスト損失を導入する。
somethingSomething-V2, SomethingElse, Action Genome, EpicKitchens という4つのデータセットの実験により、オブジェクト中心モデルは、(1)見えないオブジェクトや見えない環境におけるアクションの分類、(2)新しいクラスへのローショット学習、(3)他の下流タスクへの線形プローブ、(4)標準アクション分類において、以前のビデオ表現(オブジェクト認識とオブジェクト認識の両方)よりも優れていることを示す。
関連論文リスト
- ROAM: Robust and Object-Aware Motion Generation Using Neural Pose
Descriptors [73.26004792375556]
本稿では,3次元オブジェクト認識キャラクタ合成における新しいシーンオブジェクトへのロバストさと一般化が,参照オブジェクトを1つも持たないモーションモデルをトレーニングすることで実現可能であることを示す。
我々は、オブジェクト専用のデータセットに基づいて訓練された暗黙的な特徴表現を活用し、オブジェクトの周りのSE(3)-同変記述体フィールドをエンコードする。
本研究では,3次元仮想キャラクタの動作と相互作用の質,および未知のオブジェクトを持つシナリオに対するロバスト性を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-24T17:59:51Z) - MegaPose: 6D Pose Estimation of Novel Objects via Render & Compare [84.80956484848505]
MegaPoseは、トレーニング中に見えない新しいオブジェクトの6Dポーズを推定する方法である。
本稿では,新しいオブジェクトに適用可能なR&Compare戦略に基づく6次元ポーズリファインダを提案する。
第2に,合成レンダリングと同一物体の観察画像間のポーズ誤差をリファインダで補正できるか否かを分類するために訓練されたネットワークを利用する,粗いポーズ推定のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-12-13T19:30:03Z) - Segmenting Moving Objects via an Object-Centric Layered Representation [100.26138772664811]
深層表現を用いたオブジェクト中心セグメンテーションモデルを提案する。
複数のオブジェクトで合成トレーニングデータを生成するスケーラブルなパイプラインを導入する。
標準的なビデオセグメンテーションベンチマークでモデルを評価する。
論文 参考訳(メタデータ) (2022-07-05T17:59:43Z) - SOS! Self-supervised Learning Over Sets Of Handled Objects In Egocentric
Action Recognition [35.4163266882568]
本稿では,SOS(Self-Supervised Learning Over Sets)を導入し,OIC(ジェネリック・オブジェクト・イン・コンタクト)表現モデルを事前学習する。
OICは複数の最先端ビデオ分類モデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2022-04-10T23:27:19Z) - Object-Region Video Transformers [100.23380634952083]
本稿では,オブジェクト表現でトランスフォーマー映像層を拡張するエポbject中心のアプローチであるObject-Region Transformers Video(ORViT)を提案する。
ORViTブロックは2つのオブジェクトレベルのストリームで構成されています。
オブジェクト表現をトランスフォーマーアーキテクチャに組み込んだモデルの価値を実証し、全てのタスクにまたがってパフォーマンスを強く向上させ、検討する。
論文 参考訳(メタデータ) (2021-10-13T17:51:46Z) - Disentangling What and Where for 3D Object-Centric Representations
Through Active Inference [4.088019409160893]
本稿では、時間とともに新しいオブジェクトカテゴリを学習できるアクティブ推論エージェントを提案する。
我々のエージェントは、教師なしの方法で、多くのオブジェクトカテゴリの表現を学習できることを示す。
我々は,エージェントが画素ベースのレンダリングから与えられたポーズでオブジェクトを検索できるエンドツーエンドでシステムを検証する。
論文 参考訳(メタデータ) (2021-08-26T12:49:07Z) - DyStaB: Unsupervised Object Segmentation via Dynamic-Static
Bootstrapping [72.84991726271024]
我々は,コヒーレントなシーン全体を移動しているように見えるシーンの画像の一部を検出し,分割するための教師なしの手法について述べる。
提案手法はまず,セグメント間の相互情報を最小化することにより,運動場を分割する。
セグメントを使用してオブジェクトモデルを学習し、静的なイメージの検出に使用することができる。
論文 参考訳(メタデータ) (2020-08-16T22:05:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。