論文の概要: Object-Region Video Transformers
- arxiv url: http://arxiv.org/abs/2110.06915v1
- Date: Wed, 13 Oct 2021 17:51:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-14 14:53:11.985091
- Title: Object-Region Video Transformers
- Title(参考訳): 対象領域ビデオトランスフォーマ
- Authors: Roei Herzig, Elad Ben-Avraham, Karttikeya Mangalam, Amir Bar, Gal
Chechik, Anna Rohrbach, Trevor Darrell, Amir Globerson
- Abstract要約: 本稿では,オブジェクト表現でトランスフォーマー映像層を拡張するエポbject中心のアプローチであるObject-Region Transformers Video(ORViT)を提案する。
ORViTブロックは2つのオブジェクトレベルのストリームで構成されています。
オブジェクト表現をトランスフォーマーアーキテクチャに組み込んだモデルの価値を実証し、全てのタスクにまたがってパフォーマンスを強く向上させ、検討する。
- 参考スコア(独自算出の注目度): 100.23380634952083
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evidence from cognitive psychology suggests that understanding
spatio-temporal object interactions and dynamics can be essential for
recognizing actions in complex videos. Therefore, action recognition models are
expected to benefit from explicit modeling of objects, including their
appearance, interaction, and dynamics. Recently, video transformers have shown
great success in video understanding, exceeding CNN performance. Yet, existing
video transformer models do not explicitly model objects. In this work, we
present Object-Region Video Transformers (ORViT), an \emph{object-centric}
approach that extends video transformer layers with a block that directly
incorporates object representations. The key idea is to fuse object-centric
spatio-temporal representations throughout multiple transformer layers. Our
ORViT block consists of two object-level streams: appearance and dynamics. In
the appearance stream, an ``Object-Region Attention'' element applies
self-attention over the patches and \emph{object regions}. In this way, visual
object regions interact with uniform patch tokens and enrich them with
contextualized object information. We further model object dynamics via a
separate ``Object-Dynamics Module'', which captures trajectory interactions,
and show how to integrate the two streams. We evaluate our model on standard
and compositional action recognition on Something-Something V2, standard action
recognition on Epic-Kitchen100 and Diving48, and spatio-temporal action
detection on AVA. We show strong improvement in performance across all tasks
and datasets considered, demonstrating the value of a model that incorporates
object representations into a transformer architecture. For code and pretrained
models, visit the project page at https://roeiherz.github.io/ORViT/.
- Abstract(参考訳): 認知心理学の証拠は、時空間と物体の相互作用とダイナミクスを理解することが複雑なビデオの動作を認識する上で不可欠であることを示唆している。
したがって、アクション認識モデルは、その出現、相互作用、ダイナミクスを含むオブジェクトの明示的なモデリングの恩恵を受けることが期待される。
近年,ビデオトランスフォーマーはCNNのパフォーマンスを上回る映像理解において大きな成功を収めている。
しかし、既存のビデオトランスフォーマーモデルはオブジェクトを明示的にモデル化していない。
本稿では,オブジェクト表現を直接組み込んだブロックでビデオトランスフォーマー層を拡張する, \emph{object-centric} アプローチである Object-Region Video Transformers (ORViT) を提案する。
重要なアイデアは、オブジェクト中心の時空間表現を複数のトランスフォーマー層に融合することだ。
ORViTブロックは2つのオブジェクトレベルのストリームで構成されています。
外観ストリームでは、 ``Object-Region Attention'' 要素がパッチと \emph{object region} に自己アテンションを適用する。
このようにして、視覚オブジェクト領域は均一なパッチトークンと相互作用し、それらをコンテキスト化されたオブジェクト情報で強化する。
我々はさらに、軌跡相互作用をキャプチャする別々の ``Object-Dynamics Module'' を通じてオブジェクトのダイナミクスをモデル化し、2つのストリームを統合する方法を示す。
本研究では,Something V2の標準動作認識,Epic-Kitchen100およびDiving48の標準動作認識,AVAの時空間動作検出について検討した。
オブジェクト表現をトランスフォーマーアーキテクチャに組み込んだモデルの価値を実証し、考慮したすべてのタスクやデータセットのパフォーマンスを強く向上させる。
コードと事前トレーニングされたモデルについては、https://roeiherz.github.io/orvit/のプロジェクトページを参照してください。
関連論文リスト
- Rethinking Image-to-Video Adaptation: An Object-centric Perspective [61.833533295978484]
本稿では,オブジェクト中心の視点から,画像から映像への適応戦略を提案する。
人間の知覚に触発されて、物体発見のプロキシタスクを画像-映像間移動学習に統合する。
論文 参考訳(メタデータ) (2024-07-09T13:58:10Z) - ROAM: Robust and Object-Aware Motion Generation Using Neural Pose
Descriptors [73.26004792375556]
本稿では,3次元オブジェクト認識キャラクタ合成における新しいシーンオブジェクトへのロバストさと一般化が,参照オブジェクトを1つも持たないモーションモデルをトレーニングすることで実現可能であることを示す。
我々は、オブジェクト専用のデータセットに基づいて訓練された暗黙的な特徴表現を活用し、オブジェクトの周りのSE(3)-同変記述体フィールドをエンコードする。
本研究では,3次元仮想キャラクタの動作と相互作用の質,および未知のオブジェクトを持つシナリオに対するロバスト性を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-24T17:59:51Z) - Helping Hands: An Object-Aware Ego-Centric Video Recognition Model [60.350851196619296]
オブジェクト認識デコーダを導入し、エゴ中心の動画におけるエゴ中心の表現の性能を向上させる。
このモデルは,エゴ認識ビデオモデルの代替として機能し,視覚テキストのグラウンド化による性能向上を図っている。
論文 参考訳(メタデータ) (2023-08-15T17:58:11Z) - EgoViT: Pyramid Video Transformer for Egocentric Action Recognition [18.05706639179499]
手と物体の相互作用を捉えることは、自我中心の動画から人間の行動を自律的に検出する上で重要である。
エゴセントリックなアクション認識のための動的クラストークン生成器を備えたピラミッドビデオ変換器を提案する。
論文 参考訳(メタデータ) (2023-03-15T20:33:50Z) - Interaction Region Visual Transformer for Egocentric Action Anticipation [18.873728614415946]
本研究では,エゴセントリックな行動予測のための人間と物体の相互作用を表現する新しい手法を提案する。
空間的クロスアテンションを用いた手と物体の相互作用をモデル化する。
次に,トラジェクトリ・クロス・アテンションを用いてコンテキスト情報を注入し,環境に合った対話トークンを得る。
これらのトークンを用いて,アクション予測のためのインタラクション中心のビデオ表現を構築する。
論文 参考訳(メタデータ) (2022-11-25T15:00:51Z) - Is an Object-Centric Video Representation Beneficial for Transfer? [86.40870804449737]
トランスアーキテクチャ上にオブジェクト中心のビデオ認識モデルを導入する。
対象中心モデルが先行映像表現より優れていることを示す。
論文 参考訳(メタデータ) (2022-07-20T17:59:44Z) - Segmenting Moving Objects via an Object-Centric Layered Representation [100.26138772664811]
深層表現を用いたオブジェクト中心セグメンテーションモデルを提案する。
複数のオブジェクトで合成トレーニングデータを生成するスケーラブルなパイプラインを導入する。
標準的なビデオセグメンテーションベンチマークでモデルを評価する。
論文 参考訳(メタデータ) (2022-07-05T17:59:43Z) - SOS! Self-supervised Learning Over Sets Of Handled Objects In Egocentric
Action Recognition [35.4163266882568]
本稿では,SOS(Self-Supervised Learning Over Sets)を導入し,OIC(ジェネリック・オブジェクト・イン・コンタクト)表現モデルを事前学習する。
OICは複数の最先端ビデオ分類モデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2022-04-10T23:27:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。