論文の概要: EgoViT: Pyramid Video Transformer for Egocentric Action Recognition
- arxiv url: http://arxiv.org/abs/2303.08920v1
- Date: Wed, 15 Mar 2023 20:33:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-17 18:00:00.977578
- Title: EgoViT: Pyramid Video Transformer for Egocentric Action Recognition
- Title(参考訳): egovit: エゴセントリックなアクション認識のためのピラミッドビデオトランスフォーマー
- Authors: Chenbin Pan, Zhiqi Zhang, Senem Velipasalar, Yi Xu
- Abstract要約: 手と物体の相互作用を捉えることは、自我中心の動画から人間の行動を自律的に検出する上で重要である。
エゴセントリックなアクション認識のための動的クラストークン生成器を備えたピラミッドビデオ変換器を提案する。
- 参考スコア(独自算出の注目度): 18.05706639179499
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Capturing interaction of hands with objects is important to autonomously
detect human actions from egocentric videos. In this work, we present a pyramid
video transformer with a dynamic class token generator for egocentric action
recognition. Different from previous video transformers, which use the same
static embedding as the class token for diverse inputs, we propose a dynamic
class token generator that produces a class token for each input video by
analyzing the hand-object interaction and the related motion information. The
dynamic class token can diffuse such information to the entire model by
communicating with other informative tokens in the subsequent transformer
layers. With the dynamic class token, dissimilarity between videos can be more
prominent, which helps the model distinguish various inputs. In addition,
traditional video transformers explore temporal features globally, which
requires large amounts of computation. However, egocentric videos often have a
large amount of background scene transition, which causes discontinuities
across distant frames. In this case, blindly reducing the temporal sampling
rate will risk losing crucial information. Hence, we also propose a pyramid
architecture to hierarchically process the video from short-term high rate to
long-term low rate. With the proposed architecture, we significantly reduce the
computational cost as well as the memory requirement without sacrificing from
the model performance. We perform comparisons with different baseline video
transformers on the EPIC-KITCHENS-100 and EGTEA Gaze+ datasets. Both
quantitative and qualitative results show that the proposed model can
efficiently improve the performance for egocentric action recognition.
- Abstract(参考訳): 手と物体の相互作用を捉えることは、自我中心のビデオから人間の行動を自動的に検出する上で重要である。
本稿では,エゴセントリック動作認識のための動的クラストークン生成器を備えたピラミッドビデオトランスフォーマを提案する。
多様な入力に対してクラストークンと同じ静的埋め込みを用いる従来のビデオトランスフォーマーとは違い,手動インタラクションと関連する動作情報を分析して,各入力ビデオに対してクラストークンを生成する動的クラストークン生成器を提案する。
動的クラストークンは、後続のトランスフォーマー層で他の情報トークンと通信することで、これらの情報をモデル全体に拡散することができる。
動的クラストークンでは、ビデオ間の相違がより顕著になり、モデルが様々な入力を区別するのに役立つ。
さらに、従来のビデオトランスフォーマーは、大量の計算を必要とする時間的特徴をグローバルに探索する。
しかしながら、エゴセントリックなビデオは、しばしば大量の背景遷移を持ち、遠方のフレームに不連続を引き起こす。
この場合、時間的サンプリング率を盲目的に削減することは重要な情報を失うリスクがある。
そこで本研究では,ビデオを短時間のハイレートから長期の低レートまで階層的に処理するためのピラミッドアーキテクチャを提案する。
提案するアーキテクチャでは,モデル性能を犠牲にすることなく,計算コストとメモリ要求を大幅に削減する。
epic-kitchens-100とegtea gaze+データセットで、異なるベースラインビデオトランスフォーマーとの比較を行う。
定量的および定性的な結果から, 提案モデルがエゴセントリック行動認識の性能を効率的に向上できることが示された。
関連論文リスト
- VDT: General-purpose Video Diffusion Transformers via Mask Modeling [62.71878864360634]
Video Diffusion Transformer (VDT)は、拡散に基づくビデオ生成におけるトランスフォーマーの利用の先駆者である。
本稿では,多様な映像生成シナリオに対応するために,モデルとシームレスに統合された空間時空間マスクモデリング機構を提案する。
論文 参考訳(メタデータ) (2023-05-22T17:59:45Z) - SViTT: Temporal Learning of Sparse Video-Text Transformers [65.93031164906812]
SViTTは,多フレーム推論が可能な疎ビデオテキストアーキテクチャであり,注目度の高い単純変換器よりもはるかに低コストである。
SViTTは、自己注意におけるトークン間のクエリキー通信を制限するエッジ空間と、非形式的視覚トークンを破棄する空間の2つの形式を採用している。
論文 参考訳(メタデータ) (2023-04-18T08:17:58Z) - Time Is MattEr: Temporal Self-supervision for Video Transformers [72.42240984211283]
我々は、時間的ダイナミクスをよりよく学習するために、ビデオモデルのための単純で効果的な自己教師型タスクを設計する。
ビデオフレームの時間順序を余分な自己監督として学習し、ランダムにシャッフルされたフレームを低信頼出力に強制する。
様々なビデオ行動認識タスクにおいて,本手法の有効性と最先端のビデオ変換器との互換性を実証する。
論文 参考訳(メタデータ) (2022-07-19T04:44:08Z) - Video Transformers: A Survey [42.314208650554264]
ビデオデータのモデル化にトランスフォーマーを適用するための貢献とトレンドについて検討する。
具体的には、ビデオの埋め込みとトークン化の方法を掘り下げて、大きなCNNバックボーンの非常にウィドスプレッドな使用法を見つけます。
また,ビデオトランスフォーマーの訓練に使用される自己監督的損失の分析を行った。
論文 参考訳(メタデータ) (2022-01-16T07:31:55Z) - Efficient Video Transformers with Spatial-Temporal Token Selection [68.27784654734396]
入力ビデオサンプルに条件付き時間的・空間的両方のトークンを動的に選択するトークン選択フレームワークSTTSを提案する。
我々のフレームワークは、20%の計算を必要としながら、同様の結果を得る。
論文 参考訳(メタデータ) (2021-11-23T00:35:58Z) - Leveraging Local Temporal Information for Multimodal Scene
Classification [9.548744259567837]
映像シーン分類モデルは、映像の空間的(ピクセル的に)および時間的(フレーム的に)特性を効果的に捉えなければならない。
トークン列が与えられた個々のトークンに対して文脈化された表現を得るように設計された自己注意型トランスフォーマーモデルは、多くのコンピュータビジョンタスクで人気が高まっている。
本稿では,ビデオフレーム間の局所的・大域的時間的関係を利用して,各フレームの文脈的表現をより良くする自己注意ブロックを提案する。
論文 参考訳(メタデータ) (2021-10-26T19:58:32Z) - Object-Region Video Transformers [100.23380634952083]
本稿では,オブジェクト表現でトランスフォーマー映像層を拡張するエポbject中心のアプローチであるObject-Region Transformers Video(ORViT)を提案する。
ORViTブロックは2つのオブジェクトレベルのストリームで構成されています。
オブジェクト表現をトランスフォーマーアーキテクチャに組み込んだモデルの価値を実証し、全てのタスクにまたがってパフォーマンスを強く向上させ、検討する。
論文 参考訳(メタデータ) (2021-10-13T17:51:46Z) - Generative Video Transformer: Can Objects be the Words? [22.788711301106765]
本稿では,オブジェクト中心のアプローチを用いてシーンを生成ビデオトランスに適したトークンに分解するオブジェクト中心ビデオトランス (OCVT) を提案する。
映像をオブジェクトに分解することで、完全に教師されていないモデルでは、シーン内の複数のオブジェクトの複雑な時間的ダイナミクスを学習し、ビデオの将来のフレームを生成することができる。
私たちのモデルはピクセルベースモデルよりもメモリ効率が大幅に向上し、48GBのGPUで最大70フレームの動画をトレーニングすることができます。
論文 参考訳(メタデータ) (2021-07-20T03:08:39Z) - VideoLightFormer: Lightweight Action Recognition using Transformers [8.871042314510788]
本稿では,新しい軽量なアクション認識アーキテクチャであるVideoLightFormerを提案する。
分解された方法で、2次元畳み込み時間ネットワークを変換器で慎重に拡張する。
我々は,EPIC-KITCHENS-100とSone-SV-V-Something2データセットの高効率設定におけるビデオLightFormerの評価を行った。
論文 参考訳(メタデータ) (2021-07-01T13:55:52Z) - ViViT: A Video Vision Transformer [75.74690759089529]
ビデオ分類にpure-transformerベースのモデルを提案する。
本モデルでは,入力ビデオから時間トークンを抽出し,一連のトランスフォーマー層で符号化する。
トレーニング中にモデルを効果的に正規化し、トレーニング済みの画像モデルを利用して比較的小さなデータセットでトレーニングできることを示します。
論文 参考訳(メタデータ) (2021-03-29T15:27:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。