論文の概要: Enhancing Transformer for Video Understanding Using Gated Multi-Level
Attention and Temporal Adversarial Training
- arxiv url: http://arxiv.org/abs/2103.10043v1
- Date: Thu, 18 Mar 2021 06:39:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-20 03:31:44.045006
- Title: Enhancing Transformer for Video Understanding Using Gated Multi-Level
Attention and Temporal Adversarial Training
- Title(参考訳): Gated Multi-Level Attention and Temporal Adversarial Training を用いた映像理解のためのエンハンストランス
- Authors: Saurabh Sahu and Palash Goyal
- Abstract要約: Gated Adversarial Transformer (GAT)を導入し,映像への注目モデルの適用性を高める。
GATはマルチレベルの注意ゲートを使用して、ローカルおよびグローバルコンテキストに基づいてフレームの関連性をモデル化します。
本稿では,映像分類作業における大規模YoutTube-8MデータセットにおけるGATの性能について述べる。
- 参考スコア(独自算出の注目度): 9.548744259567837
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The introduction of Transformer model has led to tremendous advancements in
sequence modeling, especially in text domain. However, the use of
attention-based models for video understanding is still relatively unexplored.
In this paper, we introduce Gated Adversarial Transformer (GAT) to enhance the
applicability of attention-based models to videos. GAT uses a multi-level
attention gate to model the relevance of a frame based on local and global
contexts. This enables the model to understand the video at various
granularities. Further, GAT uses adversarial training to improve model
generalization. We propose temporal attention regularization scheme to improve
the robustness of attention modules to adversarial examples. We illustrate the
performance of GAT on the large-scale YoutTube-8M data set on the task of video
categorization. We further show ablation studies along with quantitative and
qualitative analysis to showcase the improvement.
- Abstract(参考訳): Transformerモデルの導入は、特にテキスト領域におけるシーケンスモデリングの大幅な進歩につながった。
しかし、ビデオ理解のための注意に基づくモデルの使用は、いまだに未定である。
本稿では,GAT(Gated Adversarial Transformer)を導入し,映像への注目モデルの適用性を高める。
gatはマルチレベルアテンションゲートを使用して、ローカルおよびグローバルコンテキストに基づいたフレームの関連性をモデル化する。
これにより、モデルは様々な粒度でビデオを理解することができる。
さらに、GATはモデル一般化を改善するために敵の訓練を使用する。
本稿では,注意モジュールのロバスト性を改善するための時間的注意正規化手法を提案する。
本稿では,映像分類作業における大規模YoutTube-8MデータセットにおけるGATの性能について述べる。
さらに, 量的, 質的分析とともにアブレーション研究を行い, その改善を示す。
関連論文リスト
- p-Laplacian Adaptation for Generative Pre-trained Vision-Language Models [10.713680139939354]
大きなコーパスで事前訓練された視覚言語モデル(VLM)は、下流のタスクで顕著な成功を収めている。
PETLはフル微調整の代替として注目されている。
グラフニューラルネットワーク(GNN)において,$p$-Laplacianメッセージパッシングを利用する新しいアダプタアーキテクチャである$p$-adapterを提案する。
論文 参考訳(メタデータ) (2023-12-17T05:30:35Z) - Helping Hands: An Object-Aware Ego-Centric Video Recognition Model [60.350851196619296]
オブジェクト認識デコーダを導入し、エゴ中心の動画におけるエゴ中心の表現の性能を向上させる。
このモデルは,エゴ認識ビデオモデルの代替として機能し,視覚テキストのグラウンド化による性能向上を図っている。
論文 参考訳(メタデータ) (2023-08-15T17:58:11Z) - Pre-training Contextualized World Models with In-the-wild Videos for
Reinforcement Learning [54.67880602409801]
本稿では,視覚制御タスクの学習を効率的に行うために,Wild 動画を多用した事前学習型世界モデルの課題について検討する。
本稿では、コンテキストと動的モデリングを明確に分離したContextualized World Models(ContextWM)を紹介する。
実験により,ContextWMを内蔵したWildビデオ事前学習は,モデルベース強化学習のサンプル効率を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-05-29T14:29:12Z) - Learning to Augment via Implicit Differentiation for Domain
Generalization [107.9666735637355]
ドメイン一般化(DG)は、複数のソースドメインを活用してドメイン一般化可能なモデルを学ぶことで、この問題を克服することを目的としている。
本稿では,AugLearnと呼ばれる新しい拡張型DG手法を提案する。
AugLearnは、PACS、Office-Home、Digits-DGの3つの標準DGベンチマークで効果を示す。
論文 参考訳(メタデータ) (2022-10-25T18:51:51Z) - Video Mobile-Former: Video Recognition with Efficient Global
Spatial-temporal Modeling [125.95527079960725]
トランスフォーマーベースのモデルは、主要なビデオ認識ベンチマークで最高のパフォーマンスを達成した。
Video Mobile-Formerはトランスフォーマーベースの最初のビデオモデルであり、1G FLOP内で計算予算を制限している。
論文 参考訳(メタデータ) (2022-08-25T17:59:00Z) - Vision Transformer with Deformable Attention [29.935891419574602]
大規模な、時としてグローバルな受信フィールドは、CNNモデルよりも高い表現力を持つTransformerモデルを提供する。
本稿では,キーと値ペアの位置をデータ依存的に選択する,変形可能な新しい自己保持モジュールを提案する。
画像分類と重み付き予測の両方に変形性を考慮した一般的なバックボーンモデルであるDeformable Attention Transformerを提案する。
論文 参考訳(メタデータ) (2022-01-03T08:29:01Z) - Leveraging Local Temporal Information for Multimodal Scene
Classification [9.548744259567837]
映像シーン分類モデルは、映像の空間的(ピクセル的に)および時間的(フレーム的に)特性を効果的に捉えなければならない。
トークン列が与えられた個々のトークンに対して文脈化された表現を得るように設計された自己注意型トランスフォーマーモデルは、多くのコンピュータビジョンタスクで人気が高まっている。
本稿では,ビデオフレーム間の局所的・大域的時間的関係を利用して,各フレームの文脈的表現をより良くする自己注意ブロックを提案する。
論文 参考訳(メタデータ) (2021-10-26T19:58:32Z) - Can't Fool Me: Adversarially Robust Transformer for Video Understanding [8.082788827336337]
ビデオ理解タスクでは、逆向きに堅牢なモデルを開発することは、まだ探索されていない。
まず、画像ベースで逆向きに頑健なモデルの単純な拡張により、最悪の場合のパフォーマンスがわずかに向上することを示す。
大規模ビデオデータセットのYouTube-8Mを用いて、最終モデルは非競合性能に近い結果が得られることを示す。
論文 参考訳(メタデータ) (2021-10-26T18:30:21Z) - Space-time Mixing Attention for Video Transformer [55.50839896863275]
本稿では,ビデオシーケンス内のフレーム数と線形にスケールする複雑性をビデオトランスフォーマーモデルとして提案する。
我々は,最も人気のあるビデオ認識データセットに対して,認識精度が非常に高いことを実証した。
論文 参考訳(メタデータ) (2021-06-10T17:59:14Z) - GTA: Global Temporal Attention for Video Action Understanding [51.476605514802806]
空間的注意を軸にグローバルな時間的注目を行うグローバルテンポラルアテンション(AGT:Global Temporal Attention)を分離的に紹介します。
2Dおよび3Dネットワーク上でのテストは、我々のアプローチが時間的モデリングを一貫して強化し、3つのビデオアクション認識データセットに対して最先端のパフォーマンスを提供することを示す。
論文 参考訳(メタデータ) (2020-12-15T18:58:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。