論文の概要: Enhancing Transformer for Video Understanding Using Gated Multi-Level
Attention and Temporal Adversarial Training
- arxiv url: http://arxiv.org/abs/2103.10043v1
- Date: Thu, 18 Mar 2021 06:39:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-20 03:31:44.045006
- Title: Enhancing Transformer for Video Understanding Using Gated Multi-Level
Attention and Temporal Adversarial Training
- Title(参考訳): Gated Multi-Level Attention and Temporal Adversarial Training を用いた映像理解のためのエンハンストランス
- Authors: Saurabh Sahu and Palash Goyal
- Abstract要約: Gated Adversarial Transformer (GAT)を導入し,映像への注目モデルの適用性を高める。
GATはマルチレベルの注意ゲートを使用して、ローカルおよびグローバルコンテキストに基づいてフレームの関連性をモデル化します。
本稿では,映像分類作業における大規模YoutTube-8MデータセットにおけるGATの性能について述べる。
- 参考スコア(独自算出の注目度): 9.548744259567837
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The introduction of Transformer model has led to tremendous advancements in
sequence modeling, especially in text domain. However, the use of
attention-based models for video understanding is still relatively unexplored.
In this paper, we introduce Gated Adversarial Transformer (GAT) to enhance the
applicability of attention-based models to videos. GAT uses a multi-level
attention gate to model the relevance of a frame based on local and global
contexts. This enables the model to understand the video at various
granularities. Further, GAT uses adversarial training to improve model
generalization. We propose temporal attention regularization scheme to improve
the robustness of attention modules to adversarial examples. We illustrate the
performance of GAT on the large-scale YoutTube-8M data set on the task of video
categorization. We further show ablation studies along with quantitative and
qualitative analysis to showcase the improvement.
- Abstract(参考訳): Transformerモデルの導入は、特にテキスト領域におけるシーケンスモデリングの大幅な進歩につながった。
しかし、ビデオ理解のための注意に基づくモデルの使用は、いまだに未定である。
本稿では,GAT(Gated Adversarial Transformer)を導入し,映像への注目モデルの適用性を高める。
gatはマルチレベルアテンションゲートを使用して、ローカルおよびグローバルコンテキストに基づいたフレームの関連性をモデル化する。
これにより、モデルは様々な粒度でビデオを理解することができる。
さらに、GATはモデル一般化を改善するために敵の訓練を使用する。
本稿では,注意モジュールのロバスト性を改善するための時間的注意正規化手法を提案する。
本稿では,映像分類作業における大規模YoutTube-8MデータセットにおけるGATの性能について述べる。
さらに, 量的, 質的分析とともにアブレーション研究を行い, その改善を示す。
関連論文リスト
- STEAM: Squeeze and Transform Enhanced Attention Module [1.3370933421481221]
本稿では,マルチヘッドグラフ変換器の概念を利用して,チャネルと空間の注意の両方をモデル化するグラフベースの手法を提案する。
STEAMは標準のResNet-50モデルよりも2%精度が向上し、GFLOPはわずかに増加した。
STEAMは、GFLOPの3倍の削減を達成しつつ、リードモジュールECAとGCTの精度で性能を向上する。
論文 参考訳(メタデータ) (2024-12-12T07:38:10Z) - Prompting Video-Language Foundation Models with Domain-specific Fine-grained Heuristics for Video Question Answering [71.62961521518731]
HeurVidQAは、ドメイン固有のエンティティアクションを利用して、事前訓練されたビデオ言語基盤モデルを洗練するフレームワークである。
我々のアプローチでは、これらのモデルを暗黙の知識エンジンとして扱い、ドメイン固有のエンティティアクションプロンサを使用して、推論を強化する正確な手がかりにモデルを焦点を向けます。
論文 参考訳(メタデータ) (2024-10-12T06:22:23Z) - iVideoGPT: Interactive VideoGPTs are Scalable World Models [70.02290687442624]
世界モデルは、現実の意思決定のために想像された環境の中で、モデルベースのエージェントを対話的に探索し、推論し、計画することを可能にする。
マルチモーダルな信号 – 視覚的観察,アクション,報酬 – を統合した,スケーラブルな自己回帰型トランスフォーマーフレームワークであるInteractive VideoGPTを導入する。
iVideoGPTは、高次元の視覚的観察を効率的に識別する新しい圧縮トークン化技術を備えている。
論文 参考訳(メタデータ) (2024-05-24T05:29:12Z) - Direct Preference Optimization of Video Large Multimodal Models from Language Model Reward [118.65089648651308]
本稿では,映像コンテンツのプロキシとして詳細な動画キャプションを利用する新しいフレームワークを提案する。
本稿では,DPOによる報酬の調整により,ビデオ質問応答(QA)タスクにおけるビデオLMMの性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2024-04-01T17:28:16Z) - p-Laplacian Adaptation for Generative Pre-trained Vision-Language Models [10.713680139939354]
大きなコーパスで事前訓練された視覚言語モデル(VLM)は、下流のタスクで顕著な成功を収めている。
PETLはフル微調整の代替として注目されている。
グラフニューラルネットワーク(GNN)において,$p$-Laplacianメッセージパッシングを利用する新しいアダプタアーキテクチャである$p$-adapterを提案する。
論文 参考訳(メタデータ) (2023-12-17T05:30:35Z) - Helping Hands: An Object-Aware Ego-Centric Video Recognition Model [60.350851196619296]
オブジェクト認識デコーダを導入し、エゴ中心の動画におけるエゴ中心の表現の性能を向上させる。
このモデルは,エゴ認識ビデオモデルの代替として機能し,視覚テキストのグラウンド化による性能向上を図っている。
論文 参考訳(メタデータ) (2023-08-15T17:58:11Z) - Pre-training Contextualized World Models with In-the-wild Videos for
Reinforcement Learning [54.67880602409801]
本稿では,視覚制御タスクの学習を効率的に行うために,Wild 動画を多用した事前学習型世界モデルの課題について検討する。
本稿では、コンテキストと動的モデリングを明確に分離したContextualized World Models(ContextWM)を紹介する。
実験により,ContextWMを内蔵したWildビデオ事前学習は,モデルベース強化学習のサンプル効率を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-05-29T14:29:12Z) - Vision Transformer with Deformable Attention [29.935891419574602]
大規模な、時としてグローバルな受信フィールドは、CNNモデルよりも高い表現力を持つTransformerモデルを提供する。
本稿では,キーと値ペアの位置をデータ依存的に選択する,変形可能な新しい自己保持モジュールを提案する。
画像分類と重み付き予測の両方に変形性を考慮した一般的なバックボーンモデルであるDeformable Attention Transformerを提案する。
論文 参考訳(メタデータ) (2022-01-03T08:29:01Z) - Leveraging Local Temporal Information for Multimodal Scene
Classification [9.548744259567837]
映像シーン分類モデルは、映像の空間的(ピクセル的に)および時間的(フレーム的に)特性を効果的に捉えなければならない。
トークン列が与えられた個々のトークンに対して文脈化された表現を得るように設計された自己注意型トランスフォーマーモデルは、多くのコンピュータビジョンタスクで人気が高まっている。
本稿では,ビデオフレーム間の局所的・大域的時間的関係を利用して,各フレームの文脈的表現をより良くする自己注意ブロックを提案する。
論文 参考訳(メタデータ) (2021-10-26T19:58:32Z) - GTA: Global Temporal Attention for Video Action Understanding [51.476605514802806]
空間的注意を軸にグローバルな時間的注目を行うグローバルテンポラルアテンション(AGT:Global Temporal Attention)を分離的に紹介します。
2Dおよび3Dネットワーク上でのテストは、我々のアプローチが時間的モデリングを一貫して強化し、3つのビデオアクション認識データセットに対して最先端のパフォーマンスを提供することを示す。
論文 参考訳(メタデータ) (2020-12-15T18:58:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。