Fugu-MT 論文翻訳(概要): Enhancing Transformer for Video Understanding Using Gated Multi-Level Attention and Temporal Adversarial Training

論文の概要: Enhancing Transformer for Video Understanding Using Gated Multi-Level Attention and Temporal Adversarial Training

arxiv url: http://arxiv.org/abs/2103.10043v1
Date: Thu, 18 Mar 2021 06:39:09 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-20 03:31:44.045006
Title: Enhancing Transformer for Video Understanding Using Gated Multi-Level Attention and Temporal Adversarial Training
Title（参考訳）: Gated Multi-Level Attention and Temporal Adversarial Training を用いた映像理解のためのエンハンストランス
Authors: Saurabh Sahu and Palash Goyal
Abstract要約: Gated Adversarial Transformer (GAT)を導入し,映像への注目モデルの適用性を高める。 GATはマルチレベルの注意ゲートを使用して、ローカルおよびグローバルコンテキストに基づいてフレームの関連性をモデル化します。本稿では,映像分類作業における大規模YoutTube-8MデータセットにおけるGATの性能について述べる。
参考スコア（独自算出の注目度）: 9.548744259567837
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The introduction of Transformer model has led to tremendous advancements in sequence modeling, especially in text domain. However, the use of attention-based models for video understanding is still relatively unexplored. In this paper, we introduce Gated Adversarial Transformer (GAT) to enhance the applicability of attention-based models to videos. GAT uses a multi-level attention gate to model the relevance of a frame based on local and global contexts. This enables the model to understand the video at various granularities. Further, GAT uses adversarial training to improve model generalization. We propose temporal attention regularization scheme to improve the robustness of attention modules to adversarial examples. We illustrate the performance of GAT on the large-scale YoutTube-8M data set on the task of video categorization. We further show ablation studies along with quantitative and qualitative analysis to showcase the improvement.
Abstract（参考訳）: Transformerモデルの導入は、特にテキスト領域におけるシーケンスモデリングの大幅な進歩につながった。しかし、ビデオ理解のための注意に基づくモデルの使用は、いまだに未定である。本稿では,GAT(Gated Adversarial Transformer)を導入し,映像への注目モデルの適用性を高める。 gatはマルチレベルアテンションゲートを使用して、ローカルおよびグローバルコンテキストに基づいたフレームの関連性をモデル化する。これにより、モデルは様々な粒度でビデオを理解することができる。さらに、GATはモデル一般化を改善するために敵の訓練を使用する。本稿では,注意モジュールのロバスト性を改善するための時間的注意正規化手法を提案する。本稿では,映像分類作業における大規模YoutTube-8MデータセットにおけるGATの性能について述べる。さらに, 量的, 質的分析とともにアブレーション研究を行い, その改善を示す。

関連論文リスト

SEVERE++: Evaluating Benchmark Sensitivity in Generalization of Video Representation Learning [78.44705665291741]
本稿では,現代ビデオの自己教師型モデルの包括的評価について述べる。ドメインシフト、サンプル効率、アクションの粒度、タスクの多様性の4つの重要な下流因子の一般化に焦点を当てる。我々の分析は、アーキテクチャの進歩にもかかわらず、トランスフォーマーベースのモデルは下流の条件に敏感であることを示している。
論文参考訳（メタデータ） (2025-04-08T06:00:28Z)
STEAM: Squeeze and Transform Enhanced Attention Module [1.3370933421481221]
本稿では,マルチヘッドグラフ変換器の概念を利用して,チャネルと空間の注意の両方をモデル化するグラフベースの手法を提案する。 STEAMは標準のResNet-50モデルよりも2%精度が向上し、GFLOPはわずかに増加した。 STEAMは、GFLOPの3倍の削減を達成しつつ、リードモジュールECAとGCTの精度で性能を向上する。
論文参考訳（メタデータ） (2024-12-12T07:38:10Z)
Prompting Video-Language Foundation Models with Domain-specific Fine-grained Heuristics for Video Question Answering [71.62961521518731]
HeurVidQAは、ドメイン固有のエンティティアクションを利用して、事前訓練されたビデオ言語基盤モデルを洗練するフレームワークである。我々のアプローチでは、これらのモデルを暗黙の知識エンジンとして扱い、ドメイン固有のエンティティアクションプロンサを使用して、推論を強化する正確な手がかりにモデルを焦点を向けます。
論文参考訳（メタデータ） (2024-10-12T06:22:23Z)
iVideoGPT: Interactive VideoGPTs are Scalable World Models [70.02290687442624]
世界モデルは、現実の意思決定のために想像された環境の中で、モデルベースのエージェントを対話的に探索し、推論し、計画することを可能にする。マルチモーダルな信号 – 視覚的観察,アクション,報酬 – を統合した,スケーラブルな自己回帰型トランスフォーマーフレームワークであるInteractive VideoGPTを導入する。 iVideoGPTは、高次元の視覚的観察を効率的に識別する新しい圧縮トークン化技術を備えている。
論文参考訳（メタデータ） (2024-05-24T05:29:12Z)
Direct Preference Optimization of Video Large Multimodal Models from Language Model Reward [118.65089648651308]
本稿では,映像コンテンツのプロキシとして詳細な動画キャプションを利用する新しいフレームワークを提案する。本稿では,DPOによる報酬の調整により,ビデオ質問応答(QA)タスクにおけるビデオLMMの性能が著しく向上することを示す。
論文参考訳（メタデータ） (2024-04-01T17:28:16Z)
p-Laplacian Adaptation for Generative Pre-trained Vision-Language Models [10.713680139939354]
大きなコーパスで事前訓練された視覚言語モデル(VLM)は、下流のタスクで顕著な成功を収めている。 PETLはフル微調整の代替として注目されている。グラフニューラルネットワーク(GNN)において,$p$-Laplacianメッセージパッシングを利用する新しいアダプタアーキテクチャである$p$-adapterを提案する。
論文参考訳（メタデータ） (2023-12-17T05:30:35Z)
Helping Hands: An Object-Aware Ego-Centric Video Recognition Model [60.350851196619296]
オブジェクト認識デコーダを導入し、エゴ中心の動画におけるエゴ中心の表現の性能を向上させる。このモデルは,エゴ認識ビデオモデルの代替として機能し,視覚テキストのグラウンド化による性能向上を図っている。
論文参考訳（メタデータ） (2023-08-15T17:58:11Z)
Pre-training Contextualized World Models with In-the-wild Videos for Reinforcement Learning [54.67880602409801]
本稿では,視覚制御タスクの学習を効率的に行うために,Wild 動画を多用した事前学習型世界モデルの課題について検討する。本稿では、コンテキストと動的モデリングを明確に分離したContextualized World Models(ContextWM)を紹介する。実験により,ContextWMを内蔵したWildビデオ事前学習は,モデルベース強化学習のサンプル効率を大幅に向上できることが示された。
論文参考訳（メタデータ） (2023-05-29T14:29:12Z)
Vision Transformer with Deformable Attention [29.935891419574602]
大規模な、時としてグローバルな受信フィールドは、CNNモデルよりも高い表現力を持つTransformerモデルを提供する。本稿では,キーと値ペアの位置をデータ依存的に選択する,変形可能な新しい自己保持モジュールを提案する。画像分類と重み付き予測の両方に変形性を考慮した一般的なバックボーンモデルであるDeformable Attention Transformerを提案する。
論文参考訳（メタデータ） (2022-01-03T08:29:01Z)
Leveraging Local Temporal Information for Multimodal Scene Classification [9.548744259567837]
映像シーン分類モデルは、映像の空間的(ピクセル的に)および時間的(フレーム的に)特性を効果的に捉えなければならない。トークン列が与えられた個々のトークンに対して文脈化された表現を得るように設計された自己注意型トランスフォーマーモデルは、多くのコンピュータビジョンタスクで人気が高まっている。本稿では,ビデオフレーム間の局所的・大域的時間的関係を利用して,各フレームの文脈的表現をより良くする自己注意ブロックを提案する。
論文参考訳（メタデータ） (2021-10-26T19:58:32Z)
Can't Fool Me: Adversarially Robust Transformer for Video Understanding [8.082788827336337]
ビデオ理解タスクでは、逆向きに堅牢なモデルを開発することは、まだ探索されていない。まず、画像ベースで逆向きに頑健なモデルの単純な拡張により、最悪の場合のパフォーマンスがわずかに向上することを示す。大規模ビデオデータセットのYouTube-8Mを用いて、最終モデルは非競合性能に近い結果が得られることを示す。
論文参考訳（メタデータ） (2021-10-26T18:30:21Z)
GTA: Global Temporal Attention for Video Action Understanding [51.476605514802806]
空間的注意を軸にグローバルな時間的注目を行うグローバルテンポラルアテンション(AGT:Global Temporal Attention)を分離的に紹介します。 2Dおよび3Dネットワーク上でのテストは、我々のアプローチが時間的モデリングを一貫して強化し、3つのビデオアクション認識データセットに対して最先端のパフォーマンスを提供することを示す。
論文参考訳（メタデータ） (2020-12-15T18:58:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。