Fugu-MT 論文翻訳(概要): Two-Stream Transformer Architecture for Long Video Understanding

論文の概要: Two-Stream Transformer Architecture for Long Video Understanding

arxiv url: http://arxiv.org/abs/2208.01753v1
Date: Tue, 2 Aug 2022 21:03:48 GMT
ステータス: 翻訳完了
システム内更新日: 2022-08-04 13:20:24.358550
Title: Two-Stream Transformer Architecture for Long Video Understanding
Title（参考訳）: 長時間映像理解のための2ストリームトランスフォーマアーキテクチャ
Authors: Edward Fish, Jon Weinbren, Andrew Gilbert
Abstract要約: 本稿では,静的な画像特徴と時間的文脈的特徴の依存関係をモデル化するために,2ストリームトランスフォーマアーキテクチャを用いた効率的な時空間注意ネットワーク(STAN)を提案する。提案手法は,1つのGPU上で最大2分間の動画の分類が可能であり,データ効率が良く,複数の長いビデオ理解タスクにおいてSOTA性能を実現する。
参考スコア（独自算出の注目度）: 5.001789577362836
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Pure vision transformer architectures are highly effective for short video classification and action recognition tasks. However, due to the quadratic complexity of self attention and lack of inductive bias, transformers are resource intensive and suffer from data inefficiencies. Long form video understanding tasks amplify data and memory efficiency problems in transformers making current approaches unfeasible to implement on data or memory restricted domains. This paper introduces an efficient Spatio-Temporal Attention Network (STAN) which uses a two-stream transformer architecture to model dependencies between static image features and temporal contextual features. Our proposed approach can classify videos up to two minutes in length on a single GPU, is data efficient, and achieves SOTA performance on several long video understanding tasks.
Abstract（参考訳）: 純粋視覚トランスフォーマーアーキテクチャは、短いビデオ分類やアクション認識タスクに非常に有効である。しかし、自己注意の二次的な複雑さと誘導バイアスの欠如により、トランスフォーマーはリソース集約であり、データ非効率に悩まされる。長い形式のビデオ理解タスクは、トランスフォーマーにおけるデータとメモリ効率の問題を増幅し、現在のアプローチではデータやメモリ制限領域の実装が不可能になる。本稿では,静的画像特徴と時間的文脈特徴との依存関係をモデル化する2ストリームトランスフォーマアーキテクチャを用いた,効率的な時空間注意ネットワーク(stan)を提案する。提案手法では,1つのgpu上で最大2分間の動画を分類でき,データ効率が良く,複数の長い映像理解タスクでsota性能を実現する。

関連論文リスト

Sliding Window Attention Training for Efficient Large Language Models [55.56483740523027]
SWATを導入し,スライディングウインドウ・アテンション・トレーニング(Sliding Window Attention Training)により,より効率的な長文処理を実現する。本稿では,まず,変圧器の非効率性について,ソフトマックス動作のばらつきから生じる注意シンク現象を考察する。実験により、SWATは8つのベンチマーク上での最先端の線形リカレントアーキテクチャと比較してSOTA性能を達成することが示された。
論文参考訳（メタデータ） (2025-02-26T05:31:44Z)
FullTransNet: Full Transformer with Local-Global Attention for Video Summarization [16.134118247239527]
本稿では,ビデオ要約のためのFullTransNetというトランスフォーマー型アーキテクチャを提案する。ビデオ要約の代替アーキテクチャとしてエンコーダ・デコーダ構造を持つフルトランスフォーマーを使用する。本モデルでは, Fスコアが54.4%, 63.9%であり, 比較的低い計算量とメモリ要件を維持している。
論文参考訳（メタデータ） (2025-01-01T16:07:27Z)
Towards Stabilized and Efficient Diffusion Transformers through Long-Skip-Connections with Spectral Constraints [51.83081671798784]
Diffusion Transformers (DiT) は、画像およびビデオ生成のための強力なアーキテクチャとして登場し、優れた品質とスケーラビリティを提供している。 DiTの実用アプリケーションは本質的に動的特徴不安定性に悩まされており、キャッシュされた推論中にエラーを増幅する。我々は,Long-Skip-Connections (LSCs) で拡張された画像およびビデオ生成型DiTであるSkip-DiTを提案する。
論文参考訳（メタデータ） (2024-11-26T17:28:10Z)
CARE Transformer: Mobile-Friendly Linear Visual Transformer via Decoupled Dual Interaction [77.8576094863446]
本稿では,新しいdetextbfCoupled dutextbfAl-interactive lineatextbfR atttextbfEntion (CARE) 機構を提案する。まず,非対称な特徴分離戦略を提案し,非対称的に学習プロセスを局所帰納バイアスと長距離依存に分解する。分離学習方式を採用し,特徴間の相補性を完全に活用することにより,高い効率性と精度を両立させることができる。
論文参考訳（メタデータ） (2024-11-25T07:56:13Z)
SparseTem: Boosting the Efficiency of CNN-Based Video Encoders by Exploiting Temporal Continuity [15.872209884833977]
本稿では,メモリオーバーヘッドを削減するためのメモリ効率スケジューリング手法と,精度の劣化を最小限に抑えるためのオンライン調整機構を提案する。 SparseTemは効率の良いDetでは1.79x、CRNNでは4.72xの高速化を実現している。
論文参考訳（メタデータ） (2024-10-28T07:13:25Z)
Sparse-Tuning: Adapting Vision Transformers with Efficient Fine-tuning and Inference [14.030836300221756]
textbfSparse-Tuningは、画像やビデオの情報冗長性を考慮に入れた新しいPEFTメソッドである。 Sparse-Tuningは各層で処理されるトークンの量を最小限に抑え、計算とメモリのオーバーヘッドを2次的に削減する。我々のSparse-TuningはGFLOPsを62%-70%に削減し,最先端性能を実現した。
論文参考訳（メタデータ） (2024-05-23T15:34:53Z)
Towards End-to-End Generative Modeling of Long Videos with Memory-Efficient Bidirectional Transformers [13.355338760884583]
本稿では,ビデオの長期依存性をエンドツーエンドに学習するためのメモリ指向の双方向変換器(MeBT)を提案する。本手法は,部分的に観察されたパッチからビデオの全時間容積を並列に復号する。
論文参考訳（メタデータ） (2023-03-20T16:35:38Z)
Dual-path Adaptation from Image to Video Transformers [62.056751480114784]
ViTやSwinのような視覚基盤モデルの超越する表現力を、トレーニング可能なパラメータ数だけでビデオ理解するために効率的に転送する。本稿では,空間的および時間的適応経路に分離した新しいDualPath適応法を提案する。
論文参考訳（メタデータ） (2023-03-17T09:37:07Z)
EgoViT: Pyramid Video Transformer for Egocentric Action Recognition [18.05706639179499]
手と物体の相互作用を捉えることは、自我中心の動画から人間の行動を自律的に検出する上で重要である。エゴセントリックなアクション認識のための動的クラストークン生成器を備えたピラミッドビデオ変換器を提案する。
論文参考訳（メタデータ） (2023-03-15T20:33:50Z)
Reversible Vision Transformers [74.3500977090597]
Reversible Vision Transformersは、視覚認識のためのメモリ効率の良いアーキテクチャである。我々は2つの人気モデル、すなわちビジョン変換器とマルチスケールビジョン変換器を可逆的変種に適用する。より深いモデルでは、アクティベーションを再計算する際の計算負荷が過大評価されている。
論文参考訳（メタデータ） (2023-02-09T18:59:54Z)
VideoLightFormer: Lightweight Action Recognition using Transformers [8.871042314510788]
本稿では,新しい軽量なアクション認識アーキテクチャであるVideoLightFormerを提案する。分解された方法で、2次元畳み込み時間ネットワークを変換器で慎重に拡張する。我々は,EPIC-KITCHENS-100とSone-SV-V-Something2データセットの高効率設定におけるビデオLightFormerの評価を行った。
論文参考訳（メタデータ） (2021-07-01T13:55:52Z)
Long-Short Temporal Contrastive Learning of Video Transformers [62.71874976426988]
ビデオのみのデータセットにおけるビデオトランスフォーマーの自己教師付き事前トレーニングは、大規模画像データセットでの教師付き事前トレーニングで得られたものよりも、同等以上のアクション認識結果につながる可能性がある。我々の手法は、長短時空間コントラスト学習(Long-Short Temporal Contrastive Learning)と呼ばれ、ビデオトランスフォーマーが、より長い時間的範囲から捉えた時間的文脈を予測することによって、効果的なクリップレベルの表現を学習することを可能にする。
論文参考訳（メタデータ） (2021-06-17T02:30:26Z)
Space-time Mixing Attention for Video Transformer [55.50839896863275]
本稿では,ビデオシーケンス内のフレーム数と線形にスケールする複雑性をビデオトランスフォーマーモデルとして提案する。我々は,最も人気のあるビデオ認識データセットに対して,認識精度が非常に高いことを実証した。
論文参考訳（メタデータ） (2021-06-10T17:59:14Z)
Augmented Transformer with Adaptive Graph for Temporal Action Proposal Generation [79.98992138865042]
TAPGの長期的および局所的時間的コンテキストを利用するための適応グラフネットワーク(ATAG)を備えた拡張トランスを提案する。具体的には、スニペット動作損失と前部ブロックを装着し、拡張トランスと呼ばれるバニラトランスを強化する。位置情報と隣接特徴の差異をマイニングすることで局所時間文脈を構築するための適応型グラフ畳み込みネットワーク(gcn)を提案する。
論文参考訳（メタデータ） (2021-03-30T02:01:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。