論文の概要: Higher Order Recurrent Space-Time Transformer
- arxiv url: http://arxiv.org/abs/2104.08665v1
- Date: Sat, 17 Apr 2021 23:51:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-20 13:55:33.390346
- Title: Higher Order Recurrent Space-Time Transformer
- Title(参考訳): 高次再電流時空変圧器
- Authors: Tsung-Ming Tai, Giuseppe Fiameni, Cheng-Kuang Lee, Oswald Lanz
- Abstract要約: 映像予測タスクにおけるトランスフォーマー型アーキテクチャの競争力について検討する。
映像に対する自己意識の空間的時間的分解をコア要素とする,新しい高次繰り返し層設計であるHORSTを提案する。
これは、自己意識の反復的な高次設計に起因する因果予測能力の有望な証拠であると考えています。
- 参考スコア(独自算出の注目度): 15.09167229687561
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Endowing visual agents with predictive capability is a key step towards video
intelligence at scale. The predominant modeling paradigm for this is sequence
learning, mostly implemented through LSTMs. Feed-forward Transformer
architectures have replaced recurrent model designs in ML applications of
language processing and also partly in computer vision. In this paper we
investigate on the competitiveness of Transformer-style architectures for video
predictive tasks. To do so we propose HORST, a novel higher order recurrent
layer design whose core element is a spatial-temporal decomposition of
self-attention for video. HORST achieves state of the art competitive
performance on Something-Something-V2 early action recognition and
EPIC-Kitchens-55 action anticipation, without exploiting a task specific
design. We believe this is promising evidence of causal predictive capability
that we attribute to our recurrent higher order design of self-attention.
- Abstract(参考訳): 視覚エージェントに予測能力を持たせることは、大規模なビデオインテリジェンスへの重要なステップである。
主なモデリングパラダイムはシーケンス学習であり、主にLSTMを通して実装されている。
フィードフォワードトランスフォーマーアーキテクチャは、言語処理のMLアプリケーションやコンピュータビジョンにおけるリカレントモデル設計を置き換えるものである。
本稿では,ビデオ予測タスクにおけるトランスフォーマー型アーキテクチャの競争力について検討する。
そこで本稿では,ビデオの自己注意の時空間分解を主成分とする高次再帰層の設計法であるHORSTを提案する。
HORSTは、タスク固有の設計を使わずに、Something-V2早期動作認識とEPIC-Kitchens-55アクション予測における技術競争性能の状態を達成している。
これは、自己着想の高次設計を繰り返すことに起因する因果的予測能力の有望な証拠であると考えています。
関連論文リスト
- Activator: GLU Activation Function as the Core Component of a Vision Transformer [1.3812010983144802]
トランスフォーマーアーキテクチャは現在、ディープラーニングによって対処されるさまざまなタスクにおいて、多くの成功の背後にある主要なドライバである。
本稿では,多層パーセプトロンアーキテクチャに線形ゲートユニット(GLU)アクティベーションを組み込んだ変圧器アーキテクチャに通常採用されるアテンション機構の置換について検討する。
論文 参考訳(メタデータ) (2024-05-24T21:46:52Z) - VS-TransGRU: A Novel Transformer-GRU-based Framework Enhanced by
Visual-Semantic Fusion for Egocentric Action Anticipation [33.41226268323332]
エゴセントリックなアクション予測は、一人称視点で将来のアクションを先進的に予測することを目的とした課題である。
既存のほとんどの手法は、視覚入力とリカレントニューラルネットワークに基づくモデルアーキテクチャと損失関数の改善に重点を置いている。
本稿では,新しいビジュアル・セマンティック融合とトランスフォーマーGRUに基づくアクション予測フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-08T06:49:54Z) - ViTs for SITS: Vision Transformers for Satellite Image Time Series [52.012084080257544]
ビジョン変換器(ViT)に基づく一般衛星画像時系列(SITS)処理のための完全アテンショナルモデルを提案する。
TSViTはSITSレコードを空間と時間で重複しないパッチに分割し、トークン化し、分解されたテンポロ空間エンコーダで処理する。
論文 参考訳(メタデータ) (2023-01-12T11:33:07Z) - Video Super-Resolution Transformer [85.11270760456826]
ビデオ超解像(VSR)は、高解像度映像を対応する低解像度バージョンから復元することを目的としており、時空間シーケンス予測問題である。
近年,シークエンス・ツー・シーケンス・モデリングの並列計算能力により,Transformerが人気を集めている。
本稿では,空間的・時間的畳み込み型自己認識層を理論的に理解し,局所性情報を活用する。
論文 参考訳(メタデータ) (2021-06-12T20:00:32Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z) - Twins: Revisiting Spatial Attention Design in Vision Transformers [81.02454258677714]
本稿では,注意深い空間的注意機構が最先端のスキームに対して好適に機能することを実証する。
Twins-PCPVTとTwins-SVTの2つのビジョントランスアーキテクチャを提案します。
提案するアーキテクチャは,現代のディープラーニングフレームワークに高度に最適化された行列乗算のみを含む,高効率かつ実装が容易である。
論文 参考訳(メタデータ) (2021-04-28T15:42:31Z) - Transformers in Vision: A Survey [101.07348618962111]
トランスフォーマーは、入力シーケンス要素間の長い依存関係をモデリングし、シーケンスの並列処理をサポートします。
変圧器は設計に最小限の誘導バイアスを必要とし、自然にセット関数として適しています。
本調査は,コンピュータビジョン分野におけるトランスフォーマーモデルの概要を概観することを目的としている。
論文 参考訳(メタデータ) (2021-01-04T18:57:24Z) - Enhanced Quadratic Video Interpolation [56.54662568085176]
より複雑なシーンや動きパターンを扱うために,拡張された2次ビデオ(EQVI)モデルを提案する。
さらなる性能向上のために,学習可能な拡張プロセスと見なせる新しいマルチスケール核融合ネットワーク(MS-Fusion)を考案した。
提案されたEQVIモデルは、AIM 2020 Video Temporal Super-Resolution Challengeで優勝した。
論文 参考訳(メタデータ) (2020-09-10T02:31:50Z) - Rolling-Unrolling LSTMs for Action Anticipation from First-Person Video [27.391434284586985]
ローリング・ロールングLSTMは、エゴセントリックなビデオからアクションを予測するための学習アーキテクチャである。
提案手法はEPIC-Kitchens、EGTEA Gaze+、ActivityNetで検証されている。
論文 参考訳(メタデータ) (2020-05-04T14:13:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。