論文の概要: Two-Stream temporal transformer for video action classification
- arxiv url: http://arxiv.org/abs/2601.14086v1
- Date: Tue, 20 Jan 2026 15:47:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.392246
- Title: Two-Stream temporal transformer for video action classification
- Title(参考訳): 映像行動分類のための2ストリーム時間変換器
- Authors: Nattapong Kurpukdee, Adrian G. Bors,
- Abstract要約: 動画理解において動作表現は重要な役割を担い、エンコーダアクション認識、ロボット、自律誘導など多くの応用がある。
近年、トランスフォーマーネットワークは、その自己保持機構機能を通じて、多くのアプリケーションでその効率を証明している。
- 参考スコア(独自算出の注目度): 47.53991869205973
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Motion representation plays an important role in video understanding and has many applications including action recognition, robot and autonomous guidance or others. Lately, transformer networks, through their self-attention mechanism capabilities, have proved their efficiency in many applications. In this study, we introduce a new two-stream transformer video classifier, which extracts spatio-temporal information from content and optical flow representing movement information. The proposed model identifies self-attention features across the joint optical flow and temporal frame domain and represents their relationships within the transformer encoder mechanism. The experimental results show that our proposed methodology provides excellent classification results on three well-known video datasets of human activities.
- Abstract(参考訳): 動きの表現はビデオ理解において重要な役割を担い、アクション認識、ロボット、自律誘導など多くの応用がある。
近年、トランスフォーマーネットワークは、その自己保持機構機能を通じて、多くのアプリケーションでその効率を証明している。
本研究では,コンテンツから時空間情報を抽出する2ストリームトランスフォーマービデオ分類器と,移動情報を表す光フローを提案する。
提案モデルでは,共振器の光流と時間的フレーム領域にまたがる自己アテンションの特徴を同定し,その関係をトランスフォーマエンコーダ機構内で表現する。
実験の結果,提案手法は,人間の活動の3つのよく知られたビデオデータセットに対して,優れた分類結果を提供することがわかった。
関連論文リスト
- Multi-view Action Recognition via Directed Gromov-Wasserstein Discrepancy [12.257725479880458]
行動認識はコンピュータビジョンにおける人気のある研究トピックの1つとなっている。
本稿では,アクションビデオの2つの異なる視点から2つの注意の類似性を計算する多視点アテンション整合性手法を提案する。
我々のアプローチでは、単一ビューデータセットのトレーニングにおいて、新しいビューからの機能を暗黙的にレンダリングするために、Neural Radiance Fieldというアイデアを適用しています。
論文 参考訳(メタデータ) (2024-05-02T14:43:21Z) - A Multi-Modal Transformer Network for Action Detection [15.104201344012347]
本稿では,未編集映像の動作を検出するためのマルチモーダルトランスフォーマネットワークを提案する。
カメラの動きによる動き歪みを補正するアルゴリズムを提案する。
提案アルゴリズムは2つの公開ベンチマークにおいて最先端の手法より優れている。
論文 参考訳(メタデータ) (2023-05-31T07:50:38Z) - VDT: General-purpose Video Diffusion Transformers via Mask Modeling [62.71878864360634]
Video Diffusion Transformer (VDT)は、拡散に基づくビデオ生成におけるトランスフォーマーの利用の先駆者である。
本稿では,多様な映像生成シナリオに対応するために,モデルとシームレスに統合された空間時空間マスクモデリング機構を提案する。
論文 参考訳(メタデータ) (2023-05-22T17:59:45Z) - Vision Transformers for Action Recognition: A Survey [41.69370782177517]
コンピュータビジョン問題を解決する強力なツールとして、ビジョントランスフォーマーが登場している。
最近の技術は、多数のビデオ関連タスクを解決するために、画像領域を超えたトランスフォーマーの有効性を証明している。
人間の行動認識は、広く応用されているため、研究コミュニティから特別に注目を集めている。
論文 参考訳(メタデータ) (2022-09-13T02:57:05Z) - Time Is MattEr: Temporal Self-supervision for Video Transformers [72.42240984211283]
我々は、時間的ダイナミクスをよりよく学習するために、ビデオモデルのための単純で効果的な自己教師型タスクを設計する。
ビデオフレームの時間順序を余分な自己監督として学習し、ランダムにシャッフルされたフレームを低信頼出力に強制する。
様々なビデオ行動認識タスクにおいて,本手法の有効性と最先端のビデオ変換器との互換性を実証する。
論文 参考訳(メタデータ) (2022-07-19T04:44:08Z) - Hierarchical Multimodal Transformer to Summarize Videos [103.47766795086206]
変換器の大成功とビデオの自然な構造(フレームショットビデオ)に触発された階層変換器は,映像要約のために開発された。
2種類の情報を統合するために、2ストリーム方式で符号化し、階層変換器に基づいて多モード融合機構を開発する。
実際、広範な実験により、HMTは従来のRNNベースおよび注意に基づくビデオ要約手法のほとんどを超越していることが示された。
論文 参考訳(メタデータ) (2021-09-22T07:38:59Z) - CCVS: Context-aware Controllable Video Synthesis [95.22008742695772]
プレゼンテーションでは、古いビデオクリップから新しいビデオクリップを合成するための自己教師付き学習アプローチを紹介している。
時間的連続性のための文脈情報と微妙な制御のための補助情報に基づいて合成過程を規定する。
論文 参考訳(メタデータ) (2021-07-16T17:57:44Z) - Actor-Transformers for Group Activity Recognition [43.60866347282833]
本稿では,ビデオから個人行動やグループ活動を認識することを目的とする。
本稿では,グループ活動認識に関連する情報を学習し,選択的に抽出できるアクター・トランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2020-03-28T07:21:58Z) - Motion-Attentive Transition for Zero-Shot Video Object Segmentation [99.44383412488703]
ゼロショットオブジェクトセグメンテーションのためのモーション・アテンタティブ・トランジション・ネットワーク(MATNet)を提案する。
モーション・アテンティブ・トランジション (MAT) と呼ばれる非対称のアテンションブロックは、2ストリームエンコーダ内に設計されている。
このように、エンコーダは深く相互に作用し、物体の動きと外観の間の密な階層的な相互作用を可能にする。
論文 参考訳(メタデータ) (2020-03-09T16:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。