論文の概要: CA^2ST: Cross-Attention in Audio, Space, and Time for Holistic Video Recognition
- arxiv url: http://arxiv.org/abs/2503.23447v1
- Date: Sun, 30 Mar 2025 13:57:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 19:35:57.125104
- Title: CA^2ST: Cross-Attention in Audio, Space, and Time for Holistic Video Recognition
- Title(参考訳): CA^2ST:ホロスティックビデオ認識のための音声・空間・時間におけるクロスアテンション
- Authors: Jongseo Lee, Joohyun Chang, Dongho Lee, Jinwoo Choi,
- Abstract要約: 音声・空間・時間におけるクロスアテンション(Cross-Attention in Audio, Space, and Time, CA2ST)は、総合的ビデオ認識のためのトランスフォーマーベースの手法である。
全体的ビデオ理解のために、私たちはCASTを拡張して、音声専門家を統合し、視覚とオーディオにおけるクロスアテンション(CAVA)を形成する。
- 参考スコア(独自算出の注目度): 8.041908425554524
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose Cross-Attention in Audio, Space, and Time (CA^2ST), a transformer-based method for holistic video recognition. Recognizing actions in videos requires both spatial and temporal understanding, yet most existing models lack a balanced spatio-temporal understanding of videos. To address this, we propose a novel two-stream architecture, called Cross-Attention in Space and Time (CAST), using only RGB input. In each layer of CAST, Bottleneck Cross-Attention (B-CA) enables spatial and temporal experts to exchange information and make synergistic predictions. For holistic video understanding, we extend CAST by integrating an audio expert, forming Cross-Attention in Visual and Audio (CAVA). We validate the CAST on benchmarks with different characteristics, EPIC-KITCHENS-100, Something-Something-V2, and Kinetics-400, consistently showing balanced performance. We also validate the CAVA on audio-visual action recognition benchmarks, including UCF-101, VGG-Sound, KineticsSound, and EPIC-SOUNDS. With a favorable performance of CAVA across these datasets, we demonstrate the effective information exchange among multiple experts within the B-CA module. In summary, CA^2ST combines CAST and CAVA by employing spatial, temporal, and audio experts through cross-attention, achieving balanced and holistic video understanding.
- Abstract(参考訳): 本稿では,音声・空間・時間におけるクロスアテンション(CA^2ST)を提案する。
ビデオにおけるアクションを認識するには、空間的および時間的理解が必要であるが、既存のほとんどのモデルはビデオの時空間的理解のバランスが取れていない。
そこで本研究では,RGB入力のみを用いて,CAST(Cross-Attention in Space and Time)と呼ばれる新しい2ストリームアーキテクチャを提案する。
CASTの各層において、Bottleneck Cross-Attention (B-CA) は空間的および時間的専門家が情報を交換し、相乗的予測を行うことを可能にする。
総合的なビデオ理解のために、私たちはCASTを拡張して、音声専門家を統合して、視覚とオーディオにおけるCross-Attention(CAVA)を形成する。
我々は、EPIC-KITCHENS-100、Something-V2、Kinetics-400といった異なる特性のベンチマークでCASTを検証する。
また,UCF-101,VGG-Sound,KineeticsSound,EPIC-SOUNDSなどの音声視覚行動認識ベンチマークにおいてもCAVAの有効性を検証した。
これらのデータセット間でのCAVAの良好な性能により、B-CAモジュール内の複数の専門家間の効果的な情報交換を実演する。
要約すると、CA^2STは、空間的、時間的、音声の専門家を相互注意を通じて使い、バランスの取れた、全体的ビデオ理解を実現することによって、CASTとCAVAを組み合わせる。
関連論文リスト
- DTFSal: Audio-Visual Dynamic Token Fusion for Video Saliency Prediction [5.13730975608994]
映像中の有声領域を識別することで人間の視覚的注意を模倣することを目的としている。
本稿では,精度と計算効率の両立を図った新しいオーディオ・ビジュアル・サリエンシ予測フレームワークであるDFTSalを提案する。
論文 参考訳(メタデータ) (2025-04-14T10:17:25Z) - Exploiting Temporal Audio-Visual Correlation Embedding for Audio-Driven One-Shot Talking Head Animation [62.218932509432314]
従来,隣接する音声クリップの時間的関係は,対応する映像フレームの時間的関係と強く相関している。
音声と視覚の相関関係を学習し,その相関関係を統合し,特徴表現の強化と最終生成の正規化を支援する。
論文 参考訳(メタデータ) (2025-04-08T07:23:28Z) - OMCAT: Omni Context Aware Transformer [27.674943980306423]
OCTAVは、オーディオとビデオ間のイベント遷移をキャプチャするために設計された、新しいデータセットである。
OMCATはRoTEを活用する強力なモデルであり、時間依存タスクにおける時間的グラウンドリングと計算効率を向上させる。
本稿では,AVQA(Audio-Visual Question Answering)タスクとOCTAVベンチマークを用いて,時間的推論とモーダルアライメントの大幅な向上を示す。
論文 参考訳(メタデータ) (2024-10-15T23:16:28Z) - CLIP-Powered TASS: Target-Aware Single-Stream Network for Audio-Visual Question Answering [6.719652962434731]
本稿では,音声-視覚的質問応答(AVQA)のための,CLIPを利用したターゲット対応シングルストリーム(TASS)ネットワークを提案する。
ターゲット対応空間接地モジュール(TSG+)と単一ストリーム継手時間接地モジュール(JTG)の2つのキーコンポーネントで構成されている。
論文 参考訳(メタデータ) (2024-05-13T03:25:15Z) - CAST: Cross-Attention in Space and Time for Video Action Recognition [8.785207228156098]
空間時間におけるクロスアテンション(CAST)と呼ばれる新しい2ストリームアーキテクチャを提案する。
CASTは、バランスの取れた入力のみを使用して、ビデオの時間的バランスの取れた理解を実現する。
提案手法により,空間的・時間的専門家モデルによる情報交換と相乗的予測が可能となる。
論文 参考訳(メタデータ) (2023-11-30T18:58:51Z) - Disentangling Spatial and Temporal Learning for Efficient Image-to-Video
Transfer Learning [59.26623999209235]
ビデオの空間的側面と時間的側面の学習を両立させるDiSTを提案する。
DiSTの非絡み合い学習は、大量の事前学習パラメータのバックプロパゲーションを避けるため、非常に効率的である。
5つのベンチマークの大規模な実験は、DiSTが既存の最先端メソッドよりも優れたパフォーマンスを提供することを示す。
論文 参考訳(メタデータ) (2023-09-14T17:58:33Z) - Deeply-Coupled Convolution-Transformer with Spatial-temporal
Complementary Learning for Video-based Person Re-identification [91.56939957189505]
本稿では,高性能ビデオベース Re-ID のための新しい時空間補完学習フレームワークである Deeply-Coupled Convolution-Transformer (DCCT) を提案する。
私たちのフレームワークは、ほとんどの最先端のメソッドよりも優れたパフォーマンスを実現できます。
論文 参考訳(メタデータ) (2023-04-27T12:16:44Z) - Leaping Into Memories: Space-Time Deep Feature Synthesis [93.10032043225362]
内部モデルから映像を合成するアーキテクチャ非依存の手法であるLEAPSを提案する。
我々は,Kineetics-400に基づく多種多様なアーキテクチャの進化的注目を反転させることにより,LEAPSの適用性を定量的かつ定性的に評価する。
論文 参考訳(メタデータ) (2023-03-17T12:55:22Z) - Learning Commonsense-aware Moment-Text Alignment for Fast Video Temporal
Grounding [78.71529237748018]
自然言語クエリで記述された時間的ビデオセグメントを効果的かつ効率的にグラウンド化することは、視覚・言語分野において必須の能力である。
既存のほとんどのアプローチでは、接地性能を改善するために、厳密に設計されたクロスモーダルな相互作用モジュールを採用しています。
本稿では,コモンセンスの視覚とテキストの表現を補完的なコモンスペースに組み込んだ,コモンセンス対応のクロスモーダルアライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-04T13:07:05Z) - Is Space-Time Attention All You Need for Video Understanding? [50.78676438502343]
空間と時間の自己意識にのみ焦点をあてた畳み込みのないアプローチを提案する。
TimeSformer"は、フレームレベルのパッチのシーケンスから特徴学習を可能にすることで、標準のTransformerアーキテクチャをビデオに適応させる。
TimeSformerは、いくつかの主要なアクション認識ベンチマークで最先端の結果を達成する。
論文 参考訳(メタデータ) (2021-02-09T19:49:33Z) - BiST: Bi-directional Spatio-Temporal Reasoning for Video-Grounded
Dialogues [95.8297116307127]
ビデオにおける高精細クエリのための視覚言語ニューラルフレームワークBi-directional Spatio-Temporal Learning (BiST)を提案する。
具体的には,空間的情報と時間的情報の両方を利用して,2つの特徴空間間の動的情報拡散を学習する。
BiSTは競争性能を達成し、大規模なAVSDベンチマークで適切な応答を生成する。
論文 参考訳(メタデータ) (2020-10-20T07:43:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。