論文の概要: Hear Me Out: Fusional Approaches for Audio Augmented Temporal Action
Localization
- arxiv url: http://arxiv.org/abs/2106.14118v1
- Date: Sun, 27 Jun 2021 00:49:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-29 17:53:53.277053
- Title: Hear Me Out: Fusional Approaches for Audio Augmented Temporal Action
Localization
- Title(参考訳): hear me out: fusional approach for audio augmented temporal action localization (特集 new trends and their applications)
- Authors: Anurag Bagchi, Jazib Mahmood, Dolton Fernandes, Ravi Kiran
Sarvadevabhatla
- Abstract要約: 本稿では TAL に対する単純かつ効果的な核融合法を提案する。
実験により,本手法は,アートビデオのみの TAL アプローチにおける性能を継続的に向上することを示す。
- 参考スコア(独自算出の注目度): 7.577219401804674
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State of the art architectures for untrimmed video Temporal Action
Localization (TAL) have only considered RGB and Flow modalities, leaving the
information-rich audio modality totally unexploited. Audio fusion has been
explored for the related but arguably easier problem of trimmed (clip-level)
action recognition. However, TAL poses a unique set of challenges. In this
paper, we propose simple but effective fusion-based approaches for TAL. To the
best of our knowledge, our work is the first to jointly consider audio and
video modalities for supervised TAL. We experimentally show that our schemes
consistently improve performance for state of the art video-only TAL
approaches. Specifically, they help achieve new state of the art performance on
large-scale benchmark datasets - ActivityNet-1.3 (52.73 mAP@0.5) and THUMOS14
(57.18 mAP@0.5). Our experiments include ablations involving multiple fusion
schemes, modality combinations and TAL architectures. Our code, models and
associated data will be made available.
- Abstract(参考訳): タイムアアクションローカライゼーション(TAL)の最先端技術アーキテクチャは、RGBとフローのモダリティのみを考慮し、情報に富んだオーディオのモダリティは明らかにされていない。
トリミング(クリップレベル)動作認識の関連性はあるが容易な問題に対して,オーディオフュージョンが検討されている。
しかし、TALには固有の課題がある。
本稿では, 単純な, 効果的な融合法を提案する。
私たちの知る限りでは、talを監督するオーディオとビデオのモダリティを共同で検討するのは私たちの仕事が初めてです。
実験により,本手法は,アートビデオのみの TAL アプローチの性能を継続的に向上することを示す。
具体的には、大規模なベンチマークデータセットである ActivityNet-1.3 (52.73 mAP@0.5) と THUMOS14 (57.18 mAP@0.5) のアートパフォーマンスの新たな状態を達成するのに役立つ。
我々の実験には、複数の融合スキーム、モダリティの組み合わせ、talアーキテクチャを含むアブレーションが含まれる。
私たちのコード、モデル、および関連するデータが利用可能になります。
関連論文リスト
- Efficient Audio-Visual Fusion for Video Classification [6.106447284305316]
本稿では,映像分類タスクにおける音声・視覚融合の新しい,効率的なアプローチであるAttend-Fusionを提案する。
提案手法は,コンパクトなモデルアーキテクチャを維持しながら,オーディオと視覚の両方のモダリティを活用するという課題に対処する。
論文 参考訳(メタデータ) (2024-11-08T14:47:28Z) - The Solution for Temporal Action Localisation Task of Perception Test Challenge 2024 [27.30100635072298]
TALは、ビデオシーケンスを通して特定の時間間隔内でのアクションの識別と分類に焦点を当てている。
我々は、SomethingV2データセットから重なり合うラベルを用いてトレーニングデータセットを拡張することにより、データ拡張手法を採用する。
特徴抽出には、ビデオ機能にUTT、ビデオMAEv2、オーディオ機能にBEAT、CAV-MAEといった最先端モデルを用いる。
論文 参考訳(メタデータ) (2024-10-08T01:07:21Z) - Centre Stage: Centricity-based Audio-Visual Temporal Action Detection [26.42447737005981]
我々は,2つのモードを融合させるために,マルチスケールのクロスアテンションを用いて,オーディオモダリティを組み込む戦略を探求する。
本稿では,アクションセンタへのタイムステップの近さを推定する新しいネットワークヘッドを提案し,その中心性スコア(centity score)と呼ぶ。
論文 参考訳(メタデータ) (2023-11-28T03:02:00Z) - ONE-PEACE: Exploring One General Representation Model Toward Unlimited
Modalities [71.15303690248021]
ONE-PEACEは、4Bパラメータを持つ高モデルで、視覚、オーディオ、言語モダリティ間の表現をシームレスに整列し統合することができる。
ONE-PEACEのアーキテクチャは、モダリティアダプタ、共有自己アテンション層、およびモダリティFFNからなる。
スケーラビリティに優しいアーキテクチャと事前トレーニングタスクにより、ONE-PEACEは無制限のモダリティに拡張する可能性がある。
論文 参考訳(メタデータ) (2023-05-18T17:59:06Z) - Learnable Irrelevant Modality Dropout for Multimodal Action Recognition
on Modality-Specific Annotated Videos [10.478479158063982]
本稿では,アクション認識のための視覚特異的アノテーション付きビデオにおける音声モダリティを効果的に活用するための新しいフレームワークを提案する。
我々は、各ビデオラベルをK関連オーディオラベルにマッピングするセマンティックオーディオビデオラベル辞書(SAVLD)を構築した。
また、視覚的モダリティを効率的にモデル化する2ストリームビデオトランスも提案する。
論文 参考訳(メタデータ) (2022-03-06T17:31:06Z) - OWL (Observe, Watch, Listen): Localizing Actions in Egocentric Video via
Audiovisual Temporal Context [58.932717614439916]
我々は,エゴセントリックビデオにおける行動検出における音声の有効性を深く検討する。
本稿では,時間的音声視覚コンテキストを組み込むトランスフォーマーモデルを提案する。
本手法はEPIC-KITCHENS-100の最先端性能を実現する。
論文 参考訳(メタデータ) (2022-02-10T10:50:52Z) - With a Little Help from my Temporal Context: Multimodal Egocentric
Action Recognition [95.99542238790038]
認識性能を向上させるため,周辺行動への参加を学習する手法を提案する。
時間的文脈を組み込むために,ビデオや音声を入力モダリティとして取り込み,変換器をベースとしたマルチモーダルモデルを提案する。
我々は,EPIC-KITCHENSとEGTEAデータセットを用いて,最先端の性能を報告する。
論文 参考訳(メタデータ) (2021-11-01T15:27:35Z) - EAN: Event Adaptive Network for Enhanced Action Recognition [66.81780707955852]
本稿では,映像コンテンツの動的性質を調査するための統合された行動認識フレームワークを提案する。
まず、局所的な手がかりを抽出する際に、動的スケールの時空間カーネルを生成し、多様な事象を適応的に適合させる。
第2に、これらのキューを正確にグローバルなビデオ表現に集約するために、トランスフォーマーによって選択されたいくつかの前景オブジェクト間のインタラクションのみをマイニングすることを提案する。
論文 参考訳(メタデータ) (2021-07-22T15:57:18Z) - Attention Bottlenecks for Multimodal Fusion [90.75885715478054]
機械知覚モデルは典型的にはモダリティに特化しており、単調なベンチマークのために最適化されている。
複数の層でのモジュラリティ融合に「融合」を用いる新しいトランスフォーマーアーキテクチャを導入する。
我々は、徹底的なアブレーション研究を行い、複数のオーディオ視覚分類ベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2021-06-30T22:44:12Z) - Mutual Modality Learning for Video Action Classification [74.83718206963579]
ビデオアクション分類のための単一モデルにマルチモーダルを組み込む方法を示す。
我々はSomething-v2ベンチマークで最先端の結果を得た。
論文 参考訳(メタデータ) (2020-11-04T21:20:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。