論文の概要: Centre Stage: Centricity-based Audio-Visual Temporal Action Detection
- arxiv url: http://arxiv.org/abs/2311.16446v1
- Date: Tue, 28 Nov 2023 03:02:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-29 20:40:49.726329
- Title: Centre Stage: Centricity-based Audio-Visual Temporal Action Detection
- Title(参考訳): センターステージ:Centricity-based Audio-Visual Temporal Action Detection
- Authors: Hanyuan Wang, Majid Mirmehdi, Dima Damen, Toby Perrett
- Abstract要約: 我々は,2つのモードを融合させるために,マルチスケールのクロスアテンションを用いて,オーディオモダリティを組み込む戦略を探求する。
本稿では,アクションセンタへのタイムステップの近さを推定する新しいネットワークヘッドを提案し,その中心性スコア(centity score)と呼ぶ。
- 参考スコア(独自算出の注目度): 26.42447737005981
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Previous one-stage action detection approaches have modelled temporal
dependencies using only the visual modality. In this paper, we explore
different strategies to incorporate the audio modality, using multi-scale
cross-attention to fuse the two modalities. We also demonstrate the correlation
between the distance from the timestep to the action centre and the accuracy of
the predicted boundaries. Thus, we propose a novel network head to estimate the
closeness of timesteps to the action centre, which we call the centricity
score. This leads to increased confidence for proposals that exhibit more
precise boundaries. Our method can be integrated with other one-stage
anchor-free architectures and we demonstrate this on three recent baselines on
the EPIC-Kitchens-100 action detection benchmark where we achieve
state-of-the-art performance. Detailed ablation studies showcase the benefits
of fusing audio and our proposed centricity scores. Code and models for our
proposed method are publicly available at
https://github.com/hanielwang/Audio-Visual-TAD.git
- Abstract(参考訳): 従来のワンステージ動作検出アプローチでは、視覚的モードのみを用いて時間的依存をモデル化していた。
本稿では,2つのモダリティを融合させるために,マルチスケールのクロスアテンションを用いて,オーディオモダリティを取り入れるための様々な戦略を検討する。
また,時間ステップから行動中心までの距離と予測された境界の精度との相関性を示す。
そこで本研究では,アクションセンタへのタイムステップの近さを推定する新たなネットワークヘッドを提案し,その中心性スコア(centity score)と呼ぶ。
これにより、より正確な境界を示す提案に対する信頼が高まる。
本稿では,EPIC-Kitchens-100 アクション検出ベンチマークの最近の3つのベースラインをベースとした,最先端の性能を実現する手法を提案する。
詳細なアブレーション研究は,音声を融合することの利点と,提案する中心性スコアを示している。
提案手法のコードとモデルはhttps://github.com/hanielwang/Audio-Visual-TAD.gitで公開されている。
関連論文リスト
- Detecting Audio-Visual Deepfakes with Fine-Grained Inconsistencies [11.671275975119089]
空間領域と時間領域の両方において微妙なアーティファクトを検出するためのきめ細かいメカニズムを提案する。
まず,音声との不整合が生じやすい小さな空間領域を撮影できる局所視覚モデルを提案する。
第2に、トレーニングセットに微妙な時間的不整合を取り入れたサンプルを含む、時間的に局所的な擬似フェイク増強を導入する。
論文 参考訳(メタデータ) (2024-08-13T09:19:59Z) - BAM-DETR: Boundary-Aligned Moment Detection Transformer for Temporal Sentence Grounding in Videos [19.280799998526636]
時間文の接頭辞は、言語記述に関連するモーメントをローカライズすることを目的としている。
境界指向モーメントの新たな定式化を提案する。
提案手法の有効性を3つのベンチマークで検証した。
論文 参考訳(メタデータ) (2023-11-30T07:16:11Z) - Leveraging Foundation models for Unsupervised Audio-Visual Segmentation [49.94366155560371]
AVS (Audio-Visual) は、可聴物体をピクセルレベルの視覚シーンで正確に概説することを目的としている。
既存のAVS手法では、教師付き学習方式でオーディオマスク対の細かいアノテーションを必要とする。
タスク固有のデータアノテーションやモデルトレーニングを必要とせず、教師なしの音声-視覚的セグメンテーションを導入する。
論文 参考訳(メタデータ) (2023-09-13T05:05:47Z) - Implicit Temporal Modeling with Learnable Alignment for Video
Recognition [95.82093301212964]
本稿では,極めて高い性能を達成しつつ,時間的モデリングの労力を最小限に抑える新しいImplicit Learnable Alignment(ILA)法を提案する。
ILAはKineetics-400の88.7%で、Swin-LやViViT-Hに比べてFLOPははるかに少ない。
論文 参考訳(メタデータ) (2023-04-20T17:11:01Z) - DiffTAD: Temporal Action Detection with Proposal Denoising Diffusion [137.8749239614528]
そこで我々は,時間的行動検出(TAD)の新しい定式化を提案し,拡散を抑えるDiffTADを提案する。
入力されたランダムな時間的提案を考慮すれば、トリミングされていない長いビデオが与えられたアクションの提案を正確に得ることができる。
論文 参考訳(メタデータ) (2023-03-27T00:40:52Z) - Hear Me Out: Fusional Approaches for Audio Augmented Temporal Action
Localization [7.577219401804674]
本稿では TAL に対する単純かつ効果的な核融合法を提案する。
実験により,本手法は,アートビデオのみの TAL アプローチにおける性能を継続的に向上することを示す。
論文 参考訳(メタデータ) (2021-06-27T00:49:02Z) - Learning to Estimate Hidden Motions with Global Motion Aggregation [71.12650817490318]
閉塞は、局所的な証拠に依存する光学フローアルゴリズムに重大な課題をもたらす。
最初の画像でピクセル間の長距離依存性を見つけるために,グローバルモーションアグリゲーションモジュールを導入する。
遮蔽領域における光流量推定が非遮蔽領域における性能を損なうことなく大幅に改善できることを実証した。
論文 参考訳(メタデータ) (2021-04-06T10:32:03Z) - Learning Salient Boundary Feature for Anchor-free Temporal Action
Localization [81.55295042558409]
時間的行動のローカライゼーションはビデオ理解において重要な課題である。
純粋にアンカーフリーな時間的定位法を初めて提案する。
このモデルには,(i)エンドツーエンドのトレーニング可能な基本予測器,(ii)サリエンシベースのリファインメントモジュール,(iii)いくつかの一貫性制約が含まれている。
論文 参考訳(メタデータ) (2021-03-24T12:28:32Z) - Anchor-free Small-scale Multispectral Pedestrian Detection [88.7497134369344]
適応型単一段アンカーフリーベースアーキテクチャにおける2つのモードの効果的かつ効率的な多重スペクトル融合法を提案する。
我々は,直接的境界ボックス予測ではなく,対象の中心と規模に基づく歩行者表現の学習を目指す。
その結果,小型歩行者の検出における本手法の有効性が示唆された。
論文 参考訳(メタデータ) (2020-08-19T13:13:01Z) - Not only Look, but also Listen: Learning Multimodal Violence Detection
under Weak Supervision [10.859792341257931]
われわれはまず、XD-Violenceという大規模なマルチシーンデータセットを217時間でリリースした。
ビデオスニペット間の異なる関係を捉え,特徴を統合するために,3つの並列分岐を含むニューラルネットワークを提案する。
提案手法は,我々のリリースしたデータセットや他の既存のベンチマークにおいて,最先端のメソッドよりも優れています。
論文 参考訳(メタデータ) (2020-07-09T10:29:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。