論文の概要: OWL (Observe, Watch, Listen): Localizing Actions in Egocentric Video via
Audiovisual Temporal Context
- arxiv url: http://arxiv.org/abs/2202.04947v2
- Date: Mon, 14 Feb 2022 15:30:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-15 13:36:31.952139
- Title: OWL (Observe, Watch, Listen): Localizing Actions in Egocentric Video via
Audiovisual Temporal Context
- Title(参考訳): OWL (Observe, Watch, Listen): 聴覚的テンポラルコンテキストによるエゴセントリックビデオにおけるアクションの局在化
- Authors: Merey Ramazanova, Victor Escorcia, Fabian Caba Heilbron, Chen Zhao,
Bernard Ghanem
- Abstract要約: 我々は,エゴセントリックビデオにおける行動検出における音声の有効性を深く検討する。
本稿では,時間的音声視覚コンテキストを組み込むトランスフォーマーモデルを提案する。
本手法はEPIC-KITCHENS-100の最先端性能を実現する。
- 参考スコア(独自算出の注目度): 58.932717614439916
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Temporal action localization (TAL) is an important task extensively explored
and improved for third-person videos in recent years. Recent efforts have been
made to perform fine-grained temporal localization on first-person videos.
However, current TAL methods only use visual signals, neglecting the audio
modality that exists in most videos and that shows meaningful action
information in egocentric videos. In this work, we take a deep look into the
effectiveness of audio in detecting actions in egocentric videos and introduce
a simple-yet-effective approach via Observing, Watching, and Listening (OWL) to
leverage audio-visual information and context for egocentric TAL. For doing
that, we: 1) compare and study different strategies for where and how to fuse
the two modalities; 2) propose a transformer-based model to incorporate
temporal audio-visual context. Our experiments show that our approach achieves
state-of-the-art performance on EPIC-KITCHENS-100.
- Abstract(参考訳): 近年の3人称ビデオにおいて,時間的行動ローカライゼーション(TAL)は重要な課題である。
近年,個人ビデオの微粒な時間的ローカライゼーションが試みられている。
しかし、現在のtal法は視覚信号のみを使用し、ほとんどのビデオに存在するオーディオモダリティを無視し、エゴセントリックなビデオで意味のあるアクション情報を表示する。
本研究では,エゴセントリックビデオにおける行動検出における音声の有効性を深く検討し,エゴセントリックTALの視覚情報とコンテキストを活用するために,オブザービング,ウォッチング,リスニング(OWL)を通じて,単純なyet- Effectiveアプローチを導入する。
そのために、私たちは:
1) 2つのモダリティをどう融合するかの異なる戦略を比較し,研究する。
2) 時間的音声視覚コンテキストを組み込むトランスフォーマーモデルを提案する。
実験の結果,EPIC-KITCHENS-100の最先端性能が得られた。
関連論文リスト
- Action2Sound: Ambient-Aware Generation of Action Sounds from Egocentric Videos [87.32349247938136]
既存のアプローチでは、トレーニング中にビデオとオーディオの完全な対応を暗黙的に仮定する。
環境に配慮した新しいオーディオ生成モデルAV-LDMを提案する。
我々のアプローチは、観察された視覚コンテンツに忠実にビデオ・オーディオ生成を集中させる最初の方法である。
論文 参考訳(メタデータ) (2024-06-13T16:10:19Z) - SoundingActions: Learning How Actions Sound from Narrated Egocentric Videos [77.55518265996312]
そこで本研究では,自己教師型埋め込み技術を用いて,自己中心型ビデオから行動音を学習する手法を提案する。
我々のマルチモーダルコントラッシブ・コンセンサス・コーディング(MC3)埋め込みは、すべてのモダリティ対が一致するとき、オーディオ、言語、視覚の関連を強化します。
論文 参考訳(メタデータ) (2024-04-08T05:19:28Z) - Learning Spatial Features from Audio-Visual Correspondence in Egocentric Videos [69.79632907349489]
本稿では,エゴセントリックビデオにおける空間的音声・視覚対応に基づく表現の自己教師付き学習法を提案する。
本手法では,マスク付き(マルチチャネル)音声を音声と視覚の相乗効果により合成するために,マスク付き自動符号化フレームワークを用いる。
論文 参考訳(メタデータ) (2023-07-10T17:58:17Z) - Egocentric Audio-Visual Object Localization [51.434212424829525]
本研究では,エゴモーションを明示的に処理する時空間アグリゲーションモジュールを提案する。
エゴモーションの効果は、時間的幾何変換を推定し、それを利用して視覚的表現を更新することによって緩和される。
視覚的に指示された音声表現をアンタングルすることで、モーダルな局所化の堅牢性を向上させる。
論文 参考訳(メタデータ) (2023-03-23T17:43:11Z) - AudioVisual Video Summarization [103.47766795086206]
ビデオ要約では、既存のアプローチは音声情報を無視しながら視覚情報を利用するだけだ。
本稿では,映像要約作業における音声情報と視覚情報を協調的に活用し,これを実現するためにAVRN(AudioVisual Recurrent Network)を開発することを提案する。
論文 参考訳(メタデータ) (2021-05-17T08:36:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。