Fugu-MT 論文翻訳(概要): OWL (Observe, Watch, Listen): Localizing Actions in Egocentric Video via Audiovisual Temporal Context

論文の概要: OWL (Observe, Watch, Listen): Localizing Actions in Egocentric Video via Audiovisual Temporal Context

arxiv url: http://arxiv.org/abs/2202.04947v2
Date: Mon, 14 Feb 2022 15:30:49 GMT
ステータス: 翻訳完了
システム内更新日: 2022-02-15 13:36:31.952139
Title: OWL (Observe, Watch, Listen): Localizing Actions in Egocentric Video via Audiovisual Temporal Context
Title（参考訳）: OWL (Observe, Watch, Listen): 聴覚的テンポラルコンテキストによるエゴセントリックビデオにおけるアクションの局在化
Authors: Merey Ramazanova, Victor Escorcia, Fabian Caba Heilbron, Chen Zhao, Bernard Ghanem
Abstract要約: 我々は,エゴセントリックビデオにおける行動検出における音声の有効性を深く検討する。本稿では,時間的音声視覚コンテキストを組み込むトランスフォーマーモデルを提案する。本手法はEPIC-KITCHENS-100の最先端性能を実現する。
参考スコア（独自算出の注目度）: 58.932717614439916
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Temporal action localization (TAL) is an important task extensively explored and improved for third-person videos in recent years. Recent efforts have been made to perform fine-grained temporal localization on first-person videos. However, current TAL methods only use visual signals, neglecting the audio modality that exists in most videos and that shows meaningful action information in egocentric videos. In this work, we take a deep look into the effectiveness of audio in detecting actions in egocentric videos and introduce a simple-yet-effective approach via Observing, Watching, and Listening (OWL) to leverage audio-visual information and context for egocentric TAL. For doing that, we: 1) compare and study different strategies for where and how to fuse the two modalities; 2) propose a transformer-based model to incorporate temporal audio-visual context. Our experiments show that our approach achieves state-of-the-art performance on EPIC-KITCHENS-100.
Abstract（参考訳）: 近年の3人称ビデオにおいて,時間的行動ローカライゼーション(TAL)は重要な課題である。近年,個人ビデオの微粒な時間的ローカライゼーションが試みられている。しかし、現在のtal法は視覚信号のみを使用し、ほとんどのビデオに存在するオーディオモダリティを無視し、エゴセントリックなビデオで意味のあるアクション情報を表示する。本研究では,エゴセントリックビデオにおける行動検出における音声の有効性を深く検討し,エゴセントリックTALの視覚情報とコンテキストを活用するために,オブザービング,ウォッチング,リスニング(OWL)を通じて,単純なyet- Effectiveアプローチを導入する。そのために、私たちは: 1) 2つのモダリティをどう融合するかの異なる戦略を比較し,研究する。 2) 時間的音声視覚コンテキストを組み込むトランスフォーマーモデルを提案する。実験の結果,EPIC-KITCHENS-100の最先端性能が得られた。

関連論文リスト

Semi-Supervised Audio-Visual Video Action Recognition with Audio Source Localization Guided Mixup [2.80888070977859]
映像と音声を併用した映像行動認識のための音声・視覚SSLを提案する。 UCF-51, Kinetics-400, VGGSoundデータセットの実験では,提案手法の優れた性能を示す。
論文参考訳（メタデータ） (2025-03-04T05:13:56Z)
Action2Sound: Ambient-Aware Generation of Action Sounds from Egocentric Videos [87.32349247938136]
既存のアプローチでは、トレーニング中にビデオとオーディオの完全な対応を暗黙的に仮定する。環境に配慮した新しいオーディオ生成モデルAV-LDMを提案する。我々のアプローチは、観察された視覚コンテンツに忠実にビデオ・オーディオ生成を集中させる最初の方法である。
論文参考訳（メタデータ） (2024-06-13T16:10:19Z)
SoundingActions: Learning How Actions Sound from Narrated Egocentric Videos [77.55518265996312]
そこで本研究では,自己教師型埋め込み技術を用いて,自己中心型ビデオから行動音を学習する手法を提案する。我々のマルチモーダルコントラッシブ・コンセンサス・コーディング(MC3)埋め込みは、すべてのモダリティ対が一致するとき、オーディオ、言語、視覚の関連を強化します。
論文参考訳（メタデータ） (2024-04-08T05:19:28Z)
Learning Spatial Features from Audio-Visual Correspondence in Egocentric Videos [69.79632907349489]
本稿では,エゴセントリックビデオにおける空間的音声・視覚対応に基づく表現の自己教師付き学習法を提案する。本手法では,マスク付き(マルチチャネル)音声を音声と視覚の相乗効果により合成するために,マスク付き自動符号化フレームワークを用いる。
論文参考訳（メタデータ） (2023-07-10T17:58:17Z)
Egocentric Audio-Visual Object Localization [51.434212424829525]
本研究では,エゴモーションを明示的に処理する時空間アグリゲーションモジュールを提案する。エゴモーションの効果は、時間的幾何変換を推定し、それを利用して視覚的表現を更新することによって緩和される。視覚的に指示された音声表現をアンタングルすることで、モーダルな局所化の堅牢性を向上させる。
論文参考訳（メタデータ） (2023-03-23T17:43:11Z)
AudioVisual Video Summarization [103.47766795086206]
ビデオ要約では、既存のアプローチは音声情報を無視しながら視覚情報を利用するだけだ。本稿では,映像要約作業における音声情報と視覚情報を協調的に活用し,これを実現するためにAVRN(AudioVisual Recurrent Network)を開発することを提案する。
論文参考訳（メタデータ） (2021-05-17T08:36:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。