論文の概要: OWL (Observe, Watch, Listen): Localizing Actions in Egocentric Video via
Audiovisual Temporal Context
- arxiv url: http://arxiv.org/abs/2202.04947v2
- Date: Mon, 14 Feb 2022 15:30:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-15 13:36:31.952139
- Title: OWL (Observe, Watch, Listen): Localizing Actions in Egocentric Video via
Audiovisual Temporal Context
- Title(参考訳): OWL (Observe, Watch, Listen): 聴覚的テンポラルコンテキストによるエゴセントリックビデオにおけるアクションの局在化
- Authors: Merey Ramazanova, Victor Escorcia, Fabian Caba Heilbron, Chen Zhao,
Bernard Ghanem
- Abstract要約: 我々は,エゴセントリックビデオにおける行動検出における音声の有効性を深く検討する。
本稿では,時間的音声視覚コンテキストを組み込むトランスフォーマーモデルを提案する。
本手法はEPIC-KITCHENS-100の最先端性能を実現する。
- 参考スコア(独自算出の注目度): 58.932717614439916
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Temporal action localization (TAL) is an important task extensively explored
and improved for third-person videos in recent years. Recent efforts have been
made to perform fine-grained temporal localization on first-person videos.
However, current TAL methods only use visual signals, neglecting the audio
modality that exists in most videos and that shows meaningful action
information in egocentric videos. In this work, we take a deep look into the
effectiveness of audio in detecting actions in egocentric videos and introduce
a simple-yet-effective approach via Observing, Watching, and Listening (OWL) to
leverage audio-visual information and context for egocentric TAL. For doing
that, we: 1) compare and study different strategies for where and how to fuse
the two modalities; 2) propose a transformer-based model to incorporate
temporal audio-visual context. Our experiments show that our approach achieves
state-of-the-art performance on EPIC-KITCHENS-100.
- Abstract(参考訳): 近年の3人称ビデオにおいて,時間的行動ローカライゼーション(TAL)は重要な課題である。
近年,個人ビデオの微粒な時間的ローカライゼーションが試みられている。
しかし、現在のtal法は視覚信号のみを使用し、ほとんどのビデオに存在するオーディオモダリティを無視し、エゴセントリックなビデオで意味のあるアクション情報を表示する。
本研究では,エゴセントリックビデオにおける行動検出における音声の有効性を深く検討し,エゴセントリックTALの視覚情報とコンテキストを活用するために,オブザービング,ウォッチング,リスニング(OWL)を通じて,単純なyet- Effectiveアプローチを導入する。
そのために、私たちは:
1) 2つのモダリティをどう融合するかの異なる戦略を比較し,研究する。
2) 時間的音声視覚コンテキストを組み込むトランスフォーマーモデルを提案する。
実験の結果,EPIC-KITCHENS-100の最先端性能が得られた。
関連論文リスト
- Learning Spatial Features from Audio-Visual Correspondence in Egocentric
Videos [78.44407924853545]
本稿では,エゴセントリックビデオにおける空間的音声・視覚対応に基づく表現の自己教師付き学習法を提案する。
本手法では,マスク付き(マルチチャネル)音声を音声と視覚の相乗効果により合成するために,マスク付き自動符号化フレームワークを用いる。
論文 参考訳(メタデータ) (2023-07-10T17:58:17Z) - Egocentric Audio-Visual Object Localization [51.434212424829525]
本研究では,エゴモーションを明示的に処理する時空間アグリゲーションモジュールを提案する。
エゴモーションの効果は、時間的幾何変換を推定し、それを利用して視覚的表現を更新することによって緩和される。
視覚的に指示された音声表現をアンタングルすることで、モーダルな局所化の堅牢性を向上させる。
論文 参考訳(メタデータ) (2023-03-23T17:43:11Z) - MERLOT Reserve: Neural Script Knowledge through Vision and Language and
Sound [90.1857707251566]
MERLOT Reserveは、時間とともに動画を共同で表現するモデルである。
我々は、テキストとオーディオのスニペットをMASKトークンに置き換え、正しいマスクアウトスニペットを選択して学習する。
私たちの目標は代替手段よりも早く学習し、大規模に機能します。
論文 参考訳(メタデータ) (2022-01-07T19:00:21Z) - AudioVisual Video Summarization [103.47766795086206]
ビデオ要約では、既存のアプローチは音声情報を無視しながら視覚情報を利用するだけだ。
本稿では,映像要約作業における音声情報と視覚情報を協調的に活用し,これを実現するためにAVRN(AudioVisual Recurrent Network)を開発することを提案する。
論文 参考訳(メタデータ) (2021-05-17T08:36:10Z) - Look, Listen, and Attend: Co-Attention Network for Self-Supervised
Audio-Visual Representation Learning [17.6311804187027]
音声と視覚イベントの相関関係は、ニューラルネットワークをトレーニングするための自由教師付き情報として利用することができる。
本稿では,非競合ビデオから汎用的なクロスモーダル表現を学習するためのコアテンション機構を備えた,新しい自己教師型フレームワークを提案する。
実験の結果,従来の手法に比べてパラメータが少なめでありながら,プレテキストタスク上での最先端性能が得られた。
論文 参考訳(メタデータ) (2020-08-13T10:08:12Z) - Learning Speech Representations from Raw Audio by Joint Audiovisual
Self-Supervision [63.564385139097624]
生音声波形から自己教師付き音声表現を学習する手法を提案する。
音声のみの自己スーパービジョン(情報的音響属性の予測)と視覚的自己スーパービジョン(音声から発話顔を生成する)を組み合わせることで生音声エンコーダを訓練する。
本研究は,音声表現学習におけるマルチモーダル・セルフ・スーパービジョンの可能性を示すものである。
論文 参考訳(メタデータ) (2020-07-08T14:07:06Z) - Telling Left from Right: Learning Spatial Correspondence of Sight and
Sound [16.99266133458188]
本稿では,音声ストリーム内の空間情報を視覚ストリーム内の音源の位置に合わせるという原理を活用するための,新たな自己教師型タスクを提案する。
我々は、左右のオーディオチャンネルが反転したかどうかを判断するためにモデルを訓練し、視覚とオーディオストリーム間の空間的ローカライゼーションについて推論を強制する。
空間対応の理解により、3つの視覚的タスクにおいてモデルの性能が向上し、教師付きベースラインや自己教師付きベースラインよりも定量的に向上することが実証された。
論文 参考訳(メタデータ) (2020-06-11T04:00:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。