論文の概要: Listen to Look into the Future: Audio-Visual Egocentric Gaze
Anticipation
- arxiv url: http://arxiv.org/abs/2305.03907v2
- Date: Thu, 7 Dec 2023 18:04:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 19:01:42.315988
- Title: Listen to Look into the Future: Audio-Visual Egocentric Gaze
Anticipation
- Title(参考訳): 未来を覗き見する: 音声-視覚エゴセントリックな視線予測
- Authors: Bolin Lai, Fiona Ryan, Wenqi Jia, Miao Liu, James M. Rehg
- Abstract要約: エゴセントリックな視線予測は、拡張現実(Augmented Reality)の出現する能力の鍵となるビルディングブロックとして機能する。
我々は,エゴセントリックな視線予測のために,ビデオとオーディオの両方のモダリティを利用する最初のモデルを導入する。
- 参考スコア(独自算出の注目度): 23.155583253452868
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Egocentric gaze anticipation serves as a key building block for the emerging
capability of Augmented Reality. Notably, gaze behavior is driven by both
visual cues and audio signals during daily activities. Motivated by this
observation, we introduce the first model that leverages both the video and
audio modalities for egocentric gaze anticipation. Specifically, we propose a
Contrastive Spatial-Temporal Separable (CSTS) fusion approach that adopts two
modules to separately capture audio-visual correlations in spatial and temporal
dimensions, and applies a contrastive loss on the re-weighted audio-visual
features from fusion modules for representation learning. We conduct extensive
ablation studies and thorough analysis using two egocentric video datasets:
Ego4D and Aria, to validate our model design. We also demonstrate our model
outperforms prior state-of-the-art methods by at least +1.9% and +1.6%.
Moreover, we provide visualizations to show the gaze anticipation results and
provide additional insights into audio-visual representation learning.
- Abstract(参考訳): エゴセントリックな視線予測は、拡張現実の新たな能力の鍵となる構成要素である。
特に、視線行動は、毎日の活動中に視覚手がかりと音声信号の両方によって駆動される。
この観察に動機づけられて,映像と音声の両方のモダリティを利用した最初のモデルを提案する。
具体的には,空間的および時間的次元における音響-視覚的相関を分離して捉えるための2つのモジュールを用いた,csts(con contrastive spatial-temporal separable)融合手法を提案する。
ego4d と aria という2つのエゴセントリックビデオデータセットを用いて広範なアブレーション研究と解析を行い,モデル設計の検証を行った。
また,本モデルが先行手法を少なくとも +1.9% と +1.6% で上回っていることを示す。
さらに,視線予測結果を表示するための可視化や,視聴覚表現学習に関するさらなる洞察を提供する。
関連論文リスト
- The Audio-Visual Conversational Graph: From an Egocentric-Exocentric
Perspective [37.90278874061934]
本稿では,Ego-Exocentric Conversational Graph Prediction問題を紹介する。
Av-CONV(Av-Visual Conversational Attention)によるマルチモーダル・マルチタスク統合フレームワークを提案する。
具体的には、自己認識機構をカスタマイズして、オブジェクト間、オブジェクト間、モダリティ間の表現をモデル化する。
論文 参考訳(メタデータ) (2023-12-20T09:34:22Z) - Cooperative Dual Attention for Audio-Visual Speech Enhancement with
Facial Cues [80.53407593586411]
頑健な音声音声強調(AVSE)のための唇領域を超えて顔の手がかりを活用することに注力する。
本稿では,音声関連情報を無視し,音声関連情報を顔の手がかりで捉え,AVSEの音声信号と動的に統合するDual Attention Cooperative Framework(DualAVSE)を提案する。
論文 参考訳(メタデータ) (2023-11-24T04:30:31Z) - Egocentric Audio-Visual Object Localization [51.434212424829525]
本研究では,エゴモーションを明示的に処理する時空間アグリゲーションモジュールを提案する。
エゴモーションの効果は、時間的幾何変換を推定し、それを利用して視覚的表現を更新することによって緩和される。
視覚的に指示された音声表現をアンタングルすることで、モーダルな局所化の堅牢性を向上させる。
論文 参考訳(メタデータ) (2023-03-23T17:43:11Z) - Audio-Visual Contrastive Learning with Temporal Self-Supervision [84.11385346896412]
人間の監督なしにRGBフレームと付随するオーディオの両方の表現を学習するビデオのための自己教師付き学習手法を提案する。
ビデオに固有の時間的・聴覚的次元を活用するために,本手法は時間的自己監督を音声視覚設定に拡張する。
論文 参考訳(メタデータ) (2023-02-15T15:00:55Z) - LiRA: Learning Visual Speech Representations from Audio through
Self-supervision [53.18768477520411]
セルフスーパービジョン(LiRA)による音声からの視覚的表現の学習を提案する。
具体的には、ResNet+Conformerモデルをトレーニングし、未学習の視覚音声から音響的特徴を予測する。
提案手法は,WildデータセットのLip Readingにおいて,他の自己教師的手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-16T23:20:06Z) - Where and When: Space-Time Attention for Audio-Visual Explanations [42.093794819606444]
音声と視覚データの相乗的なダイナミクスを空間と時間の両方で明らかにする、新しい時空注目ネットワークを提案する。
本モデルでは,音声・視覚的映像イベントの予測を可能とし,関連する視覚的手がかりがどこに現れるのかをローカライズすることで,その決定を正当化する。
論文 参考訳(メタデータ) (2021-05-04T14:16:55Z) - Repetitive Activity Counting by Sight and Sound [110.36526333035907]
本論文では,ビデオの繰り返し動作をカウントする。
映像コンテンツのみを解析する既存の作品と異なり、再生カウントプロセスに初めて対応する音を組み込んでいます。
論文 参考訳(メタデータ) (2021-03-24T11:15:33Z) - Audiovisual Highlight Detection in Videos [78.26206014711552]
本研究は,タスク上の単一特徴の有効性研究と,一つの特徴を一度に残すアブレーション研究の2つの実験の結果である。
映像要約作業では,視覚的特徴がほとんどの情報を持ち,視覚的特徴を含む視覚的特徴が視覚のみの情報よりも向上することが示唆された。
その結果,映像要約タスクからハイライト検出タスクに特化して訓練されたモデルに知識を伝達できることが示唆された。
論文 参考訳(メタデータ) (2021-02-11T02:24:00Z) - How to Teach DNNs to Pay Attention to the Visual Modality in Speech
Recognition [10.74796391075403]
本研究では、AV Alignの内部動作を調査し、オーディオ・視覚アライメントパターンを可視化する。
AV Alignは、一般に単調なパターンで、TD-TIMITのフレームレベルで、音声の音響的および視覚的表現を調整することを学習している。
本稿では,視覚的表現から唇関連行動単位を予測する正規化手法を提案する。
論文 参考訳(メタデータ) (2020-04-17T13:59:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。