論文の概要: Listen to Look into the Future: Audio-Visual Egocentric Gaze Anticipation
- arxiv url: http://arxiv.org/abs/2305.03907v3
- Date: Fri, 22 Mar 2024 08:10:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-25 23:58:25.444787
- Title: Listen to Look into the Future: Audio-Visual Egocentric Gaze Anticipation
- Title(参考訳): 未来を聴く:オーディオ・ビジュアル・エゴセントリック・ゲイズ予測
- Authors: Bolin Lai, Fiona Ryan, Wenqi Jia, Miao Liu, James M. Rehg,
- Abstract要約: エゴセントリックな視線予測は、拡張現実(Augmented Reality)の出現する能力の鍵となるビルディングブロックとして機能する。
我々は,エゴセントリックな視線予測のために,ビデオとオーディオの両方のモダリティを利用する最初のモデルを導入する。
また,従来の最先端手法を少なくとも +1.9% と +1.6% で上回っている。
- 参考スコア(独自算出の注目度): 21.583325327060738
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Egocentric gaze anticipation serves as a key building block for the emerging capability of Augmented Reality. Notably, gaze behavior is driven by both visual cues and audio signals during daily activities. Motivated by this observation, we introduce the first model that leverages both the video and audio modalities for egocentric gaze anticipation. Specifically, we propose a Contrastive Spatial-Temporal Separable (CSTS) fusion approach that adopts two modules to separately capture audio-visual correlations in spatial and temporal dimensions, and applies a contrastive loss on the re-weighted audio-visual features from fusion modules for representation learning. We conduct extensive ablation studies and thorough analysis using two egocentric video datasets: Ego4D and Aria, to validate our model design. We demonstrate the audio improves the performance by +2.5% and +2.4% on the two datasets. Our model also outperforms the prior state-of-the-art methods by at least +1.9% and +1.6%. Moreover, we provide visualizations to show the gaze anticipation results and provide additional insights into audio-visual representation learning. The code and data split are available on our website (https://bolinlai.github.io/CSTS-EgoGazeAnticipation/).
- Abstract(参考訳): エゴセントリックな視線予測は、拡張現実(Augmented Reality)の出現する能力の鍵となるビルディングブロックとして機能する。
特に、視線行動は日々の活動中に視覚的手がかりと音声信号の両方によって駆動される。
この観察に感化され,エゴセントリックな視線予測にビデオとオーディオの両方のモダリティを利用する最初のモデルを導入する。
具体的には、空間的・時間的空間的相関を別々に捉えるために2つのモジュールを併用したContrastive Spatial-Temporal Separable (CSTS) fusionアプローチを提案する。
Ego4DとAriaという2つのエゴセントリックなビデオデータセットを用いて、広範囲にわたるアブレーション研究と徹底的な分析を行い、モデル設計を検証する。
オーディオは2つのデータセットで+2.5%と+2.4%の性能向上を示す。
また,従来の最先端手法を少なくとも +1.9% と +1.6% で上回っている。
さらに,視線予測結果の可視化や,音声・視覚的表現学習に関する洞察も提供する。
コードとデータの分割は、私たちのWebサイトで利用可能です(https://bolinlai.github.io/CSTS-EgoGazeAnticipation/)。
関連論文リスト
- Learning Spatial Features from Audio-Visual Correspondence in Egocentric Videos [69.79632907349489]
本稿では,エゴセントリックビデオにおける空間的音声・視覚対応に基づく表現の自己教師付き学習法を提案する。
本手法では,マスク付き(マルチチャネル)音声を音声と視覚の相乗効果により合成するために,マスク付き自動符号化フレームワークを用いる。
論文 参考訳(メタデータ) (2023-07-10T17:58:17Z) - Egocentric Audio-Visual Object Localization [51.434212424829525]
本研究では,エゴモーションを明示的に処理する時空間アグリゲーションモジュールを提案する。
エゴモーションの効果は、時間的幾何変換を推定し、それを利用して視覚的表現を更新することによって緩和される。
視覚的に指示された音声表現をアンタングルすることで、モーダルな局所化の堅牢性を向上させる。
論文 参考訳(メタデータ) (2023-03-23T17:43:11Z) - Audio-Visual Contrastive Learning with Temporal Self-Supervision [84.11385346896412]
人間の監督なしにRGBフレームと付随するオーディオの両方の表現を学習するビデオのための自己教師付き学習手法を提案する。
ビデオに固有の時間的・聴覚的次元を活用するために,本手法は時間的自己監督を音声視覚設定に拡張する。
論文 参考訳(メタデータ) (2023-02-15T15:00:55Z) - Joint Learning of Visual-Audio Saliency Prediction and Sound Source
Localization on Multi-face Videos [101.83513408195692]
マルチタスク学習手法を提案する。
提案手法は,12種類の精度予測法より優れ,音源定位における競合的な結果が得られる。
論文 参考訳(メタデータ) (2021-11-05T14:35:08Z) - LiRA: Learning Visual Speech Representations from Audio through
Self-supervision [53.18768477520411]
セルフスーパービジョン(LiRA)による音声からの視覚的表現の学習を提案する。
具体的には、ResNet+Conformerモデルをトレーニングし、未学習の視覚音声から音響的特徴を予測する。
提案手法は,WildデータセットのLip Readingにおいて,他の自己教師的手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-16T23:20:06Z) - Audiovisual Highlight Detection in Videos [78.26206014711552]
本研究は,タスク上の単一特徴の有効性研究と,一つの特徴を一度に残すアブレーション研究の2つの実験の結果である。
映像要約作業では,視覚的特徴がほとんどの情報を持ち,視覚的特徴を含む視覚的特徴が視覚のみの情報よりも向上することが示唆された。
その結果,映像要約タスクからハイライト検出タスクに特化して訓練されたモデルに知識を伝達できることが示唆された。
論文 参考訳(メタデータ) (2021-02-11T02:24:00Z) - Audio-visual Speech Separation with Adversarially Disentangled Visual
Representation [23.38624506211003]
音声分離は、複数の同時話者による音声の混合から個々の音声を分離することを目的としている。
本モデルでは,顔検出器を用いて現場の話者数を検出し,視覚情報を用いて順列化問題を回避する。
提案モデルは,最先端のオーディオのみのモデルと3つのオーディオ視覚モデルより優れていることを示す。
論文 参考訳(メタデータ) (2020-11-29T10:48:42Z) - How to Teach DNNs to Pay Attention to the Visual Modality in Speech
Recognition [10.74796391075403]
本研究では、AV Alignの内部動作を調査し、オーディオ・視覚アライメントパターンを可視化する。
AV Alignは、一般に単調なパターンで、TD-TIMITのフレームレベルで、音声の音響的および視覚的表現を調整することを学習している。
本稿では,視覚的表現から唇関連行動単位を予測する正規化手法を提案する。
論文 参考訳(メタデータ) (2020-04-17T13:59:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。