論文の概要: Listen to Look into the Future: Audio-Visual Egocentric Gaze
Anticipation
- arxiv url: http://arxiv.org/abs/2305.03907v2
- Date: Thu, 7 Dec 2023 18:04:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 19:01:42.315988
- Title: Listen to Look into the Future: Audio-Visual Egocentric Gaze
Anticipation
- Title(参考訳): 未来を覗き見する: 音声-視覚エゴセントリックな視線予測
- Authors: Bolin Lai, Fiona Ryan, Wenqi Jia, Miao Liu, James M. Rehg
- Abstract要約: エゴセントリックな視線予測は、拡張現実(Augmented Reality)の出現する能力の鍵となるビルディングブロックとして機能する。
我々は,エゴセントリックな視線予測のために,ビデオとオーディオの両方のモダリティを利用する最初のモデルを導入する。
- 参考スコア(独自算出の注目度): 23.155583253452868
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Egocentric gaze anticipation serves as a key building block for the emerging
capability of Augmented Reality. Notably, gaze behavior is driven by both
visual cues and audio signals during daily activities. Motivated by this
observation, we introduce the first model that leverages both the video and
audio modalities for egocentric gaze anticipation. Specifically, we propose a
Contrastive Spatial-Temporal Separable (CSTS) fusion approach that adopts two
modules to separately capture audio-visual correlations in spatial and temporal
dimensions, and applies a contrastive loss on the re-weighted audio-visual
features from fusion modules for representation learning. We conduct extensive
ablation studies and thorough analysis using two egocentric video datasets:
Ego4D and Aria, to validate our model design. We also demonstrate our model
outperforms prior state-of-the-art methods by at least +1.9% and +1.6%.
Moreover, we provide visualizations to show the gaze anticipation results and
provide additional insights into audio-visual representation learning.
- Abstract(参考訳): エゴセントリックな視線予測は、拡張現実の新たな能力の鍵となる構成要素である。
特に、視線行動は、毎日の活動中に視覚手がかりと音声信号の両方によって駆動される。
この観察に動機づけられて,映像と音声の両方のモダリティを利用した最初のモデルを提案する。
具体的には,空間的および時間的次元における音響-視覚的相関を分離して捉えるための2つのモジュールを用いた,csts(con contrastive spatial-temporal separable)融合手法を提案する。
ego4d と aria という2つのエゴセントリックビデオデータセットを用いて広範なアブレーション研究と解析を行い,モデル設計の検証を行った。
また,本モデルが先行手法を少なくとも +1.9% と +1.6% で上回っていることを示す。
さらに,視線予測結果を表示するための可視化や,視聴覚表現学習に関するさらなる洞察を提供する。
関連論文リスト
- Learning Spatial Features from Audio-Visual Correspondence in Egocentric Videos [69.79632907349489]
本稿では,エゴセントリックビデオにおける空間的音声・視覚対応に基づく表現の自己教師付き学習法を提案する。
本手法では,マスク付き(マルチチャネル)音声を音声と視覚の相乗効果により合成するために,マスク付き自動符号化フレームワークを用いる。
論文 参考訳(メタデータ) (2023-07-10T17:58:17Z) - Egocentric Audio-Visual Object Localization [51.434212424829525]
本研究では,エゴモーションを明示的に処理する時空間アグリゲーションモジュールを提案する。
エゴモーションの効果は、時間的幾何変換を推定し、それを利用して視覚的表現を更新することによって緩和される。
視覚的に指示された音声表現をアンタングルすることで、モーダルな局所化の堅牢性を向上させる。
論文 参考訳(メタデータ) (2023-03-23T17:43:11Z) - Audio-Visual Contrastive Learning with Temporal Self-Supervision [84.11385346896412]
人間の監督なしにRGBフレームと付随するオーディオの両方の表現を学習するビデオのための自己教師付き学習手法を提案する。
ビデオに固有の時間的・聴覚的次元を活用するために,本手法は時間的自己監督を音声視覚設定に拡張する。
論文 参考訳(メタデータ) (2023-02-15T15:00:55Z) - Joint Learning of Visual-Audio Saliency Prediction and Sound Source
Localization on Multi-face Videos [101.83513408195692]
マルチタスク学習手法を提案する。
提案手法は,12種類の精度予測法より優れ,音源定位における競合的な結果が得られる。
論文 参考訳(メタデータ) (2021-11-05T14:35:08Z) - LiRA: Learning Visual Speech Representations from Audio through
Self-supervision [53.18768477520411]
セルフスーパービジョン(LiRA)による音声からの視覚的表現の学習を提案する。
具体的には、ResNet+Conformerモデルをトレーニングし、未学習の視覚音声から音響的特徴を予測する。
提案手法は,WildデータセットのLip Readingにおいて,他の自己教師的手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-16T23:20:06Z) - Audiovisual Highlight Detection in Videos [78.26206014711552]
本研究は,タスク上の単一特徴の有効性研究と,一つの特徴を一度に残すアブレーション研究の2つの実験の結果である。
映像要約作業では,視覚的特徴がほとんどの情報を持ち,視覚的特徴を含む視覚的特徴が視覚のみの情報よりも向上することが示唆された。
その結果,映像要約タスクからハイライト検出タスクに特化して訓練されたモデルに知識を伝達できることが示唆された。
論文 参考訳(メタデータ) (2021-02-11T02:24:00Z) - Audio-visual Speech Separation with Adversarially Disentangled Visual
Representation [23.38624506211003]
音声分離は、複数の同時話者による音声の混合から個々の音声を分離することを目的としている。
本モデルでは,顔検出器を用いて現場の話者数を検出し,視覚情報を用いて順列化問題を回避する。
提案モデルは,最先端のオーディオのみのモデルと3つのオーディオ視覚モデルより優れていることを示す。
論文 参考訳(メタデータ) (2020-11-29T10:48:42Z) - How to Teach DNNs to Pay Attention to the Visual Modality in Speech
Recognition [10.74796391075403]
本研究では、AV Alignの内部動作を調査し、オーディオ・視覚アライメントパターンを可視化する。
AV Alignは、一般に単調なパターンで、TD-TIMITのフレームレベルで、音声の音響的および視覚的表現を調整することを学習している。
本稿では,視覚的表現から唇関連行動単位を予測する正規化手法を提案する。
論文 参考訳(メタデータ) (2020-04-17T13:59:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。