論文の概要: Multi-Modal Gaze Following in Conversational Scenarios
- arxiv url: http://arxiv.org/abs/2311.05669v1
- Date: Thu, 9 Nov 2023 16:48:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-13 17:01:31.532837
- Title: Multi-Modal Gaze Following in Conversational Scenarios
- Title(参考訳): 会話シナリオにおけるマルチモーダル視線追従
- Authors: Yuqi Hou, Zhongqun Zhang, Nora Horanyi, Jaewon Moon, Yihua Cheng,
Hyung Jin Chang
- Abstract要約: 講演者に焦点をあてる傾向にある観察に基づく,新たなマルチモーダル視線を提示する。」
提案手法は,VGSデータセットの既存手法よりも優れていた。
- 参考スコア(独自算出の注目度): 19.984151704011204
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gaze following estimates gaze targets of in-scene person by understanding
human behavior and scene information. Existing methods usually analyze scene
images for gaze following. However, compared with visual images, audio also
provides crucial cues for determining human behavior.This suggests that we can
further improve gaze following considering audio cues. In this paper, we
explore gaze following tasks in conversational scenarios. We propose a novel
multi-modal gaze following framework based on our observation ``audiences tend
to focus on the speaker''. We first leverage the correlation between audio and
lips, and classify speakers and listeners in a scene. We then use the identity
information to enhance scene images and propose a gaze candidate estimation
network. The network estimates gaze candidates from enhanced scene images and
we use MLP to match subjects with candidates as classification tasks. Existing
gaze following datasets focus on visual images while ignore audios.To evaluate
our method, we collect a conversational dataset, VideoGazeSpeech (VGS), which
is the first gaze following dataset including images and audio. Our method
significantly outperforms existing methods in VGS datasets. The visualization
result also prove the advantage of audio cues in gaze following tasks. Our work
will inspire more researches in multi-modal gaze following estimation.
- Abstract(参考訳): 人の行動やシーン情報を理解することによって、視点を推定する。
既存の手法は通常、視線追跡のためのシーン画像を分析する。
しかし、視覚画像と比較すると、音声は人間の行動を決定する上で重要な手がかりとなる。
本稿では,会話シナリオにおけるタスクの視線追従について検討する。
我々は,「聴衆は話者に注目する傾向がある」という観察に基づく,新たなマルチモーダルな視点の枠組みを提案する。
まず、音声と唇の相関を利用して、シーン内の話者とリスナーを分類する。
次に,このアイデンティティ情報を用いてシーン画像を強化し,視線候補推定ネットワークを提案する。
ネットワークは高精細なシーン画像から視線候補を推定し,mlpを用いて被写体と被写体とのマッチングを分類タスクとして行う。
既存の視線追跡データセットは、音声を無視しながら視覚イメージに焦点を当てており、この手法を評価するために、画像や音声を含む最初の視線追跡データセットである会話データセットVideoGazeSpeech(VGS)を収集する。
提案手法は,VGSデータセットの既存手法よりも優れている。
可視化の結果、視線追従作業における音声手がかりの利点が証明された。
私たちの研究は、推定の後、マルチモーダルな視線の研究を刺激します。
関連論文リスト
- SAV-SE: Scene-aware Audio-Visual Speech Enhancement with Selective State Space Model [35.60147467774199]
SAV-SEは、同期ビデオからのリッチな文脈情報を、ノイズの種類を示す補助的手がかりとして使うための最初の提案である。
我々の知る限り、これは、音声強調性能を向上させるために、同期ビデオからリッチな文脈情報を補助的手がかりとして使用する最初の提案である。
論文 参考訳(メタデータ) (2024-11-12T12:23:41Z) - CLIP-VAD: Exploiting Vision-Language Models for Voice Activity Detection [2.110168344647122]
音声活動検出(Voice Activity Detection, VAD)は、人が話しているかどうかを自動的に判断し、発話のタイミングを識別するプロセスである。
コントラスト言語-画像事前学習(CLIP)モデルを利用した新しい手法を提案する。
提案手法は,その単純さに拘わらず,広範囲なオーディオ視覚データセットの事前学習を必要とせず,複数のオーディオ視覚法より優れる。
論文 参考訳(メタデータ) (2024-10-18T14:43:34Z) - Egocentric Audio-Visual Noise Suppression [11.113020254726292]
本稿では,エゴセントリックビデオの音声・視覚ノイズ抑圧について検討する。
ビデオカメラは、外界のオフスクリーンスピーカーのビューをエミュレートします。
まず,エゴセントリックな視覚情報が騒音抑制に有効であることを示す。
論文 参考訳(メタデータ) (2022-11-07T15:53:12Z) - VCSE: Time-Domain Visual-Contextual Speaker Extraction Network [54.67547526785552]
本稿では,VCSEという2段階の時間領域視覚コンテキスト話者抽出ネットワークを提案する。
第1段階では、視覚的手がかりで対象音声を事前抽出し、基礎となる音声系列を推定する。
第2段階では、事前抽出されたターゲット音声を自己学習した文脈的手がかりで洗練する。
論文 参考訳(メタデータ) (2022-10-09T12:29:38Z) - Estimating Visual Information From Audio Through Manifold Learning [14.113590443352495]
音声信号のみを用いてシーンの視覚情報を抽出する新しい枠組みを提案する。
私たちのフレームワークはマニフォールド学習に基づいており、2つのステップから構成されています。
提案手法は,公開されている音声/視覚データセットを用いて,音声から有意義な画像を生成することができることを示す。
論文 参考訳(メタデータ) (2022-08-03T20:47:11Z) - Joint Learning of Visual-Audio Saliency Prediction and Sound Source
Localization on Multi-face Videos [101.83513408195692]
マルチタスク学習手法を提案する。
提案手法は,12種類の精度予測法より優れ,音源定位における競合的な結果が得られる。
論文 参考訳(メタデータ) (2021-11-05T14:35:08Z) - Bio-Inspired Audio-Visual Cues Integration for Visual Attention
Prediction [15.679379904130908]
視覚的注意予測(VAP)手法は、シーンを認識するための人間の選択的な注意機構をシミュレートする。
VAPタスクにはバイオインスパイアされたオーディオ・ビジュアル・キューの統合手法が提案されている。
実験は、DIEM、AVAD、Coutrot1、Coutrot2、SumMe、ETMDを含む6つの難しい視線追跡データセットで実施されている。
論文 参考訳(メタデータ) (2021-09-17T06:49:43Z) - APES: Audiovisual Person Search in Untrimmed Video [87.4124877066541]
音声人物探索データセット(APES)について述べる。
APESには36時間のビデオにラベル付けされた1,9K以上のIDが含まれている。
APESの重要な特徴は、顔と同一アイデンティティの音声セグメントをリンクする密集した時間アノテーションを含むことである。
論文 参考訳(メタデータ) (2021-06-03T08:16:42Z) - Learning to Predict Salient Faces: A Novel Visual-Audio Saliency Model [96.24038430433885]
本稿では,視覚,音声,顔の3つの分枝からなるマルチモーダルビデオサリエンシーモデルを提案する。
実験結果から,提案手法は,11の最先端サリエンシ予測作業より優れていた。
論文 参考訳(メタデータ) (2021-03-29T09:09:39Z) - Learning Representations from Audio-Visual Spatial Alignment [76.29670751012198]
音声・視覚コンテンツから表現を学習するための新しい自己教師型プレテキストタスクを提案する。
提案したプリテキストタスクの利点は、様々なオーディオおよびビジュアルダウンストリームタスクで実証される。
論文 参考訳(メタデータ) (2020-11-03T16:20:04Z) - Learning Speech Representations from Raw Audio by Joint Audiovisual
Self-Supervision [63.564385139097624]
生音声波形から自己教師付き音声表現を学習する手法を提案する。
音声のみの自己スーパービジョン(情報的音響属性の予測)と視覚的自己スーパービジョン(音声から発話顔を生成する)を組み合わせることで生音声エンコーダを訓練する。
本研究は,音声表現学習におけるマルチモーダル・セルフ・スーパービジョンの可能性を示すものである。
論文 参考訳(メタデータ) (2020-07-08T14:07:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。