論文の概要: EgoAdapt: Enhancing Robustness in Egocentric Interactive Speaker Detection Under Missing Modalities
- arxiv url: http://arxiv.org/abs/2603.18082v1
- Date: Wed, 18 Mar 2026 07:55:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:05.749644
- Title: EgoAdapt: Enhancing Robustness in Egocentric Interactive Speaker Detection Under Missing Modalities
- Title(参考訳): EgoAdapt: 欠損モード下でのエゴセントリックな対話型話者検出におけるロバスト性向上
- Authors: Xinyuan Qian, Xinjia Zhu, Alessio Brutti, Dong Liang,
- Abstract要約: 本研究では,モダリティの欠如した話者検出のための適応型フレームワークであるEgoAdaptを紹介する。
EgoAdaptには3つの重要なモジュールが組み込まれている。(1)視覚話者目標認識(VSTR)モジュールは、音声特徴抽出のためのパラレル共有オーディオ(PSA)エンコーダである。
EgoAdaptは平均平均精度(mAP)67.39%、精度(Acc)62.01%を達成する。
- 参考スコア(独自算出の注目度): 18.332508545927578
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: TTM (Talking to Me) task is a pivotal component in understanding human social interactions, aiming to determine who is engaged in conversation with the camera-wearer. Traditional models often face challenges in real-world scenarios due to missing visual data, neglecting the role of head orientation, and background noise. This study addresses these limitations by introducing EgoAdapt, an adaptive framework designed for robust egocentric "Talking to Me" speaker detection under missing modalities. Specifically, EgoAdapt incorporates three key modules: (1) a Visual Speaker Target Recognition (VSTR) module that captures head orientation as a non-verbal cue and lip movement as a verbal cue, allowing a comprehensive interpretation of both verbal and non-verbal signals to address TTM, setting it apart from tasks focused solely on detecting speaking status; (2) a Parallel Shared-weight Audio (PSA) encoder for enhanced audio feature extraction in noisy environments; and (3) a Visual Modality Missing Awareness (VMMA) module that estimates the presence or absence of each modality at each frame to adjust the system response dynamically.Comprehensive evaluations on the TTM benchmark of the Ego4D dataset demonstrate that EgoAdapt achieves a mean Average Precision (mAP) of 67.39% and an Accuracy (Acc) of 62.01%, significantly outperforming the state-of-the-art method by 4.96% in Accuracy and 1.56% in mAP.
- Abstract(参考訳): TTM(Talking to Me)タスクは、カメラ装着者との会話に誰が関わっているかを決定することを目的として、人間の社会的相互作用を理解する上で重要な要素である。
従来のモデルは、視覚的なデータ不足、ヘッドオリエンテーションの役割の欠如、バックグラウンドノイズなど、現実のシナリオでしばしば課題に直面します。
本研究では,エゴセントリックな"Talking to Me"話者検出のための適応フレームワークであるEgoAdaptを導入することで,これらの制約に対処する。
特に、EgoAdaptは、3つの主要なモジュールを組み込んでいる: 1) 頭向きを非言語的キューとして捉えるビジュアル話者認識(VSTR)モジュール、2) 言語的信号と非言語的信号の両方を言語的キューとして捉え、TTMに対処するための包括的解釈を可能にする、(2) 雑音の多い環境での音声特徴抽出を向上するためのパラレル共有オーディオ(PSA)エンコーダ、3) それぞれのフレームにおける各モードの有無を推定し、システムの応答を動的に調整するVMMA(Visual Modality Missing Awareness)モジュール。
関連論文リスト
- Plug-and-Play Clarifier: A Zero-Shot Multimodal Framework for Egocentric Intent Disambiguation [60.63465682731118]
エゴセントリックなAIエージェントのパフォーマンスは、基本的にマルチモーダルな意図のあいまいさによって制限される。
ゼロショットでモジュラーなフレームワークであるPlug-and-Play Clarifierを導入し、問題を個別に解決可能なサブタスクに分解する。
我々のフレームワークは,小言語モデルの意図的明確化性能を約30%向上させ,より大きな言語モデルとの競争力を高める。
論文 参考訳(メタデータ) (2025-11-12T04:28:14Z) - Enabling Automatic Self-Talk Detection via Earables [10.247881693416229]
MutterMeterは、実環境のマイクが捉えた音声から発声したセルフトークを自動的に検出するモバイルシステムだ。
我々は25人の参加者から収集された31.1時間分のオーディオからなる第一種データセットを用いて、MutterMeterを構築し評価する。
論文 参考訳(メタデータ) (2025-11-10T13:01:06Z) - Brainprint-Modulated Target Speaker Extraction [1.6974371408199849]
パーソナライズされた高忠実度抽出のための新しいフレームワークであるBrainprint-ulated Speaker extract (BM-TSE)を提案する。
私たちのフレームワークの中核はパーソナライズされた変調機構であり、脳マップの埋め込みが学習される。
BM-TSEは最先端の性能を達成し、既存の手法を著しく上回っている。
論文 参考訳(メタデータ) (2025-09-22T15:17:35Z) - VocSegMRI: Multimodal Learning for Precise Vocal Tract Segmentation in Real-time MRI [14.398038581000302]
VocSegMRIは,映像,音声,音声の入力を相互注意融合により統合するフレームワークである。
Diceスコアは0.95、Hausdorff Distance(HD_95)は4.20mmである。
論文 参考訳(メタデータ) (2025-09-17T07:32:00Z) - SELMA: A Speech-Enabled Language Model for Virtual Assistant Interactions [48.02083833667388]
仮想アシスタントインタラクションのための言語モデルであるSELMAを提示し,評価する。
オーディオエンコーダとLarge Language Modelの両方のパラメータ効率訓練に低ランク適応モジュールを用いる。
論文 参考訳(メタデータ) (2025-01-31T18:30:36Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - On-the-Fly Feature Based Rapid Speaker Adaptation for Dysarthric and
Elderly Speech Recognition [53.17176024917725]
話者レベルのデータの共有化は、データ集約型モデルに基づく話者適応手法の実用的利用を制限する。
本稿では,2種類のデータ効率,特徴量に基づくオンザフライ話者適応手法を提案する。
論文 参考訳(メタデータ) (2022-03-28T09:12:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。