論文の概要: Proactive Hearing Assistants that Isolate Egocentric Conversations
- arxiv url: http://arxiv.org/abs/2511.11473v1
- Date: Fri, 14 Nov 2025 16:44:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.729323
- Title: Proactive Hearing Assistants that Isolate Egocentric Conversations
- Title(参考訳): エゴセントリックな会話を分離する能動的補聴器
- Authors: Guilin Hu, Malek Itani, Tuochao Chen, Shyamnath Gollakota,
- Abstract要約: 装着者の会話相手を自動的に識別・分離する能動的補聴器を導入する。
本システムは,エゴセントリックな音声で動作し,装着者の自発音声をアンカーとして利用する。
我々の研究は、会話のダイナミクスやエンゲージメントに積極的に適応する補聴器への一歩である。
- 参考スコア(独自算出の注目度): 9.444316926459196
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce proactive hearing assistants that automatically identify and separate the wearer's conversation partners, without requiring explicit prompts. Our system operates on egocentric binaural audio and uses the wearer's self-speech as an anchor, leveraging turn-taking behavior and dialogue dynamics to infer conversational partners and suppress others. To enable real-time, on-device operation, we propose a dual-model architecture: a lightweight streaming model runs every 12.5 ms for low-latency extraction of the conversation partners, while a slower model runs less frequently to capture longer-range conversational dynamics. Results on real-world 2- and 3-speaker conversation test sets, collected with binaural egocentric hardware from 11 participants totaling 6.8 hours, show generalization in identifying and isolating conversational partners in multi-conversation settings. Our work marks a step toward hearing assistants that adapt proactively to conversational dynamics and engagement. More information can be found on our website: https://proactivehearing.cs.washington.edu/
- Abstract(参考訳): 本稿では,装着者の会話相手を自動的に識別・分離する能動的補聴器について,明示的な指示を必要とせず紹介する。
本システムは,エゴセントリックなバイノーラルオーディオで動作し,会話相手を推論し,相手を抑えるために,交代行動と対話のダイナミクスを活用する。
対話相手の低遅延抽出において,軽量なストリーミングモデルが12.5ミリ秒毎に実行され,より遅いモデルがより長い範囲の対話ダイナミクスを捉えるために,より頻度の低い2つのモデルアーキテクチャを提案する。
実世界の2-および3-話者会話テストセットの結果は、11人の参加者のバイノーラルなエゴシックなハードウェアで収集され、多会話環境での会話パートナーの特定と分離の一般化を示す。
我々の研究は、会話のダイナミクスやエンゲージメントに積極的に適応する補聴器への一歩である。
より詳しい情報は、私たちのWebサイト(https://proactivehearing.cs.washington.edu/)で確認できます。
関連論文リスト
- Chronological Thinking in Full-Duplex Spoken Dialogue Language Models [66.84843878538207]
時系列思考は、完全なSDLMの応答品質を改善することを目的としている。
追加のレイテンシがない: ユーザが話すのをやめると、エージェントは考えるのをやめ、それ以上の遅延なしに話し始める。
結果: 客観的指標と人的評価の両面から, 時系列思考の有効性を示す実験を行った。
論文 参考訳(メタデータ) (2025-10-02T10:28:11Z) - MultiVox: A Benchmark for Evaluating Voice Assistants for Multimodal Interactions [70.93364531054273]
音声と視覚を融合させる音声アシスタントの能力を評価する最初のベンチマークであるMultiVoxを紹介する。
具体的には、MultiVoxには、多種多様なパラ言語的特徴を包含する1000の人間の注釈付き音声対話が含まれている。
10の最先端モデルに対する我々の評価は、人間はこれらのタスクに長けているが、現在のモデルは、常に文脈的に接地された応答を生成するのに苦労していることを示している。
論文 参考訳(メタデータ) (2025-07-14T23:20:42Z) - Aligning Spoken Dialogue Models from User Interactions [55.192134724622235]
本稿では,ユーザの対話からリアルタイム会話における音声対話モデルを改善するための新しい嗜好アライメントフレームワークを提案する。
AIフィードバックを付加した生のマルチターン音声会話から15万以上の好みペアのデータセットを作成する。
本研究は, 自然なリアルタイム音声対話システムにおいて重要な, 様々な力学におけるバランスの整合性の重要性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-06-26T16:45:20Z) - LLAMAPIE: Proactive In-Ear Conversation Assistants [9.312108526830665]
我々はLlamaPIEを紹介した。LlamaPIEは、可聴デバイスを介して配信される離散的、簡潔なガイダンスを通じて、人間の会話を強化するために設計された最初のリアルタイムプロアクティブアシスタントである。
明示的なユーザ呼び出しを必要とする従来の言語モデルとは異なり、このアシスタントはバックグラウンドで動作し、会話を中断することなくユーザニーズを予測している。
論文 参考訳(メタデータ) (2025-05-07T02:08:56Z) - Talking Turns: Benchmarking Audio Foundation Models on Turn-Taking Dynamics [54.03209351287654]
本稿では,音声対話システムのターンテイク能力を評価するための新しい評価プロトコルを提案する。
本稿では,既存の音声対話システムをターンテイクイベントの実行能力に基づいて評価する,初めての包括的ユーザスタディを提案する。
我々は、高度な対話型AIシステムの開発を促進するために、評価プラットフォームをオープンソース化する。
論文 参考訳(メタデータ) (2025-03-03T04:46:04Z) - Target conversation extraction: Source separation using turn-taking dynamics [23.189364779538757]
本稿では,ターゲット会話抽出の新たな課題について紹介する。その目的は,参加者の1人の話者埋め込みに基づいて,対象会話の音声を抽出することである。
ニューラルネットワークを用いて、英語とマンダリンの会話データセットに対する我々のアプローチの有効性を示す。
干渉話者の存在下では,2対4対4対4対4対4対4対4対7.92対2対1対1対1対1対1対1対8.19対1対1対1対4対4対4対4対2対2対2対2対2対1対1対1対1対1対1対1対1対1対1対1対1対1対1対1対1対1対1対2対2対2対2対4対1対2対2対2対2対2対2対2対2対2対1対1対1対1対1対1対1対1
論文 参考訳(メタデータ) (2024-07-15T22:55:27Z) - Interactive Conversational Head Generation [68.76774230274076]
対面会話における1つのインターロケータの振る舞いを合成するための新しい対話ヘッド生成ベンチマークを提案する。
長時間・複数回会話に参加可能なインターロカクタを自動的に合成する機能は不可欠であり、様々なアプリケーションにメリットを提供する。
論文 参考訳(メタデータ) (2023-07-05T08:06:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。