論文の概要: Speak or Stay Silent: Context-Aware Turn-Taking in Multi-Party Dialogue
- arxiv url: http://arxiv.org/abs/2603.11409v1
- Date: Thu, 12 Mar 2026 00:44:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.737078
- Title: Speak or Stay Silent: Context-Aware Turn-Taking in Multi-Party Dialogue
- Title(参考訳): 話すか静かなサイレント:多人数対話における文脈を考慮したターンタイキング
- Authors: Kratika Bhagtani, Mrinal Anand, Yu Chen Xu, Amit Kumar Singh Yadav,
- Abstract要約: 既存の音声AIアシスタントは、検出されたすべての一時停止を、話す招待状として扱う。
AIアシスタントが複数のスピーカーと一緒に参加するマルチパーティ設定では、一時停止は豊富であいまいである。
我々はコンテキスト対応のターンテイクを定式化し、検出されたすべての一時停止において、会話の全コンテキストを考慮し、我々のメソッドは、アシスタントが話すべきか、沈黙し続けるべきかを判断する。
- 参考スコア(独自算出の注目度): 5.0464110997545415
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Existing voice AI assistants treat every detected pause as an invitation to speak. This works in dyadic dialogue, but in multi-party settings, where an AI assistant participates alongside multiple speakers, pauses are abundant and ambiguous. An assistant that speaks on every pause becomes disruptive rather than useful. In this work, we formulate context-aware turn-taking: at every detected pause, given the full conversation context, our method decides whether the assistant should speak or stay silent. We introduce a benchmark of over 120K labeled conversations spanning three multi-party corpora. Evaluating eight recent large language models, we find that they consistently fail at context-aware turn-taking under zero-shot prompting. We then propose a supervised fine-tuning approach with reasoning traces, improving balanced accuracy by up to 23 percentage points. Our findings suggest that context-aware turn-taking is not an emergent capability; it must be explicitly trained.
- Abstract(参考訳): 既存の音声AIアシスタントは、検出されたすべての一時停止を、話す招待状として扱う。
これはダイアド対話で機能するが、AIアシスタントが複数のスピーカーと一緒に参加するマルチパーティ環境では、一時停止は豊富であいまいである。
一時停止ごとに話すアシスタントは、役に立つというより破壊的になる。
本研究は,コンテキスト対応のターンテイクを定式化する: 検出されたすべての一時停止において,会話の全コンテキストを考慮すれば,我々の手法は,アシスタントが話すべきか,沈黙を保たなければならないかを判断する。
3つのマルチパーティコーパスにまたがる120K以上のラベル付き会話のベンチマークを導入する。
最近の8つの大言語モデルを評価すると、ゼロショットのプロンプトの下でコンテキスト認識のターンテイクで一貫して失敗することがわかった。
次に,推定トレースを用いた教師付き微調整手法を提案し,その精度を最大23ポイント向上する。
以上の結果から,コンテキスト認識型ターンテイクは創発的能力ではないことが示唆された。
関連論文リスト
- Proactive Hearing Assistants that Isolate Egocentric Conversations [9.444316926459196]
装着者の会話相手を自動的に識別・分離する能動的補聴器を導入する。
本システムは,エゴセントリックな音声で動作し,装着者の自発音声をアンカーとして利用する。
我々の研究は、会話のダイナミクスやエンゲージメントに積極的に適応する補聴器への一歩である。
論文 参考訳(メタデータ) (2025-11-14T16:44:48Z) - SHANKS: Simultaneous Hearing and Thinking for Spoken Language Models [158.18422855768756]
現在の大規模言語モデル (LLM) と音声言語モデル (SLM) は、ユーザがターンを終えた後にのみ、思考と行動を取る。
これにより、モデルがユーザのターン中に対話するのを防ぎ、考えるのを待つ間、レスポンスのレイテンシが高くなります。
SHANKSは,ユーザ入力を聴きながら,無意味な連鎖推論をSLMが生成できるフレームワークである。
論文 参考訳(メタデータ) (2025-10-08T11:48:59Z) - MultiVox: A Benchmark for Evaluating Voice Assistants for Multimodal Interactions [70.93364531054273]
音声と視覚を融合させる音声アシスタントの能力を評価する最初のベンチマークであるMultiVoxを紹介する。
具体的には、MultiVoxには、多種多様なパラ言語的特徴を包含する1000の人間の注釈付き音声対話が含まれている。
10の最先端モデルに対する我々の評価は、人間はこれらのタスクに長けているが、現在のモデルは、常に文脈的に接地された応答を生成するのに苦労していることを示している。
論文 参考訳(メタデータ) (2025-07-14T23:20:42Z) - Multimodal Contextual Dialogue Breakdown Detection for Conversational AI Models [1.4199474167684119]
マルチモーダルな文脈対話ブレークダウン(MultConDB)モデルを導入する。
このモデルは、69.27のF1を達成することで、他の既知の最高のモデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2024-04-11T23:09:18Z) - Question-Interlocutor Scope Realized Graph Modeling over Key Utterances
for Dialogue Reading Comprehension [61.55950233402972]
本稿では,対話読解のためのキーワード抽出手法を提案する。
複数の連続した発話によって形成された単位に対して予測を行い、より多くの回答を含む発話を実現する。
発話のテキスト上に構築されたグラフとして,質問-対話者スコープ実現グラフ(QuISG)モデルを提案する。
論文 参考訳(メタデータ) (2022-10-26T04:00:42Z) - Turn-Taking Prediction for Natural Conversational Speech [40.189938418201656]
一般的な会話的発話は、ターンテイクを伴う複数のクエリを含むことが多い。
障害としては、思考の一時停止、ためらうこと、単語の延長、ポーズの充満、繰り返し句などがある。
本稿では,エンド・ツー・エンド(E2E)音声認識器上に構築されたターンテイク予測器を提案する。
論文 参考訳(メタデータ) (2022-08-29T01:09:23Z) - Will I Sound Like Me? Improving Persona Consistency in Dialogues through
Pragmatic Self-Consciousness [62.55060760615656]
一貫性に対処する最近のモデルは、しばしば追加の自然言語推論(NLI)ラベルでトレーニングするか、あるいは一貫性を維持するためにトレーニングされた追加モジュールを生成エージェントにアタッチする。
社会的認知と実用性に触発されて、私たちは既存の対話エージェントに、想像上のリスナーを通して、公的な自己意識を持たせました。
我々のアプローチは、Rational Speech Actsフレームワークに基づいて、会話エージェントに矛盾の発声を控えるように強制することができる。
論文 参考訳(メタデータ) (2020-04-13T08:16:16Z) - Masking Orchestration: Multi-task Pretraining for Multi-role Dialogue
Representation Learning [50.5572111079898]
マルチロール対話理解は、質問応答、行動分類、対話要約など、幅広い多様なタスクを含む。
対話コーパスは豊富に利用可能であるが、特定の学習タスクのためのラベル付きデータは非常に不足しており、高価である。
本研究では,教師なし事前学習タスクを用いた対話文脈表現学習について検討する。
論文 参考訳(メタデータ) (2020-02-27T04:36:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。