論文の概要: AV-Dialog: Spoken Dialogue Models with Audio-Visual Input
- arxiv url: http://arxiv.org/abs/2511.11124v1
- Date: Fri, 14 Nov 2025 09:56:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.528517
- Title: AV-Dialog: Spoken Dialogue Models with Audio-Visual Input
- Title(参考訳): AV-Dialog:音声視覚入力を用いた音声対話モデル
- Authors: Tuochao Chen, Bandhav Veluri, Hongyu Gong, Shyamnath Gollakota,
- Abstract要約: AV-Dialogは、音声と視覚の両方を使ってターゲット話者を追跡し、ターンテイクを予測し、一貫性のある応答を生成する最初のフレームワークである。
実験により、AV-Dialogは干渉下での音声のみのモデルよりも優れ、転写エラーの低減、ターンテイク予測の改善、人格の対話品質の向上が示されている。
これらの結果から,実環境,騒音環境,環境,環境,環境,環境,環境,環境,環境,環境,環境,環境,環境,環境,環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境
- 参考スコア(独自算出の注目度): 16.289812372606168
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dialogue models falter in noisy, multi-speaker environments, often producing irrelevant responses and awkward turn-taking. We present AV-Dialog, the first multimodal dialog framework that uses both audio and visual cues to track the target speaker, predict turn-taking, and generate coherent responses. By combining acoustic tokenization with multi-task, multi-stage training on monadic, synthetic, and real audio-visual dialogue datasets, AV-Dialog achieves robust streaming transcription, semantically grounded turn-boundary detection and accurate responses, resulting in a natural conversational flow. Experiments show that AV-Dialog outperforms audio-only models under interference, reducing transcription errors, improving turn-taking prediction, and enhancing human-rated dialogue quality. These results highlight the power of seeing as well as hearing for speaker-aware interaction, paving the way for {spoken} dialogue agents that perform {robustly} in real-world, noisy environments.
- Abstract(参考訳): 対話モデルは、ノイズの多いマルチスピーカー環境において、しばしば無関係な応答とぎこちないターンテイクを生成する。
AV-Dialogは、音声と視覚の両方を使ってターゲット話者を追跡し、ターンテイクを予測し、一貫性のある応答を生成する、最初のマルチモーダルダイアログフレームワークである。
AV-Dialogは、音響トークン化とマルチタスク、モナディック、合成、および実際のオーディオ視覚対話データセットのマルチステージトレーニングを組み合わせることで、ロバストなストリーミング転写、セマンティックグラウンドのターンバウンダリ検出と正確な応答を実現し、自然な会話の流れをもたらす。
実験により、AV-Dialogは干渉下での音声のみのモデルよりも優れ、転写エラーの低減、ターンテイク予測の改善、人格の対話品質の向上が示されている。
これらの結果は、実世界の雑音の多い環境で {robustly} を実行する {spoken} 対話エージェントの道を開くとともに、話者と認識する対話の聴取力を強調している。
関連論文リスト
- ZipVoice-Dialog: Non-Autoregressive Spoken Dialogue Generation with Flow Matching [22.477986192421767]
本稿では,フローマッチングに基づく非自己回帰音声対話生成モデルZipVoice-Dialogを紹介する。
主なデザインは、正確な話者のターンテイクのためのスピーカーターン埋め込みである。
我々は6.8khの音声対話データセットであるOpenDialogを、帯域内音声データからキュレートした。
論文 参考訳(メタデータ) (2025-07-12T15:18:47Z) - Aligning Spoken Dialogue Models from User Interactions [55.192134724622235]
本稿では,ユーザの対話からリアルタイム会話における音声対話モデルを改善するための新しい嗜好アライメントフレームワークを提案する。
AIフィードバックを付加した生のマルチターン音声会話から15万以上の好みペアのデータセットを作成する。
本研究は, 自然なリアルタイム音声対話システムにおいて重要な, 様々な力学におけるバランスの整合性の重要性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-06-26T16:45:20Z) - CoVoMix2: Advancing Zero-Shot Dialogue Generation with Fully Non-Autoregressive Flow Matching [78.01028753403575]
CoVoMix2はゼロショットマルチトーカー対話生成のためのフレームワークである。
フローマッチングに基づく生成モデルを用いて、マルチストリームの転写からメルスペクトルを予測する。
提案手法は,MoonCastやSesameといった強力なベースラインを,音声品質,話者の整合性,推論速度で上回り,最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-06-01T07:51:45Z) - Let's Go Real Talk: Spoken Dialogue Model for Face-to-Face Conversation [55.043492250775294]
本稿では,新しい対面音声対話モデルを提案する。
ユーザ入力から音声視覚音声を処理し、応答として音声視覚音声を生成する。
また,最初の大規模マルチモーダル音声対話コーパスであるMultiDialogを紹介する。
論文 参考訳(メタデータ) (2024-06-12T04:48:36Z) - Multimodal Contextual Dialogue Breakdown Detection for Conversational AI Models [1.4199474167684119]
マルチモーダルな文脈対話ブレークダウン(MultConDB)モデルを導入する。
このモデルは、69.27のF1を達成することで、他の既知の最高のモデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2024-04-11T23:09:18Z) - A Speaker-aware Parallel Hierarchical Attentive Encoder-Decoder Model
for Multi-turn Dialogue Generation [13.820298189734686]
本稿では,マルチターン会話における話者の区別を強調するオープンドメイン対話生成モデルを提案する。
実験の結果,PHAEDは自動評価と人的評価の両面で最先端の成績を示した。
論文 参考訳(メタデータ) (2021-10-13T16:08:29Z) - Enhanced Speaker-aware Multi-party Multi-turn Dialogue Comprehension [43.352833140317486]
マルチパーティ・マルチターン・ダイアログの理解は前例のない課題をもたらす。
既存のほとんどのメソッドは、会話コンテキストをプレーンテキストとして扱う。
マスキングアテンションと異種グラフネットワークを用いた話者認識モデルを提案する。
論文 参考訳(メタデータ) (2021-09-09T07:12:22Z) - Filling the Gap of Utterance-aware and Speaker-aware Representation for
Multi-turn Dialogue [76.88174667929665]
マルチターン対話は、2つ以上の異なる話者の役割から複数の発話からなる。
既存の検索に基づくマルチターン対話モデルでは、事前訓練された言語モデル(PrLM)をエンコーダとして、対話を粗く表現する。
本稿では,対話履歴に係わる効果的な発話認識表現と話者認識表現をモデル化することにより,そのようなギャップを埋める新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-09-14T15:07:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。