論文の概要: MoshiRAG: Asynchronous Knowledge Retrieval for Full-Duplex Speech Language Models
- arxiv url: http://arxiv.org/abs/2604.12928v2
- Date: Fri, 17 Apr 2026 07:00:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 13:38:49.297616
- Title: MoshiRAG: Asynchronous Knowledge Retrieval for Full-Duplex Speech Language Models
- Title(参考訳): モシラグ:全二重言語モデルのための非同期知識検索
- Authors: Chung-Ming Chien, Manu Orsini, Eugene Kharitonov, Neil Zeghidour, Karen Livescu, Alexandre Défossez,
- Abstract要約: 非同期のフル音声モデルは、AI停止のフルタイムの対話性と自然な性質によって区別される。
本フレームワークは,外部情報における知識要求型対話クエリと接地応答の同定を可能にする。
本設計では,再学習を伴わないプラグ・アンド・プレイ検索手法をサポートし,アウト・オブ・ツー・ツー・ツー・ツー・ツー・ツー・ツー・ツー・ツー・ツー・ツー・ツー・ツー・ツー・ツー・ツー・ツー・ツー・ツー・ツー・ツー・ツー・ツー・ツー・ツー・ツー・ツー・ツー・ツー・ツー・ツー・ツー・ツー・ツー・ツー・ツー
- 参考スコア(独自算出の注目度): 62.05118198431989
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Speech-to-speech language models have recently emerged to enhance the naturalness of conversational AI. In particular, full-duplex models are distinguished by their real-time interactivity, including handling of pauses, interruptions, and backchannels. However, improving their factuality remains an open challenge. While scaling the model size could address this gap, it would make real-time inference prohibitively expensive. In this work, we propose MoshiRAG, a modular approach that combines a compact full-duplex interface with selective retrieval to access more powerful knowledge sources. Our asynchronous framework enables the model to identify knowledge-demanding queries and ground its responses in external information. By leveraging the natural temporal gap between response onset and the delivery of core information, the retrieval process can be completed while maintaining a natural conversation flow. With this approach, MoshiRAG achieves factuality comparable to the best publicly released non-duplex speech language models while preserving the interactivity inherent to full-duplex systems. Moreover, our flexible design supports plug-and-play retrieval methods without retraining and demonstrates strong performance on out-of-domain mathematical reasoning tasks.
- Abstract(参考訳): 音声音声言語モデルは、会話AIの自然性を高めるために最近登場した。
特に、フルダブルプレックスモデルは、停止、中断、バックチャネルの処理を含むリアルタイムの対話性によって区別される。
しかし、事実性を改善することは依然としてオープンな課題である。
モデルサイズをスケールすることでこのギャップに対処できるが、リアルタイム推論は極めて高価になる。
本研究では、より強力な知識ソースにアクセスするために、コンパクトなフル二重インタフェースと選択的検索を組み合わせたモジュラーアプローチであるMoshiRAGを提案する。
我々の非同期フレームワークは、モデルが知識要求クエリを識別し、その応答を外部情報に基盤付けることを可能にする。
応答開始とコア情報の配信の自然な時間的ギャップを生かして、自然な会話の流れを維持しながら検索処理を完了させることができる。
このアプローチにより、MoshiRAGは、全二重システムに固有の相互作用性を保ちながら、最も一般に公開されている非二重言語モデルに匹敵する事実性を達成する。
さらに, このフレキシブルな設計は, 再学習を伴わないプラグアンドプレイ検索手法をサポートし, 領域外の数学的推論タスクにおいて高い性能を示す。
関連論文リスト
- FLEXI: Benchmarking Full-duplex Human-LLM Speech Interaction [49.83226596963294]
音声とコンピュータの対話によりリアルタイム音声対話システムを実現する。
これらのモデルのモデリングとベンチマークは、依然として根本的な課題である。
フルヒューマン音声対話のための最初のベンチマークであるFLEXIを紹介する。
論文 参考訳(メタデータ) (2025-09-26T11:57:42Z) - KAME: Tandem Architecture for Enhancing Knowledge in Real-Time Speech-to-Speech Conversational AI [14.667102744113295]
リアルタイム音声合成(S2S)モデルは低レイテンシな会話応答を生成するのに優れているが、深い知識と意味理解が欠けていることが多い。
自動音声認識、テキストベース大規模言語モデル(LLM)、テキスト音声合成を組み合わせたCケースドシステムは、高いレイテンシを犠牲にして優れた知識表現を提供する。
本稿では,この2つのパラダイムのギャップを埋める新しいハイブリッドアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-09-26T00:46:34Z) - UniConv: Unifying Retrieval and Response Generation for Large Language Models in Conversations [71.79210031338464]
会話における大規模言語モデルに対する高密度検索と応答生成の統一方法を示す。
目的の異なる共同微調整を行い、不整合リスクを低減するための2つのメカニズムを設計する。
5つの対話型検索データセットの評価は、我々の統合モデルがタスクを相互に改善し、既存のベースラインより優れていることを示す。
論文 参考訳(メタデータ) (2025-07-09T17:02:40Z) - Full-Duplex-Bench: A Benchmark to Evaluate Full-duplex Spoken Dialogue Models on Turn-taking Capabilities [93.09944267871163]
FullDuplexBenchは、重要なインタラクティブな振る舞いを体系的に評価するベンチマークである。
ベンチマークコードを公開することによって、音声対話モデリングの進歩と、より自然で魅力的なSDMの開発を目指しています。
論文 参考訳(メタデータ) (2025-03-06T18:59:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。