論文の概要: ConvFill: Model Collaboration for Responsive Conversational Voice Agents
- arxiv url: http://arxiv.org/abs/2511.07397v1
- Date: Mon, 10 Nov 2025 18:50:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.422518
- Title: ConvFill: Model Collaboration for Responsive Conversational Voice Agents
- Title(参考訳): ConvFill: 対話型音声エージェントのためのモデルコラボレーション
- Authors: Vidya Srinivas, Zachary Englhardt, Maximus Powers, Shwetak Patel, Vikram Iyer,
- Abstract要約: 本稿では,パワフルなバックエンドモデルからストリーミング知識をシームレスに取り入れつつ,軽量なオンデバイスモデルがコンテキスト的に適切な対話を生成するタスクである対話型インフィルを提案する。
合成多領域会話に基づく360MパラメータモデルであるConvFillを提案する。
ConvFillは,200ms以下の応答待ち時間を維持しつつ,同一サイズのスタンドアロンの小型モデルに対して36~42%の精度向上を実現している。
- 参考スコア(独自算出の注目度): 6.166061057506208
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deploying conversational voice agents with large language models faces a critical challenge: cloud-based foundation models provide deep reasoning and domain knowledge but introduce latency that disrupts natural conversation, while on-device models respond immediately but lack sophistication. We propose conversational infill, a task where a lightweight on-device model generates contextually appropriate dialogue while seamlessly incorporating streaming knowledge from a powerful backend model. This approach decouples response latency from model capability, enabling systems that feel responsive while accessing the full power of large-scale models. We present ConvFill, a 360M parameter model trained on synthetic multi-domain conversations. Evaluation across multiple backend models shows that conversational infill can be successfully learned, with ConvFill achieving accuracy improvements of 36-42% over standalone small models of the same size while consistently retaining sub-200ms response latencies. Our results demonstrate the promise of this approach for building on-device conversational agents that are both immediately responsive and knowledgeable.
- Abstract(参考訳): クラウドベースのファンデーションモデルは深い推論とドメイン知識を提供するが、自然な会話を妨害するレイテンシを導入する。
本稿では,強力なバックエンドモデルからストリーミング知識をシームレスに取り入れつつ,軽量なオンデバイスモデルがコンテキスト的に適切な対話を生成するタスクである会話入力を提案する。
このアプローチは、応答遅延をモデル能力から切り離し、大規模モデルのフルパワーにアクセスしている間に応答性を感じるシステムを可能にする。
合成多領域会話に基づく360MパラメータモデルであるConvFillを提案する。
ConvFillは、200ms以下の応答待ち時間を維持しながら、同じサイズのスタンドアロンの小さなモデルに対して、36~42%の精度向上を実現している。
本研究は,デバイス上での対話エージェント構築において,応答性と知識の両面において,このアプローチの可能性を実証するものである。
関連論文リスト
- DiscussLLM: Teaching Large Language Models When to Speak [9.441455921296301]
LLM(Large Language Models)は、人間に似たテキストの理解と生成において顕著な能力を示した。
トレーニングモデルによってこのギャップを埋めるために設計されたフレームワークである$textitDiscussLLM$を紹介します。
論文 参考訳(メタデータ) (2025-08-25T16:16:42Z) - Vision-Speech Models: Teaching Speech Models to Converse about Images [67.62394024470528]
我々は、MoshiVisを導入し、最近の対話音声LLM、Moshiを軽量適応モジュールを通して視覚的に入力する。
追加の動的ゲーティング機構により、モデルが視覚的な入力と無関係な会話トピックをより簡単に切り替えることができる。
音声とテキストの両方のプロンプトを用いて下流視覚理解タスクのモデルを評価し,MoshiVisとのインタラクションの質的なサンプルを報告する。
論文 参考訳(メタデータ) (2025-03-19T18:40:45Z) - Full-Duplex-Bench: A Benchmark to Evaluate Full-duplex Spoken Dialogue Models on Turn-taking Capabilities [93.09944267871163]
FullDuplexBenchは、重要なインタラクティブな振る舞いを体系的に評価するベンチマークである。
ベンチマークコードを公開することによって、音声対話モデリングの進歩と、より自然で魅力的なSDMの開発を目指しています。
論文 参考訳(メタデータ) (2025-03-06T18:59:16Z) - Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming [0.0]
ミニオムニ(Mini-Omni)は、リアルタイム音声対話が可能な音声ベースのエンドツーエンド会話モデルである。
そこで本研究では,テキストによる音声生成手法と,推論中のバッチ並列戦略を併用して,性能を向上させる手法を提案する。
また、最適化音声出力のための微調整モデルにVoiceAssistant-400Kデータセットを導入する。
論文 参考訳(メタデータ) (2024-08-29T17:18:53Z) - Pheme: Efficient and Conversational Speech Generation [52.34331755341856]
我々は,コンパクトだが高性能な会話型TSモデルを提供するPhemeモデルシリーズを紹介する。
小規模の会話データで効率的にトレーニングでき、データ要求を10倍に削減できるが、自動回帰的TSモデルの品質にマッチする。
論文 参考訳(メタデータ) (2024-01-05T14:47:20Z) - Improving a sequence-to-sequence nlp model using a reinforcement
learning policy algorithm [0.0]
対話生成の現在のニューラルネットワークモデルは、おしゃべりエージェントの回答を生成する上で非常に有望である。
しかし、彼らは発話を1度ずつ予測し、将来の結果に対する彼らの影響を無視している。
本研究は,対話の長期的成功に基づくニューラルな会話モデル構築に向けた予備的なステップを記念するものである。
論文 参考訳(メタデータ) (2022-12-28T22:46:57Z) - GODEL: Large-Scale Pre-Training for Goal-Directed Dialog [119.1397031992088]
ダイアログのための大規模事前学習言語モデルであるGODELを紹介する。
GODELは、数ショットの微調整設定で、最先端の事前訓練ダイアログモデルより優れていることを示す。
評価手法の新たな特徴は,応答の有用性を評価するユーティリティの概念の導入である。
論文 参考訳(メタデータ) (2022-06-22T18:19:32Z) - Plug-and-Play Conversational Models [62.77150879036442]
我々はデコード時にさらなる計算を必要としないアプローチを導入し、また大きな言語モデルの微調整も必要としない。
我々は、広範囲な自動的・人的評価を通じて、複数の望ましい属性について、生成した会話応答に対する高い制御を実証する。
論文 参考訳(メタデータ) (2020-10-09T03:17:51Z) - The Adapter-Bot: All-In-One Controllable Conversational Model [66.48164003532484]
本稿では、DialGPTなどの固定バックボーンモデルを用いて、異なるアダプタを介してオンデマンド対話スキルをトリガーする対話モデルを提案する。
スキルに応じて、モデルはテキスト、テーブル、強調応答などの複数の知識タイプを処理できる。
我々は,既存の会話モデルと比較し,自動評価を用いたモデルの評価を行った。
論文 参考訳(メタデータ) (2020-08-28T10:59:31Z) - Speaker Sensitive Response Evaluation Model [17.381658875470638]
本稿では,生成した応答と会話コンテキストとの類似性に基づく自動評価モデルを提案する。
ラベルのない会話コーパスからモデルパラメータを学習する。
我々のモデルは、追加の訓練なしに映画対話に適用できることが示される。
論文 参考訳(メタデータ) (2020-06-12T08:59:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。