論文の概要: ChipChat: Low-Latency Cascaded Conversational Agent in MLX
- arxiv url: http://arxiv.org/abs/2509.00078v1
- Date: Tue, 26 Aug 2025 20:40:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.056561
- Title: ChipChat: Low-Latency Cascaded Conversational Agent in MLX
- Title(参考訳): ChipChat:MLXの低レイテンシカスケード会話エージェント
- Authors: Tatiana Likhomanenko, Luke Carlson, Richard He Bai, Zijin Gu, Han Tran, Zakaria Aldeneh, Yizhe Zhang, Ruixiang Zhang, Huangjie Zheng, Navdeep Jaitly,
- Abstract要約: ChipChatは、アーキテクチャの革新とストリーミング最適化を通じて、従来のボトルネックを克服する、新しい低レイテンシCSである。
私たちの研究は、戦略的に再設計されたCSが、歴史的レイテンシの制限を克服し、実用的な音声ベースのAIエージェントにとって有望な道筋を提供することを示している。
- 参考スコア(独自算出の注目度): 34.30974874671028
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The emergence of large language models (LLMs) has transformed spoken dialog systems, yet the optimal architecture for real-time on-device voice agents remains an open question. While end-to-end approaches promise theoretical advantages, cascaded systems (CSs) continue to outperform them in language understanding tasks, despite being constrained by sequential processing latency. In this work, we introduce ChipChat, a novel low-latency CS that overcomes traditional bottlenecks through architectural innovations and streaming optimizations. Our system integrates streaming (a) conversational speech recognition with mixture-of-experts, (b) state-action augmented LLM, (c) text-to-speech synthesis, (d) neural vocoder, and (e) speaker modeling. Implemented using MLX, ChipChat achieves sub-second response latency on a Mac Studio without dedicated GPUs, while preserving user privacy through complete on-device processing. Our work shows that strategically redesigned CSs can overcome their historical latency limitations, offering a promising path forward for practical voice-based AI agents.
- Abstract(参考訳): 大規模言語モデル(LLM)の出現は音声対話システムに変化をもたらしたが、リアルタイムのオンデバイス音声エージェントに最適なアーキテクチャは未解決のままである。
エンドツーエンドのアプローチは理論上の利点を約束するが、カスケードシステム(CS)はシーケンシャルな処理遅延に制約されているにもかかわらず、言語理解タスクにおいてそれらを上回り続けている。
本稿では,アーキテクチャの革新とストリーミング最適化を通じて,従来のボトルネックを克服する,新しい低レイテンシCSであるChipChatを紹介する。
私たちのシステムはストリーミングを統合します
(a)エキスパートの混在による会話音声認識
b)ステートアクション強化LDM
(c)テキスト音声合成
(d)ニューラルボコーダ、及び
(e)話者モデリング。
MLXを使用して実装されたChipChatは、専用のGPUを使わずにMac Studioで秒未満のレスポンスレイテンシを実現すると同時に、デバイス上の完全な処理を通じてユーザのプライバシを保存する。
私たちの研究は、戦略的に再設計されたCSが、歴史的レイテンシの制限を克服し、実用的な音声ベースのAIエージェントにとって有望な道筋を提供することを示している。
関連論文リスト
- PredGen: Accelerated Inference of Large Language Models through Input-Time Speculation for Real-Time Speech Interaction [29.64357898080842]
大規模言語モデル(LLM)は、音声応答を生成するためのテキスト音声合成(TTS)システムと組み合わせたリアルタイム音声チャットアプリケーションで広く使われている。
その大きなサイズは、しばしばユーザ入力の終端からオーディオ出力の開始までの顕著なレイテンシをもたらす。
予測生成(PredGen)は,入力時の投機的復号化による遅延を軽減あるいは解消する新しいフレームワークである。
論文 参考訳(メタデータ) (2025-06-18T15:29:02Z) - StreamMel: Real-Time Zero-shot Text-to-Speech via Interleaved Continuous Autoregressive Modeling [50.537794606598254]
StreamMelは、継続的メル-スペクトログラムをモデル化する、先駆的なシングルステージストリーミングTSフレームワークである。
高い話者類似性と自然性を保ちながら、低レイテンシで自己回帰的な合成を可能にする。
オフラインシステムに匹敵するパフォーマンスを実現し、効率的なリアルタイム生成もサポートしている。
論文 参考訳(メタデータ) (2025-06-14T16:53:39Z) - SpeakStream: Streaming Text-to-Speech with Interleaved Data [11.131427505801062]
本稿では,デコーダのみのアーキテクチャを用いて,ストリーミングテキストからインクリメンタルに音声を生成するストリーミングTSシステムであるSpeakStreamを紹介する。
推論中、SpeakStreamはストリーミング入力テキストを吸収しながら音声を漸進的に生成する。
実験の結果,SpeakStream は非ストリーミング TTS システムの品質を維持しつつ,最先端のレイテンシを実現することができた。
論文 参考訳(メタデータ) (2025-05-25T16:11:10Z) - Streaming Video Understanding and Multi-round Interaction with Memory-enhanced Knowledge [57.01131456894516]
現在のビデオ理解モデルは、長いビデオシーケンスの処理、マルチターン対話のサポート、現実の動的シナリオへの適応に苦労している。
本稿では,ストリーミングビデオ推論と対話インタラクションのためのトレーニング不要フレームワークStreamChatを提案する。
我々のフレームワークは並列システムスケジューリング戦略を取り入れており、処理速度を向上し、レイテンシを低減し、現実世界のアプリケーションで堅牢な性能を保証する。
論文 参考訳(メタデータ) (2025-01-23T08:33:10Z) - Large Generative Model-assisted Talking-face Semantic Communication System [55.42631520122753]
本研究では,LGM-TSC(Large Generative Model-assisted Talking-face Semantic Communication)システムを提案する。
送信機のジェネレーティブセマンティック・エクストラクタ(GSE)は、意味的にスパースな音声映像を高情報密度のテキストに変換する。
意味的曖昧さと修正のためのLarge Language Model (LLM)に基づくPrivate Knowledge Base (KB)。
BERT-VITS2とSadTalkerモデルを用いた生成意味再構成(GSR)により、テキストを高QoE音声ビデオに変換する。
論文 参考訳(メタデータ) (2024-11-06T12:45:46Z) - Enhancing Temporal Understanding in Audio Question Answering for Large Audio Language Models [0.9285295512807729]
AQA(Audio Question Answering)タスクには、オーディオイベント分類、オーディオキャプション、オープンエンド推論が含まれる。
LALMは一般的な音声理解では優れているが、時間的推論では限られている。
本稿では,音声時間的推論におけるこれらの課題と限界について述べる。
論文 参考訳(メタデータ) (2024-09-10T05:26:53Z) - Language Model Can Listen While Speaking [17.584201137311286]
聴取時言語モデル (LSLM) は、聴取チャネルと発声チャネルの両方を備えたエンドツーエンドシステムである。
本研究は,既存のシステムに最小限の影響を伴って,重複通信を実現するLSLMの能力を強調した。
論文 参考訳(メタデータ) (2024-08-05T16:47:22Z) - SpeechGen: Unlocking the Generative Power of Speech Language Models with
Prompts [108.04306136086807]
本稿では,SpeechGenと呼ばれる統合フレームワークを用いて,各種タスクの音声LMを刺激するための即時チューニングの適用について検討する。
提案した統合フレームワークは効率と有効性に大きな可能性を秘めている。
論文 参考訳(メタデータ) (2023-06-03T22:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。