論文の概要: CleanS2S: Single-file Framework for Proactive Speech-to-Speech Interaction
- arxiv url: http://arxiv.org/abs/2506.01268v1
- Date: Mon, 02 Jun 2025 02:40:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.016593
- Title: CleanS2S: Single-file Framework for Proactive Speech-to-Speech Interaction
- Title(参考訳): CleanS2S: 音声と音声の対話のための単一ファイルフレームワーク
- Authors: Yudong Lu, Yazhe Niu, Shuai Hu, Haolin Wang,
- Abstract要約: CleanS2Sは、会話型AIの単一ファイル実装とプロアクティブ対話機能を進化させる、ヒューマンライクな音声インタラクションフレームワークである。
本システムは,音声認識言語モデルとテキスト音声合成を,リアルタイムな中断を伴う統合パイプラインに統合する。
- 参考スコア(独自算出の注目度): 2.854461601795248
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: CleanS2S is a framework for human-like speech-to-speech interaction that advances conversational AI through single-file implementation and proactive dialogue capabilities. Our system integrates automatic speech recognition, large language models, and text-to-speech synthesis into a unified pipeline with real-time interruption handling, achieving low transition latency through full-duplex websocket connections and non-blocking I/O. Beyond conventional chatbot paradigms, we pioneer a proactive interaction mechanism, which combines memory systems with Subjective Action Judgement module, enabling five human-like response strategies: interruption, refusal, deflection, silence, and standard response. The memory module dynamically aggregates historical, and contextual data to inform interaction decisions. This approach breaks the rigid turn-based convention by allowing system-initiated dialog control and context-aware response selection. And we propose Action Judgement SFT that assesses input streams for responses strategies. The framework's single-file implementation with atomic configurations offers researchers unprecedented transparency and extensibility for interaction agents. The code of CleanS2S is released at \https://github.com/opendilab/CleanS2S.
- Abstract(参考訳): CleanS2Sは、音声と音声の対話のためのフレームワークで、単一のファイルの実装とプロアクティブな対話機能を通じて会話AIを進化させる。
本システムでは,自動音声認識,大規模言語モデル,テキスト音声合成を,実時間割り込み処理を備えた統合パイプラインに統合し,全二重Webソケット接続とノンブロッキングI/Oによる低遷移レイテンシを実現する。
従来のチャットボットのパラダイム以外にも、メモリシステムと主観的行動判断モジュールを組み合わせ、割り込み、拒否、偏向、沈黙、標準応答の5つの人間的な応答戦略を可能にするプロアクティブなインタラクションメカニズムを開拓した。
メモリモジュールは、歴史的、文脈的なデータを動的に集約し、インタラクションの決定を通知する。
このアプローチは、システム初期化ダイアログ制御とコンテキスト対応応答選択を可能にすることによって、厳格なターンベースの規約を破る。
また,応答戦略の入力ストリームを評価する行動判断SFTを提案する。
このフレームワークのアトミックな構成による単一ファイルの実装は、研究者に前例のない透明性と対話エージェントの拡張性を提供する。
CleanS2Sのコードはhttps://github.com/opendilab/CleanS2Sで公開されている。
関連論文リスト
- A Multi-view Discourse Framework for Integrating Semantic and Syntactic Features in Dialog Agents [0.0]
マルチターン対話モデルは,会話の文脈を利用して人間的な応答を生成することを目的としている。
既存の手法はしばしばこれらの発話間の相互作用を無視したり、それら全てを等しく重要なものとして扱う。
本稿では,検索に基づく対話システムにおける応答選択のための談話認識フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-12T04:22:18Z) - Full-Duplex-Bench: A Benchmark to Evaluate Full-duplex Spoken Dialogue Models on Turn-taking Capabilities [93.09944267871163]
FullDuplexBenchは、重要な会話動作を体系的に評価するベンチマークである。
音声対話のモデリングを推進し、よりインタラクティブで自然な対話システムの開発を促進することを目的としている。
論文 参考訳(メタデータ) (2025-03-06T18:59:16Z) - Dispider: Enabling Video LLMs with Active Real-Time Interaction via Disentangled Perception, Decision, and Reaction [81.34648970317383]
本稿では,知覚,決定,反応を両立させるシステムであるDispiderを紹介する。
実験により、Dispiderは従来のビデオQAタスクにおいて高いパフォーマンスを維持しているだけでなく、ストリーミングシナリオ応答における従来のオンラインモデルを大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2025-01-06T18:55:10Z) - OmniFlatten: An End-to-end GPT Model for Seamless Voice Conversation [53.7173034249361]
エンド・ツー・エンドのGPTベースモデルであるOmniFlattenは、低レイテンシで自然な会話に固有の複雑な振る舞いを効果的にモデル化することができる。
提案手法は, 簡便なモデリング手法と, より効率的かつ自然な対話システムを構築するための研究の方向性を提供する。
論文 参考訳(メタデータ) (2024-10-23T11:58:58Z) - Moshi: a speech-text foundation model for real-time dialogue [78.88479749811376]
現在の音声対話システムは、パイプラインの独立した音声活動検出と音声合成に依存している。
そこで本研究では,Moshi Moshiが音声認識と音声合成を実現する方法を紹介する。
得られたモデルは、初めてリアルタイムな全音声大言語モデルモダリティである。
論文 参考訳(メタデータ) (2024-09-17T17:55:39Z) - Style-Talker: Finetuning Audio Language Model and Style-Based Text-to-Speech Model for Fast Spoken Dialogue Generation [16.724603503894166]
Style-Talkerは、高速音声ダイアログ生成のためのスタイルベースのTSモデルとともに、オーディオLLMを微調整する革新的なフレームワークである。
実験の結果,Style-Talkerは対話の自然さとコヒーレンスの両方の観点から,従来のカスケードと音声音声のベースラインを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2024-08-13T04:35:11Z) - A Non-autoregressive Generation Framework for End-to-End Simultaneous Speech-to-Speech Translation [48.84039953531355]
同時音声翻訳のための新しい非自己回帰生成フレームワーク(NAST-S2X)を提案する。
NAST-S2Xは、音声テキストと音声音声タスクを統合エンドツーエンドフレームワークに統合する。
3秒未満の遅延で高品質な同時解釈を実現し、オフライン生成において28倍のデコードスピードアップを提供する。
論文 参考訳(メタデータ) (2024-06-11T04:25:48Z) - Turn-Taking Prediction for Natural Conversational Speech [40.189938418201656]
一般的な会話的発話は、ターンテイクを伴う複数のクエリを含むことが多い。
障害としては、思考の一時停止、ためらうこと、単語の延長、ポーズの充満、繰り返し句などがある。
本稿では,エンド・ツー・エンド(E2E)音声認識器上に構築されたターンテイク予測器を提案する。
論文 参考訳(メタデータ) (2022-08-29T01:09:23Z) - An Approach to Inference-Driven Dialogue Management within a Social
Chatbot [10.760026478889667]
会話を一連の応答生成タスクとしてフレーミングする代わりに、会話を協調推論プロセスとしてモデル化する。
私たちのパイプラインは、このモデリングを3つの幅広い段階で達成します。
このアプローチは、ユーザ入力の潜在意味論、フレキシブルなイニシアティブの取り方、対話コンテキストに新しく一貫性のある応答を理解するのに役立ちます。
論文 参考訳(メタデータ) (2021-10-31T19:01:07Z) - Smoothing Dialogue States for Open Conversational Machine Reading [70.83783364292438]
本稿では,2つの対話状態を1つのデコーダとブリッジ決定と質問生成でスムーズにすることで,効果的なゲーティング戦略を提案する。
OR-ShARCデータセットを用いた実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2021-08-28T08:04:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。