論文の概要: Unit-Based Agent for Semi-Cascaded Full-Duplex Dialogue Systems
- arxiv url: http://arxiv.org/abs/2601.20230v1
- Date: Wed, 28 Jan 2026 04:00:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.761976
- Title: Unit-Based Agent for Semi-Cascaded Full-Duplex Dialogue Systems
- Title(参考訳): 半二重対話システムのための単位ベースエージェント
- Authors: Haoyuan Yu, Yuxuan Chen, Minjie Cai,
- Abstract要約: 全音声インタラクションは、人間のコンピュータインタラクションのプロセスである。
このフレームワークは、複雑な対話を最小の会話単位に合成する。
システムは、列車なしのプラグプレイ方式で動作する。
- 参考スコア(独自算出の注目度): 17.54500572999039
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Full-duplex voice interaction is crucial for natural human computer interaction. We present a framework that decomposes complex dialogue into minimal conversational units, enabling the system to process each unit independently and predict when to transit to the next. This framework is instantiated as a semi-cascaded full-duplex dialogue system built around a multimodal large language model, supported by auxiliary modules such as voice activity detection (VAD) and text-to-speech (TTS) synthesis. The resulting system operates in a train-free, plug-and-play manner. Experiments on the HumDial dataset demonstrate the effectiveness of our framework, which ranks second among all teams on the test set of the Human-like Spoken Dialogue Systems Challenge (Track 2: Full-Duplex Interaction). Code is available at the GitHub repository https://github.com/yu-haoyuan/fd-badcat.
- Abstract(参考訳): 全二重音声インタラクションは、人間の自然なコンピュータインタラクションに不可欠である。
本稿では,複雑な対話を最小限の会話単位に分解するフレームワークを提案する。
このフレームワークは,音声活動検出 (VAD) やテキスト音声合成 (TTS) などの補助モジュールによってサポートされた,多モーダルな大言語モデルを中心に構築された半二重対話システムとしてインスタンス化されている。
結果として得られるシステムは、列車のないプラグアンドプレイ方式で動作する。
HumDialデータセットの実験では、Human-like Spoken Dialogue Systems Challenge (Track 2: Full-Duplex Interaction)のテストセットにおいて、我々のフレームワークの有効性が示されています。
コードはGitHubリポジトリhttps://github.com/yu-haoyuan/fd-badcatで入手できる。
関連論文リスト
- F-Actor: Controllable Conversational Behaviour in Full-Duplex Models [70.48189107402145]
典型的な学術的制約下で効率的に訓練できる,第1にオープンかつ命令追従型全段階会話音声モデルを提案する。
我々のモデルは、大規模な事前訓練や多段階事前訓練に頼ることなく、わずか2000時間のデータしか必要としない。
モデルとトレーニングコードの両方がリリースされ、制御可能なフルステージ音声システムに関する再現可能な研究が可能になる。
論文 参考訳(メタデータ) (2026-01-16T14:25:57Z) - SDialog: A Python Toolkit for End-to-End Agent Building, User Simulation, Dialog Generation, and Evaluation [19.007557608856565]
SDialogはMITライセンスのオープンソースのPythonツールキットで、会話エージェントの構築と分析を行う。
ダイアログ生成、評価、機械的解釈可能性を単一のエンドツーエンドフレームワークに統合する。
ダイアログ中心アーキテクチャにおける生成、評価、解釈可能性の結合により、SDialogは研究者がより系統的に会話システムを構築し、ベンチマークし、理解することができる。
論文 参考訳(メタデータ) (2025-12-09T21:42:41Z) - Full-Duplex-Bench: A Benchmark to Evaluate Full-duplex Spoken Dialogue Models on Turn-taking Capabilities [93.09944267871163]
FullDuplexBenchは、重要なインタラクティブな振る舞いを体系的に評価するベンチマークである。
ベンチマークコードを公開することによって、音声対話モデリングの進歩と、より自然で魅力的なSDMの開発を目指しています。
論文 参考訳(メタデータ) (2025-03-06T18:59:16Z) - OmniFlatten: An End-to-end GPT Model for Seamless Voice Conversation [53.7173034249361]
エンド・ツー・エンドのGPTベースモデルであるOmniFlattenは、低レイテンシで自然な会話に固有の複雑な振る舞いを効果的にモデル化することができる。
提案手法は, 簡便なモデリング手法と, より効率的かつ自然な対話システムを構築するための研究の方向性を提供する。
論文 参考訳(メタデータ) (2024-10-23T11:58:58Z) - ChatPLUG: Open-Domain Generative Dialogue System with Internet-Augmented
Instruction Tuning for Digital Human [76.62897301298699]
ChatPLUGは、デジタルヒューマンアプリケーションのための中国のオープンドメイン対話システムである。
モデルネームは, 自動評価と人的評価の両方において, 最先端の中国語対話システムより優れていることを示す。
高速な推論でスマートスピーカーやインスタントメッセージアプリケーションのような実世界のアプリケーションにモデルネームをデプロイします。
論文 参考訳(メタデータ) (2023-04-16T18:16:35Z) - Fusing task-oriented and open-domain dialogues in conversational agents [12.338220374261343]
2つの対話モードは、友好的な人間のアシスタントが簡単に行うように、同じ会話でシームレスに連携することができる。
本稿では,マルチターン対話におけるTODとODDの融合の問題に対処する。
すなわち、対話は2つのモードから切り替わる。
論文 参考訳(メタデータ) (2021-09-09T09:48:26Z) - Unsupervised Abstractive Dialogue Summarization for Tete-a-Tetes [49.901984490961624]
テテ-ア-テト(SuTaT)のための非教師なし抽象的対話要約モデルを提案する。
SuTaTは条件付き生成モジュールと2つの教師なし要約モジュールからなる。
実験の結果,SuTaTは自動評価と人的評価の両方において教師なし対話要約よりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-09-15T03:27:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。