論文の概要: F-Actor: Controllable Conversational Behaviour in Full-Duplex Models
- arxiv url: http://arxiv.org/abs/2601.11329v1
- Date: Fri, 16 Jan 2026 14:25:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-19 20:21:50.5225
- Title: F-Actor: Controllable Conversational Behaviour in Full-Duplex Models
- Title(参考訳): F-アクター:全二重モデルにおける制御可能な会話行動
- Authors: Maike Züfle, Ondrej Klejch, Nicholas Sanders, Jan Niehues, Alexandra Birch, Tsz Kin Lam,
- Abstract要約: 典型的な学術的制約下で効率的に訓練できる,第1にオープンかつ命令追従型全段階会話音声モデルを提案する。
我々のモデルは、大規模な事前訓練や多段階事前訓練に頼ることなく、わずか2000時間のデータしか必要としない。
モデルとトレーニングコードの両方がリリースされ、制御可能なフルステージ音声システムに関する再現可能な研究が可能になる。
- 参考スコア(独自算出の注目度): 70.48189107402145
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spoken conversational systems require more than accurate speech generation to have human-like conversations: to feel natural and engaging, they must produce conversational behaviour that adapts dynamically to the context. Current spoken conversational systems, however, rarely allow such customization, limiting their naturalness and usability. In this work, we present the first open, instruction-following full-duplex conversational speech model that can be trained efficiently under typical academic resource constraints. By keeping the audio encoder frozen and finetuning only the language model, our model requires just 2,000 hours of data, without relying on large-scale pretraining or multi-stage optimization. The model can follow explicit instructions to control speaker voice, conversation topic, conversational behaviour (e.g., backchanneling and interruptions), and dialogue initiation. We propose a single-stage training protocol and systematically analyze design choices. Both the model and training code will be released to enable reproducible research on controllable full-duplex speech systems.
- Abstract(参考訳): 音声対話システムは、人間のような会話を行うために、正確な音声生成以上のものを必要としている: 自然に感じ、エンゲージメントするためには、文脈に動的に適応する会話行動を生成する必要がある。
しかし、現在の会話システムはそのようなカスタマイズをほとんど許さず、自然性やユーザビリティを制限している。
本研究では,典型的な学術的制約の下で効率的に学習できる,オープンかつ命令追従型全二重音声モデルを提案する。
音声エンコーダを凍結させ、言語モデルのみを微調整することにより、大規模な事前学習やマルチステージ最適化に頼ることなく、2000時間分のデータしか必要としない。
モデルは、話者の声、会話トピック、会話行動(例えば、バックチャネルや中断)、対話開始を制御するための明示的な指示に従うことができる。
単段階学習プロトコルを提案し,設計選択を体系的に分析する。
モデルとトレーニングコードの両方がリリースされ、制御可能な全二重音声システムに関する再現可能な研究が可能になる。
関連論文リスト
- DiscussLLM: Teaching Large Language Models When to Speak [9.441455921296301]
LLM(Large Language Models)は、人間に似たテキストの理解と生成において顕著な能力を示した。
トレーニングモデルによってこのギャップを埋めるために設計されたフレームワークである$textitDiscussLLM$を紹介します。
論文 参考訳(メタデータ) (2025-08-25T16:16:42Z) - Think Before You Talk: Enhancing Meaningful Dialogue Generation in Full-Duplex Speech Language Models with Planning-Inspired Text Guidance [47.2016265294791]
FD-SLM(Full-Duplex Speech Language Models)は、人間のような対話のためのニュアンスな2話者対話パターンをキャプチャする。
会話能力は、純粋なテキスト会話に比べて劣化することが多い。
そこで我々は,人間の会話計画を模倣する新しいプランニング・インスパイアされたアプローチであるTurnGuideを提案する。
論文 参考訳(メタデータ) (2025-08-10T14:49:43Z) - Chain-of-Thought Training for Open E2E Spoken Dialogue Systems [57.77235760292348]
エンド・ツー・エンド(E2E)音声対話システムは完全な識別性を保ち、非音声情報をキャプチャする。
我々は,多モーダル言語モデルと密接に一致した会話データによる学習を確実にするためのチェーン・オブ・シント(CoT)の定式化を提案する。
提案手法はベースラインよりも1.5ROUGE-1の改善を実現し,一般公開された人間と人間の会話データセット上で音声対話システムの訓練に成功している。
論文 参考訳(メタデータ) (2025-05-31T21:43:37Z) - WavChat: A Survey of Spoken Dialogue Models [66.82775211793547]
GPT-4oのようなシステムで実証された音声対話モデルの最近の進歩は、音声領域において大きな注目を集めている。
これらの高度な音声対話モデルは、音声、音楽、その他の音声関連の特徴を理解するだけでなく、音声のスタイリスティックな特徴や音節的な特徴も捉える。
音声対話システムの進歩にもかかわらず、これらのシステムを体系的に組織化し分析する包括的調査が欠如している。
論文 参考訳(メタデータ) (2024-11-15T04:16:45Z) - OmniFlatten: An End-to-end GPT Model for Seamless Voice Conversation [53.7173034249361]
エンド・ツー・エンドのGPTベースモデルであるOmniFlattenは、低レイテンシで自然な会話に固有の複雑な振る舞いを効果的にモデル化することができる。
提案手法は, 簡便なモデリング手法と, より効率的かつ自然な対話システムを構築するための研究の方向性を提供する。
論文 参考訳(メタデータ) (2024-10-23T11:58:58Z) - Pheme: Efficient and Conversational Speech Generation [52.34331755341856]
我々は,コンパクトだが高性能な会話型TSモデルを提供するPhemeモデルシリーズを紹介する。
小規模の会話データで効率的にトレーニングでき、データ要求を10倍に削減できるが、自動回帰的TSモデルの品質にマッチする。
論文 参考訳(メタデータ) (2024-01-05T14:47:20Z) - The Adapter-Bot: All-In-One Controllable Conversational Model [66.48164003532484]
本稿では、DialGPTなどの固定バックボーンモデルを用いて、異なるアダプタを介してオンデマンド対話スキルをトリガーする対話モデルを提案する。
スキルに応じて、モデルはテキスト、テーブル、強調応答などの複数の知識タイプを処理できる。
我々は,既存の会話モデルと比較し,自動評価を用いたモデルの評価を行った。
論文 参考訳(メタデータ) (2020-08-28T10:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。