論文の概要: SALMONN-omni: A Standalone Speech LLM without Codec Injection for Full-duplex Conversation
- arxiv url: http://arxiv.org/abs/2505.17060v1
- Date: Sat, 17 May 2025 08:13:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.511904
- Title: SALMONN-omni: A Standalone Speech LLM without Codec Injection for Full-duplex Conversation
- Title(参考訳): SALMONN-Omni:全二重会話のためのコーデック注入のないスタンドアローン音声LLM
- Authors: Wenyi Yu, Siyin Wang, Xiaoyu Yang, Xianzhao Chen, Xiaohai Tian, Jun Zhang, Guangzhi Sun, Lu Lu, Yuxuan Wang, Chao Zhang,
- Abstract要約: SALMON-N-omniは、トークン遷移バックボーンなしで動作する最初の単独のフルバイト音声LLMである。
LLMバックボーン内に新しい動的思考機構が備わっており、講演と聴取の間にモデルを学習することができる。
SALMON-N-Omniは、ターンテイキング、バックチャネルエコーキャンセル、コンテキスト依存バージェインなど、複雑な会話シナリオで強いパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 17.56310064245171
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In order to enable fluid and natural human-machine speech interaction, existing full-duplex conversational systems often adopt modular architectures with auxiliary components such as voice activity detectors, interrupters, conversation state predictors, or multiple LLMs. These systems, however, suffer from error accumulation across modules and struggle with key challenges such as context-dependent barge-in and echo cancellation. Recent approaches, most notably Moshi, simplify the pipeline by injecting audio codecs into the token space of a single LLM. However, such methods still incur significant performance degradation when operating on the speech rather than text modality. In this paper, we introduce SALMONN-omni, the first single, standalone full-duplex speech LLM that operates without audio codecs in its token space. It features a novel dynamic thinking mechanism within the LLM backbone, enabling the model to learn when to transition between speaking and listening states. Experiments on widely used benchmarks for spoken question answering and open-domain dialogue show that SALMONN-omni achieves at least 30\% relative performance improvement over existing open-source full-duplex models and performs highly competitively to half-duplex and turn-based systems, despite using substantially less training data. Moreover, SALMONN-omni demonstrates strong performance in complex conversational scenarios, including turn-taking, backchanneling, echo cancellation and context-dependent barge-in, with further improvements achieved through reinforcement learning. Some demo conversations between user and SALMONN-omni are provided in the following repository https://github.com/bytedance/SALMONN.
- Abstract(参考訳): 流体と自然な人間と機械の音声の相互作用を可能にするために、既存の全二重会話システムは、音声活動検出器、割り込み器、会話状態予測器、または複数のLLMなどの補助的なコンポーネントを持つモジュラーアーキテクチャを採用することが多い。
しかし、これらのシステムはモジュール間のエラー蓄積に悩まされ、コンテキスト依存のバージインやエコーキャンセルといった重要な課題に悩まされる。
最近のアプローチ、特にMoshiは、単一のLLMのトークン空間にオーディオコーデックを注入することでパイプラインを単純化している。
しかし, テキストのモダリティよりも音声操作において, 高い性能低下がみられた。
本稿では,SALMONN-Omniについて紹介する。SALMONN-Omniはトークン空間で音声コーデックを使わずに動作する,単独で独立なフル二重音声LLMである。
LLMバックボーン内に新しい動的思考機構があり、モデルが話す状態と聴く状態の遷移をいつ学習するかを学ぶことができる。
SALMONN-Omniは、既存のオープンソースフルダブルプレックスモデルよりも少なくとも30%以上の性能向上を実現し、トレーニングデータが少ないにもかかわらず、半二重およびターンベースシステムと高い競争力を発揮することを示す。
さらに、SALMONN-Omniは、ターンテイキング、バックチャネル、エコーキャンセル、コンテキスト依存のバージインなどの複雑な会話シナリオで高いパフォーマンスを示し、強化学習によってさらに改善される。
ユーザとSALMONN-omni間のデモ会話は、以下のリポジトリで提供されている。
関連論文リスト
- Teaching Audio-Aware Large Language Models What Does Not Hear: Mitigating Hallucinations through Synthesized Negative Samples [55.2480439325792]
近年の音声対応大型言語モデル(ALLM)により、音声入力の処理と理解が可能になった。
これらのモデルは、しばしば既存の音響イベントを幻覚させ、現実の応用における信頼性を低下させる。
LISTENは、現在と欠落した音を識別するallMsの能力を向上するコントラスト的な訓練法である。
論文 参考訳(メタデータ) (2025-05-20T15:44:01Z) - LLMVoX: Autoregressive Streaming Text-to-Speech Model for Any LLM [35.443850239910866]
本稿では、低レイテンシで高品質な音声を生成する軽量で自己回帰型ストリーミングTSシステムを提案する。
提案手法は,音声対応LLMに比べて単語誤り率を著しく低くし,レイテンシとUTMOSスコアに匹敵する操作を行う。
論文 参考訳(メタデータ) (2025-03-06T18:59:38Z) - SALMONN-omni: A Codec-free LLM for Full-duplex Speech Understanding and Generation [17.56310064245171]
SALMON-Omni(サルモン・オムニ)は、発話中に発声した音声を同時に聴くことができる音声理解・生成モデルである。
SALMON-Omniは、ターンテイキング、バージイン、エコーキャンセルのシナリオの管理に長けており、完全な対話型AIシステムの堅牢なプロトタイプとしての可能性を確立している。
論文 参考訳(メタデータ) (2024-11-27T08:38:57Z) - OmniFlatten: An End-to-end GPT Model for Seamless Voice Conversation [53.7173034249361]
エンド・ツー・エンドのGPTベースモデルであるOmniFlattenは、低レイテンシで自然な会話に固有の複雑な振る舞いを効果的にモデル化することができる。
提案手法は, 簡便なモデリング手法と, より効率的かつ自然な対話システムを構築するための研究の方向性を提供する。
論文 参考訳(メタデータ) (2024-10-23T11:58:58Z) - VoiceTextBlender: Augmenting Large Language Models with Speech Capabilities via Single-Stage Joint Speech-Text Supervised Fine-Tuning [64.56272011710735]
大規模言語モデル(LLM)のバックボーンの低ランク適応(LoRA)に対して,新しい単一段階共同音声テキストSFTアプローチを提案する。
従来のSpeechLMの7Bまたは13Bパラメータと比較すると,我々の3Bモデルは様々な音声ベンチマークにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-23T00:36:06Z) - Large Language Model Can Transcribe Speech in Multi-Talker Scenarios with Versatile Instructions [68.98811048970963]
我々は,多話者環境における音声の書き起こしにおける大規模言語モデル(LLM)の能力について,先駆的な研究を行う。
We use WavLM and Whisper encoder to extract multi-faceted speech representations that sensitive to speaker characteristics and semantic context。
提案システムであるMT-LLMのカクテルパーティーシナリオにおける有望な性能について実験を行った。
論文 参考訳(メタデータ) (2024-09-13T07:28:28Z) - Language Model Can Listen While Speaking [17.584201137311286]
聴取時言語モデル (LSLM) は、聴取チャネルと発声チャネルの両方を備えたエンドツーエンドシステムである。
本研究は,既存のシステムに最小限の影響を伴って,重複通信を実現するLSLMの能力を強調した。
論文 参考訳(メタデータ) (2024-08-05T16:47:22Z) - Beyond the Turn-Based Game: Enabling Real-Time Conversations with Duplex Models [66.24055500785657]
従来のターンベースのチャットシステムは、ユーザが応答を生成している間に、システムが言葉で対話することを防ぐ。
これらの制限を克服するため,既存のLCMをユーザを聴きながら出力を生成し,ユーザに対して即時フィードバックを提供する。
クエリとレスポンスの時間スライスを交互に行うデータセットを構築し、インスタントインタラクションにおける典型的なフィードバックタイプをカバーする。
論文 参考訳(メタデータ) (2024-06-22T03:20:10Z) - A Full-duplex Speech Dialogue Scheme Based On Large Language Models [23.994130020644842]
シームレスな対話を可能にする 生成生成対話システムです
システムは問い合わせ応答のためのトークンを生成し、ユーザを待ち、あるいは操作するために自律的な決定を行う。
論文 参考訳(メタデータ) (2024-05-29T20:05:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。