論文の概要: A Full-duplex Speech Dialogue Scheme Based On Large Language Models
- arxiv url: http://arxiv.org/abs/2405.19487v1
- Date: Wed, 29 May 2024 20:05:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-31 19:16:17.492407
- Title: A Full-duplex Speech Dialogue Scheme Based On Large Language Models
- Title(参考訳): 大規模言語モデルに基づく全二重音声対話方式
- Authors: Peng Wang, Songshuo Lu, Yaohua Tang, Sijie Yan, Yuanjun Xiong, Wei Xia,
- Abstract要約: シームレスな対話を可能にする 生成生成対話システムです
System is based on a large language model (LLM)
LLMは知覚モジュール、運動関数モジュール、および単純な有限状態機械の概念を注意深く認識している。
- 参考スコア(独自算出の注目度): 23.994130020644842
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We present a generative dialogue system capable of operating in a full-duplex manner, allowing for seamless interaction. It is based on a large language model (LLM) carefully aligned to be aware of a perception module, a motor function module, and the concept of a simple finite state machine (called neural FSM) with two states. The perception and motor function modules operate simultaneously, allowing the system to simultaneously speak and listen to the user. The LLM generates textual tokens for inquiry responses and makes autonomous decisions to start responding to, wait for, or interrupt the user by emitting control tokens to the neural FSM. All these tasks of the LLM are carried out as next token prediction on a serialized view of the dialogue in real-time. In automatic quality evaluations simulating real-life interaction, the proposed system reduces the average conversation response latency by more than 3 folds compared with LLM-based half-duplex dialogue systems while responding within less than 500 milliseconds in more than 50% of evaluated interactions. Running a LLM with only 8 billion parameters, our system exhibits a 8% higher interruption precision rate than the best available commercial LLM for voice-based dialogue.
- Abstract(参考訳): 本稿では,シームレスな対話が可能な生成対話システムについて述べる。
これは、知覚モジュール、運動関数モジュール、および2つの状態を持つ単純な有限状態マシン(ニューラルFSMと呼ばれる)の概念を認識するために慎重に整列された大きな言語モデル(LLM)に基づいている。
知覚機能モジュールと運動機能モジュールは同時に動作し、システムは同時にユーザの声を聴くことができる。
LLMは、問い合わせ応答のためのテキストトークンを生成し、神経FSMに制御トークンを出力することにより、応答、待機、または中断を開始するための自律的な決定を行う。
LLMのこれらのタスクはすべて、リアルタイムに対話のシリアライズされたビュー上で次のトークン予測として実行される。
実生活のインタラクションをシミュレーションした自動品質評価では,LLMベースの半二重対話システムと比較して,平均会話応答遅延を3倍以上に削減し,500ミリ秒以内の応答を50%以上と評価した。
LLMをわずか80億のパラメータで実行すると、音声による対話において最も有効な商用LLMよりも8%高い割り込み精度を示す。
関連論文リスト
- InternLM-XComposer2.5-OmniLive: A Comprehensive Multimodal System for Long-term Streaming Video and Audio Interactions [104.90258030688256]
本研究は,ストリーミング映像とオーディオ入力とのリアルタイムインタラクションを実現するために,非絡み合いのストリーミング知覚,推論,メモリ機構を導入している。
このプロジェクトは人間のような認知をシミュレートし、多モーダルな大規模言語モデルが時間とともに継続的かつ適応的なサービスを提供できるようにする。
論文 参考訳(メタデータ) (2024-12-12T18:58:30Z) - Freeze-Omni: A Smart and Low Latency Speech-to-speech Dialogue Model with Frozen LLM [44.59026505152727]
本稿では, Freeze-Omni という, 音声文によるマルチモーダルLLMアーキテクチャを提案する。
我々の主な貢献は、音声入力と出力のモダリティがテキストLLMに容易に接続できることである。
さらに,マルチタスク学習による二重対話能力を実現する手法も設計した。
論文 参考訳(メタデータ) (2024-11-01T17:59:51Z) - OmniFlatten: An End-to-end GPT Model for Seamless Voice Conversation [53.7173034249361]
エンド・ツー・エンドのGPTベースモデルであるOmniFlattenは、低レイテンシで自然な会話に固有の複雑な振る舞いを効果的にモデル化することができる。
提案手法は, 簡便なモデリング手法と, より効率的かつ自然な対話システムを構築するための研究の方向性を提供する。
論文 参考訳(メタデータ) (2024-10-23T11:58:58Z) - Beyond Turn-Based Interfaces: Synchronous LLMs as Full-Duplex Dialogue Agents [12.555910887280199]
フル同期音声対話モデルのための同期LLMを提案する。
実世界の音声対話データをわずか2k時間で有意義で自然な対話を生成するモデルを訓練する。
異なるデータセット上で訓練された2つのエージェント間の相互作用をシミュレートすることにより、モデルがフル同期対話に参加する能力を示す。
論文 参考訳(メタデータ) (2024-09-23T23:01:31Z) - Large Language Models Are Strong Audio-Visual Speech Recognition Learners [53.142635674428874]
マルチモーダル・大規模言語モデル(MLLM)は,近年,多モーダル理解能力の強化により,研究の焦点となっている。
本稿では,Llama-AVSRを提案する。
我々は,最大公的なAVSRベンチマークであるLSS3に対する提案手法の評価を行い,WERが0.81%,0.77%であるASRとAVSRのタスクに対して,新しい最先端の結果を得た。
論文 参考訳(メタデータ) (2024-09-18T21:17:27Z) - Language Model Can Listen While Speaking [17.584201137311286]
聴取時言語モデル (LSLM) は、聴取チャネルと発声チャネルの両方を備えたエンドツーエンドシステムである。
本研究は,既存のシステムに最小限の影響を伴って,重複通信を実現するLSLMの能力を強調した。
論文 参考訳(メタデータ) (2024-08-05T16:47:22Z) - Beyond the Turn-Based Game: Enabling Real-Time Conversations with Duplex Models [66.24055500785657]
従来のターンベースのチャットシステムは、ユーザが応答を生成している間に、システムが言葉で対話することを防ぐ。
これらの制限を克服するため,既存のLCMをユーザを聴きながら出力を生成し,ユーザに対して即時フィードバックを提供する。
クエリとレスポンスの時間スライスを交互に行うデータセットを構築し、インスタントインタラクションにおける典型的なフィードバックタイプをカバーする。
論文 参考訳(メタデータ) (2024-06-22T03:20:10Z) - Hello Again! LLM-powered Personalized Agent for Long-term Dialogue [63.65128176360345]
モデルに依存しない長期対話エージェント(LD-Agent)を導入する。
イベント認識、ペルソナ抽出、応答生成のための3つの独立した調整可能なモジュールが組み込まれている。
LD-Agentの有効性, 汎用性, クロスドメイン性について実験的に検証した。
論文 参考訳(メタデータ) (2024-06-09T21:58:32Z) - BotChat: Evaluating LLMs' Capabilities of Having Multi-Turn Dialogues [72.65163468440434]
本報告では,人間型マルチターンチャットのための既存大規模言語モデルの予備的評価を行う。
そこで我々は,ChatSEEDに基づくマルチターン対話を発話によって生成する大規模言語モデル(LLM)を提案する。
GPT-4は優れた品質の人型多元対話を生成できるが、その性能は著しく上回っている。
論文 参考訳(メタデータ) (2023-10-20T16:53:51Z) - Towards Joint Modeling of Dialogue Response and Speech Synthesis based
on Large Language Model [8.180382743037082]
本稿では,AI音声対話システムの構築の可能性について考察する。
論文 参考訳(メタデータ) (2023-09-20T01:48:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。