Fugu-MT 論文翻訳(概要): A Full-duplex Speech Dialogue Scheme Based On Large Language Models

論文の概要: A Full-duplex Speech Dialogue Scheme Based On Large Language Models

arxiv url: http://arxiv.org/abs/2405.19487v1
Date: Wed, 29 May 2024 20:05:46 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-31 19:16:17.492407
Title: A Full-duplex Speech Dialogue Scheme Based On Large Language Models
Title（参考訳）: 大規模言語モデルに基づく全二重音声対話方式
Authors: Peng Wang, Songshuo Lu, Yaohua Tang, Sijie Yan, Yuanjun Xiong, Wei Xia,
Abstract要約: シームレスな対話を可能にする生成生成対話システムです System is based on a large language model (LLM) LLMは知覚モジュール、運動関数モジュール、および単純な有限状態機械の概念を注意深く認識している。
参考スコア（独自算出の注目度）: 23.994130020644842
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: We present a generative dialogue system capable of operating in a full-duplex manner, allowing for seamless interaction. It is based on a large language model (LLM) carefully aligned to be aware of a perception module, a motor function module, and the concept of a simple finite state machine (called neural FSM) with two states. The perception and motor function modules operate simultaneously, allowing the system to simultaneously speak and listen to the user. The LLM generates textual tokens for inquiry responses and makes autonomous decisions to start responding to, wait for, or interrupt the user by emitting control tokens to the neural FSM. All these tasks of the LLM are carried out as next token prediction on a serialized view of the dialogue in real-time. In automatic quality evaluations simulating real-life interaction, the proposed system reduces the average conversation response latency by more than 3 folds compared with LLM-based half-duplex dialogue systems while responding within less than 500 milliseconds in more than 50% of evaluated interactions. Running a LLM with only 8 billion parameters, our system exhibits a 8% higher interruption precision rate than the best available commercial LLM for voice-based dialogue.
Abstract（参考訳）: 本稿では,シームレスな対話が可能な生成対話システムについて述べる。これは、知覚モジュール、運動関数モジュール、および2つの状態を持つ単純な有限状態マシン(ニューラルFSMと呼ばれる)の概念を認識するために慎重に整列された大きな言語モデル(LLM)に基づいている。知覚機能モジュールと運動機能モジュールは同時に動作し、システムは同時にユーザの声を聴くことができる。 LLMは、問い合わせ応答のためのテキストトークンを生成し、神経FSMに制御トークンを出力することにより、応答、待機、または中断を開始するための自律的な決定を行う。 LLMのこれらのタスクはすべて、リアルタイムに対話のシリアライズされたビュー上で次のトークン予測として実行される。実生活のインタラクションをシミュレーションした自動品質評価では,LLMベースの半二重対話システムと比較して,平均会話応答遅延を3倍以上に削減し,500ミリ秒以内の応答を50%以上と評価した。 LLMをわずか80億のパラメータで実行すると、音声による対話において最も有効な商用LLMよりも8%高い割り込み精度を示す。

関連論文リスト

Beyond Words: Multimodal LLM Knows When to Speak [25.374878759869333]
我々は、視覚、音声、テキスト間の微妙なマルチモーダル信号に依存する、短時間で反応する発話に重点を置いて、応答型のリアルタイム予測に重点を置いている。実世界の会話ビデオから構築された新しいマルチモーダルデータセットを導入し、時間的に整列された視覚、聴覚、テキストストリームを含む。 MM-When2Speakは,視覚的,聴覚的,テキスト的コンテキストを適応的に統合し,応答がいつ発生すべきか,どの応答が適切かを予測するマルチモーダルLCMベースのモデルである。
論文参考訳（メタデータ） (2025-05-20T17:42:34Z)
SALMONN-omni: A Standalone Speech LLM without Codec Injection for Full-duplex Conversation [17.56310064245171]
SALMON-N-omniは、トークン遷移バックボーンなしで動作する最初の単独のフルバイト音声LLMである。 LLMバックボーン内に新しい動的思考機構が備わっており、講演と聴取の間にモデルを学習することができる。 SALMON-N-Omniは、ターンテイキング、バックチャネルエコーキャンセル、コンテキスト依存バージェインなど、複雑な会話シナリオで強いパフォーマンスを示す。
論文参考訳（メタデータ） (2025-05-17T08:13:59Z)
Full-Duplex-Bench: A Benchmark to Evaluate Full-duplex Spoken Dialogue Models on Turn-taking Capabilities [93.09944267871163]
FullDuplexBenchは、重要な会話動作を体系的に評価するベンチマークである。音声対話のモデリングを推進し、よりインタラクティブで自然な対話システムの開発を促進することを目的としている。
論文参考訳（メタデータ） (2025-03-06T18:59:16Z)
InternLM-XComposer2.5-OmniLive: A Comprehensive Multimodal System for Long-term Streaming Video and Audio Interactions [104.90258030688256]
本研究は,ストリーミング映像とオーディオ入力とのリアルタイムインタラクションを実現するために,非絡み合いのストリーミング知覚,推論,メモリ機構を導入している。このプロジェクトは人間のような認知をシミュレートし、多モーダルな大規模言語モデルが時間とともに継続的かつ適応的なサービスを提供できるようにする。
論文参考訳（メタデータ） (2024-12-12T18:58:30Z)
Freeze-Omni: A Smart and Low Latency Speech-to-speech Dialogue Model with Frozen LLM [44.59026505152727]
本稿では, Freeze-Omni という, 音声文によるマルチモーダルLLMアーキテクチャを提案する。我々の主な貢献は、音声入力と出力のモダリティがテキストLLMに容易に接続できることである。さらに,マルチタスク学習による二重対話能力を実現する手法も設計した。
論文参考訳（メタデータ） (2024-11-01T17:59:51Z)
OmniFlatten: An End-to-end GPT Model for Seamless Voice Conversation [24.68804661538364]
全音声対話システムは人間と人間の相互作用を著しく反映している。低レイテンシと自然なインタラクションを実現することは、大きな課題です。エンドツーエンド音声対話システムは、効率的で自然なエンドツーエンドシステムを開発する上で有望な方向である。 OmniFlatten氏によって生成された対話のオーディオサンプルは、このWebサイトにある。
論文参考訳（メタデータ） (2024-10-23T11:58:58Z)
Beyond Turn-Based Interfaces: Synchronous LLMs as Full-Duplex Dialogue Agents [12.555910887280199]
フル同期音声対話モデルのための同期LLMを提案する。実世界の音声対話データをわずか2k時間で有意義で自然な対話を生成するモデルを訓練する。異なるデータセット上で訓練された2つのエージェント間の相互作用をシミュレートすることにより、モデルがフル同期対話に参加する能力を示す。
論文参考訳（メタデータ） (2024-09-23T23:01:31Z)
Large Language Models Are Strong Audio-Visual Speech Recognition Learners [53.142635674428874]
マルチモーダル・大規模言語モデル(MLLM)は,近年,多モーダル理解能力の強化により,研究の焦点となっている。本稿では,Llama-AVSRを提案する。我々は,最大公的なAVSRベンチマークであるLSS3に対する提案手法の評価を行い,WERが0.81%,0.77%であるASRとAVSRのタスクに対して,新しい最先端の結果を得た。
論文参考訳（メタデータ） (2024-09-18T21:17:27Z)
Language Model Can Listen While Speaking [17.584201137311286]
聴取時言語モデル (LSLM) は、聴取チャネルと発声チャネルの両方を備えたエンドツーエンドシステムである。本研究は,既存のシステムに最小限の影響を伴って,重複通信を実現するLSLMの能力を強調した。
論文参考訳（メタデータ） (2024-08-05T16:47:22Z)
Beyond the Turn-Based Game: Enabling Real-Time Conversations with Duplex Models [66.24055500785657]
従来のターンベースのチャットシステムは、ユーザが応答を生成している間に、システムが言葉で対話することを防ぐ。これらの制限を克服するため,既存のLCMをユーザを聴きながら出力を生成し,ユーザに対して即時フィードバックを提供する。クエリとレスポンスの時間スライスを交互に行うデータセットを構築し、インスタントインタラクションにおける典型的なフィードバックタイプをカバーする。
論文参考訳（メタデータ） (2024-06-22T03:20:10Z)
Hello Again! LLM-powered Personalized Agent for Long-term Dialogue [63.65128176360345]
モデルに依存しない長期対話エージェント(LD-Agent)を導入する。イベント認識、ペルソナ抽出、応答生成のための3つの独立した調整可能なモジュールが組み込まれている。 LD-Agentの有効性, 汎用性, クロスドメイン性について実験的に検証した。
論文参考訳（メタデータ） (2024-06-09T21:58:32Z)
Zero-Shot Goal-Directed Dialogue via RL on Imagined Conversations [70.7884839812069]
大規模言語モデル(LLM)は、多くの自然言語タスクに対する強力で一般的な解決策として登場した。しかしながら、言語生成の最も重要なアプリケーションの多くは対話的であり、エージェントは望ましい結果に達するために相手と話し合わなければならない。本研究では,そのような目標指向対話に対して,RLでLLMを適応させる新しい手法について検討する。
論文参考訳（メタデータ） (2023-11-09T18:45:16Z)
BotChat: Evaluating LLMs' Capabilities of Having Multi-Turn Dialogues [72.65163468440434]
本報告では,人間型マルチターンチャットのための既存大規模言語モデルの予備的評価を行う。そこで我々は,ChatSEEDに基づくマルチターン対話を発話によって生成する大規模言語モデル(LLM)を提案する。 GPT-4は優れた品質の人型多元対話を生成できるが、その性能は著しく上回っている。
論文参考訳（メタデータ） (2023-10-20T16:53:51Z)
Towards Joint Modeling of Dialogue Response and Speech Synthesis based on Large Language Model [8.180382743037082]
本稿では,AI音声対話システムの構築の可能性について考察する。
論文参考訳（メタデータ） (2023-09-20T01:48:27Z)
Prompting and Evaluating Large Language Models for Proactive Dialogues: Clarification, Target-guided, and Non-collaboration [72.04629217161656]
本研究は, 明瞭化, 目標誘導, 非協調対話の3つの側面に焦点をあてる。 LLMの能動性を高めるために,プロアクティブ・チェーン・オブ・ソート・プロンプト方式を提案する。
論文参考訳（メタデータ） (2023-05-23T02:49:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。