論文の概要: Enabling Real-Time Conversations with Minimal Training Costs
- arxiv url: http://arxiv.org/abs/2409.11727v1
- Date: Wed, 18 Sep 2024 06:27:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-19 19:00:08.059276
- Title: Enabling Real-Time Conversations with Minimal Training Costs
- Title(参考訳): トレーニングコストの最小化によるリアルタイム会話の実現
- Authors: Wang Xu, Shuo Wang, Weilin Zhao, Xu Han, Yukun Yan, Yudi Zhang, Zhe Tao, Zhiyuan Liu, Wanxiang Che,
- Abstract要約: 本稿では,2つの言語モデルに対して,最小限の訓練を要し,2つの言語能力を持つ新しい重複復号法を提案する。
実験結果から,本手法はトレーニングコストの最小化とともに,ユーザとAIのインタラクションの自然性と人間的類似性を著しく向上することが示された。
- 参考スコア(独自算出の注目度): 61.80370154101649
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have demonstrated the ability to improve human efficiency through conversational interactions. Conventional LLM-powered dialogue systems, operating on a turn-based paradigm, preclude real-time interaction during response generation. To address this limitation, researchers have proposed duplex models. These models can dynamically adapt to user input, facilitating real-time interactive feedback. However, these methods typically require substantial computational resources to acquire the ability. To reduce overhead, this paper presents a new duplex decoding approach that enhances LLMs with duplex ability, requiring minimal additional training. Specifically, our method employs parallel decoding of queries and responses in conversations, effectively implementing a channel-division-multiplexing decoding strategy. Experimental results indicate that our proposed method significantly enhances the naturalness and human-likeness of user-AI interactions with minimal training costs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、対話的相互作用によって人間の効率を改善する能力を示した。
従来のLLM方式の対話システムはターンベースで動作し、応答生成時のリアルタイム対話を妨げている。
この制限に対処するため、研究者は二重モデルを提案した。
これらのモデルは、ユーザの入力に動的に適応し、リアルタイムのインタラクティブなフィードバックを容易にします。
しかし、これらの手法は典型的には能力を得るためにかなりの計算資源を必要とする。
オーバヘッドを低減するため,新たな重複復号化手法を提案する。
具体的には、会話におけるクエリとレスポンスの並列デコーディングを採用し、チャネル分割多重デコーディング戦略を効果的に実装する。
実験結果から,本手法はトレーニングコストの最小化とともに,ユーザとAIのインタラクションの自然性と人間的類似性を著しく向上することが示された。
関連論文リスト
- RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - Beyond the Turn-Based Game: Enabling Real-Time Conversations with Duplex Models [66.24055500785657]
従来のターンベースのチャットシステムは、ユーザが応答を生成している間に、システムが言葉で対話することを防ぐ。
これらの制限を克服するため,既存のLCMをユーザを聴きながら出力を生成し,ユーザに対して即時フィードバックを提供する。
クエリとレスポンスの時間スライスを交互に行うデータセットを構築し、インスタントインタラクションにおける典型的なフィードバックタイプをカバーする。
論文 参考訳(メタデータ) (2024-06-22T03:20:10Z) - Learning to Clarify: Multi-turn Conversations with Action-Based Contrastive Self-Training [33.57497419019826]
アクションベースのコントラスト自己学習は、多ターン会話におけるサンプル効率のよい対話ポリシー学習を可能にする。
ACTは、教師付き微調整とDPOのための標準的なアプローチよりも、相当な会話モデリングの改善を示す。
論文 参考訳(メタデータ) (2024-05-31T22:44:48Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Zero-Shot Goal-Directed Dialogue via RL on Imagined Conversations [70.7884839812069]
大規模言語モデル(LLM)は、多くの自然言語タスクに対する強力で一般的な解決策として登場した。
しかしながら、言語生成の最も重要なアプリケーションの多くは対話的であり、エージェントは望ましい結果に達するために相手と話し合わなければならない。
本研究では,そのような目標指向対話に対して,RLでLLMを適応させる新しい手法について検討する。
論文 参考訳(メタデータ) (2023-11-09T18:45:16Z) - Dialog Action-Aware Transformer for Dialog Policy Learning [22.262659702998892]
本稿では,RLエージェントの学習速度を高速化するために,事前学習言語モデルからプレーンテキスト知識をフル活用することを提案する。
具体的には,ダイアログアクション対応トランスフォーマーエンコーダ(DaTrans)を設計し,マスクされた最後のアクションタスクと呼ばれる新しい微調整手順を統合する。
DaTransはさらに、継続的な相互作用を伴うRL環境で最適化され、長期蓄積された報酬を最大化するためにダイアログアクション空間での探索を通じて進化する。
論文 参考訳(メタデータ) (2023-09-05T13:47:25Z) - Replicating Complex Dialogue Policy of Humans via Offline Imitation
Learning with Supervised Regularization [7.151589223349882]
ポリシーラーニング(英: Policy Learning、PL)は、エージェントに各対話のターンでアクションをするように訓練するタスク指向の対話システムのモジュールである。
教師付き学習(SL)と強化学習(RL)の両方のフレームワークは、人間をうまく模倣することはできない。
本研究では,実対話データセットからポリシーを学習するオフライン模倣学習モデルを提案する。
論文 参考訳(メタデータ) (2023-05-06T09:27:58Z) - Deep RL with Hierarchical Action Exploration for Dialogue Generation [0.0]
本稿では,対話ポリシーの性能がサンプリングサイズと正の相関関係にあることを示す理論的解析と実験について述べる。
サンプリングプロセスにおいて最も有望な応答カテゴリを探索する新しい二重粒度Q関数を導入する。
提案アルゴリズムは, 説明可能性と制御性の両方を示し, 期待値の高い応答を生成する。
論文 参考訳(メタデータ) (2023-03-22T09:29:22Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Sample-Efficient Model-based Actor-Critic for an Interactive Dialogue
Task [27.896714528986855]
対話型対話タスクのためのモデルに基づく強化学習を提案する。
一般的なアクター批判的手法に基づいて構築し、学習エージェントに学習を促す環境モデルとプランナーを追加します。
この結果から,対話型タスクを模倣したシミュレーションでは,一般的なモデルフリーアルゴリズムのベースラインに比べて,70倍のサンプルを必要とすることがわかった。
論文 参考訳(メタデータ) (2020-04-28T17:00:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。