論文の概要: Continuous Learning Conversational AI: A Personalized Agent Framework via A2C Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2502.12876v1
- Date: Tue, 18 Feb 2025 14:05:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:02:13.942759
- Title: Continuous Learning Conversational AI: A Personalized Agent Framework via A2C Reinforcement Learning
- Title(参考訳): 継続的学習会話型AI:A2C強化学習によるパーソナライズされたエージェントフレームワーク
- Authors: Nandakishor M, Anjali M,
- Abstract要約: 本稿では,A2C強化学習を用いて実装したCLCA(Continuous Learning Conversational AI)アプローチを提案する。
我々は,Large Language Models (LLMs) によって生成された販売対話を模擬して,A2Cエージェントを訓練する。
このエージェントは、個人化のための会話戦略を最適化し、エンゲージメントと価値の提供に集中する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Creating personalized and adaptable conversational AI remains a key challenge. This paper introduces a Continuous Learning Conversational AI (CLCA) approach, implemented using A2C reinforcement learning, to move beyond static Large Language Models (LLMs). We use simulated sales dialogues, generated by LLMs, to train an A2C agent. This agent learns to optimize conversation strategies for personalization, focusing on engagement and delivering value. Our system architecture integrates reinforcement learning with LLMs for both data creation and response selection. This method offers a practical way to build personalized AI companions that evolve through continuous learning, advancing beyond traditional static LLM techniques.
- Abstract(参考訳): パーソナライズされ、適応可能な会話型AIを作ることは、依然として重要な課題だ。
本稿では,A2C強化学習を用いて実装されたCLCA(Continuous Learning Conversational AI)アプローチを提案する。
我々は,ALMが生成した販売対話を模擬して,A2Cエージェントを訓練する。
このエージェントは、個人化のための会話戦略を最適化し、エンゲージメントと価値の提供に集中する。
我々のシステムアーキテクチャは、データ生成と応答選択の両方にLLMと強化学習を統合している。
この方法は、従来の静的LLM技術を超えて、継続的学習を通じて進化するパーソナライズされたAIコンパニオンを構築する実践的な方法を提供する。
関連論文リスト
- Dynamic Skill Adaptation for Large Language Models [78.31322532135272]
動的スキル適応(Dynamic Skill Adaptation, DSA)は, 言語モデル(LLM)に新しい複雑なスキルを適応させる適応的かつ動的フレームワークである。
各スキルに対して,学習前スキルの詳細な記述を含む教科書的データと,学習前スキルの具体的活用を目標とした演習的データの両方を生成する。
LLAMA や Mistral のような大規模言語モデルを用いた実験は,提案手法が数学推論スキルや社会学習スキルに適応する上で有効であることを示す。
論文 参考訳(メタデータ) (2024-12-26T22:04:23Z) - MaestroMotif: Skill Design from Artificial Intelligence Feedback [67.17724089381056]
MaestroMotifはAI支援スキルデザインの手法であり、高性能で適応可能なエージェントを生成する。
本稿では,AIを活用したスキルデザイン手法であるMaestroMotifについて述べる。
論文 参考訳(メタデータ) (2024-12-11T16:59:31Z) - Boosting Code-Switching ASR with Mixture of Experts Enhanced Speech-Conditioned LLM [1.3089936156875277]
我々は,Mixture of Experts (MoE) ベースのコネクタと統合された音声条件付き大規模言語モデル (LLM) を提案する。
音声認識タスクへのLLMのテキスト生成能力を向上するためのIDIT機構を提案する。
また、複数の言語を効率的に管理するMoEアーキテクチャとのコネクタも提示する。
論文 参考訳(メタデータ) (2024-09-24T09:20:22Z) - Automating Knowledge Discovery from Scientific Literature via LLMs: A Dual-Agent Approach with Progressive Ontology Prompting [59.97247234955861]
LLM-Duoという,プログレッシブプロンプトアルゴリズムとデュアルエージェントシステムを組み合わせた,大規模言語モデル(LLM)に基づく新しいフレームワークを提案する。
言語治療領域における64,177論文からの2,421件の介入を同定した。
論文 参考訳(メタデータ) (2024-08-20T16:42:23Z) - Using Advanced LLMs to Enhance Smaller LLMs: An Interpretable Knowledge Distillation Approach [6.154304269581415]
高度な大規模言語モデル(LLM)は、複雑な人間のような相互作用において優れた性能を提供する。
LLMは高価で、スマートフォンのようなエッジデバイスには大きすぎるし、セルフホストが難しいため、セキュリティやプライバシーの懸念が生じる。
本稿では,より小型で経済的なLLMの性能を高めるために,新しい解釈可能な知識蒸留手法を提案する。
論文 参考訳(メタデータ) (2024-08-13T23:59:36Z) - Bootstrapping LLM-based Task-Oriented Dialogue Agents via Self-Talk [11.706292228586332]
大規模言語モデル(LLM)は強力な対話エージェントであるが、特定の機能の実現に特化することは困難である。
本稿では,様々な役割における会話に係わるLLMを通して,より効果的なデータ収集手法を提案する。
このアプローチはLLMの“セルフトーク”を通じてトレーニングデータを生成し,教師付き微調整に利用することができる。
論文 参考訳(メタデータ) (2024-01-10T09:49:10Z) - Building Open-Ended Embodied Agent via Language-Policy Bidirectional
Adaptation [40.82919989450566]
LLM(Large Language Models)と強化学習(Reinforcement Learning, RL)を統合するための具体的エージェントの構築は、人間とAIのインタラクションに革命をもたらした。
既存の研究は、オープン・エンディネスの要件を満たす上で、課題に直面している。
我々は,人間の指示を計画の目標に翻訳するための事前学習 LLM の微調整と,意思決定の方針としての目標条件付きトレーニングの2段階からなる協調学習フレームワーク OpenPAL を提案する。
論文 参考訳(メタデータ) (2023-12-12T11:06:07Z) - LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language
Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。
我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文 参考訳(メタデータ) (2023-11-30T03:59:31Z) - Zero-Shot Goal-Directed Dialogue via RL on Imagined Conversations [70.7884839812069]
大規模言語モデル(LLM)は、多くの自然言語タスクに対する強力で一般的な解決策として登場した。
しかしながら、言語生成の最も重要なアプリケーションの多くは対話的であり、エージェントは望ましい結果に達するために相手と話し合わなければならない。
本研究では,そのような目標指向対話に対して,RLでLLMを適応させる新しい手法について検討する。
論文 参考訳(メタデータ) (2023-11-09T18:45:16Z) - NaRLE: Natural Language Models using Reinforcement Learning with Emotion
Feedback [0.37277730514654556]
NARLEは、対話システムの自然言語理解を改善するためのフレームワークである。
2つの意図的分類問題に対して、事前学習された教師付き学習モデルの微調整に強化学習を用いることで、最大43%の性能を向上させることを実証的に示す。
論文 参考訳(メタデータ) (2021-10-05T16:24:19Z) - Rethinking Supervised Learning and Reinforcement Learning in
Task-Oriented Dialogue Systems [58.724629408229205]
本稿では、従来の教師あり学習とシミュレータなしの逆学習法を用いて、最先端のRL法に匹敵する性能を実現する方法を示す。
我々の主な目的は、教師あり学習で強化学習に勝ることではなく、タスク指向対話システムの最適化における強化学習と教師あり学習の役割を再考する価値を示すことである。
論文 参考訳(メタデータ) (2020-09-21T12:04:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。