論文の概要: An Efficient Task-Oriented Dialogue Policy: Evolutionary Reinforcement Learning Injected by Elite Individuals
- arxiv url: http://arxiv.org/abs/2506.03519v1
- Date: Wed, 04 Jun 2025 03:07:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.123006
- Title: An Efficient Task-Oriented Dialogue Policy: Evolutionary Reinforcement Learning Injected by Elite Individuals
- Title(参考訳): 効率的なタスク指向対話政策:エリート個人による進化的強化学習
- Authors: Yangyang Zhao, Ben Niu, Libo Qin, Shihan Wang,
- Abstract要約: 進化的アルゴリズム(EA)は、人口多様性を維持することにより、ニューラルネットワークの解空間を効果的に探索することが証明されている。
そこで我々は,EAの探索効率を高めるために,集団に最適な個人を適応的に導入することで,エリート個人注入機構を提案する。
- 参考スコア(独自算出の注目度): 9.148361324607963
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep Reinforcement Learning (DRL) is widely used in task-oriented dialogue systems to optimize dialogue policy, but it struggles to balance exploration and exploitation due to the high dimensionality of state and action spaces. This challenge often results in local optima or poor convergence. Evolutionary Algorithms (EAs) have been proven to effectively explore the solution space of neural networks by maintaining population diversity. Inspired by this, we innovatively combine the global search capabilities of EA with the local optimization of DRL to achieve a balance between exploration and exploitation. Nevertheless, the inherent flexibility of natural language in dialogue tasks complicates this direct integration, leading to prolonged evolutionary times. Thus, we further propose an elite individual injection mechanism to enhance EA's search efficiency by adaptively introducing best-performing individuals into the population. Experiments across four datasets show that our approach significantly improves the balance between exploration and exploitation, boosting performance. Moreover, the effectiveness of the EII mechanism in reducing exploration time has been demonstrated, achieving an efficient integration of EA and DRL on task-oriented dialogue policy tasks.
- Abstract(参考訳): 深層強化学習(DRL)は、タスク指向対話システムにおいて、対話ポリシーの最適化に広く用いられているが、状態空間と行動空間の高次元性のため、探索と利用のバランスをとるのに苦労している。
この課題は、しばしば局所的な最適性や収束不良をもたらす。
進化的アルゴリズム(EA)は、人口多様性を維持することにより、ニューラルネットワークの解空間を効果的に探索することが証明されている。
そこで我々は,EAのグローバル検索能力とDRLの局所最適化を革新的に組み合わせ,探索と搾取のバランスを図った。
それでも、対話タスクにおける自然言語の固有の柔軟性は、この直接的な統合を複雑にし、長い進化の時間をもたらす。
そこで本研究では,人口に最適な個人を適応的に導入することで,EAの探索効率を高めるためのエリート個人注入機構を提案する。
4つのデータセットを対象とした実験により、我々のアプローチは探索とエクスプロイトのバランスを大幅に改善し、パフォーマンスが向上することが示された。
さらに,タスク指向の対話政策タスクにおいて,EAとDRLの効率的な統合を実現するために,探索時間を短縮するEIIメカニズムの有効性を実証した。
関連論文リスト
- Evolutionary Policy Optimization [9.519528646219054]
強化学習における重要な課題は、サンプル効率を犠牲にすることなく、探索・探索トレードオフを管理することである。
本稿では,進化的政策最適化(EPO, Evolutionary Policy Optimization)を提案する。
実験結果から,EPOは標準PG法やEC法と比較して,政策品質とサンプル効率を両立させることがわかった。
論文 参考訳(メタデータ) (2025-04-17T01:33:06Z) - A Survey On Enhancing Reinforcement Learning in Complex Environments: Insights from Human and LLM Feedback [1.0359008237358598]
本稿では、まず、人間やLSMの補助に焦点をあて、これらの実体が最適な行動の促進と学習の迅速化のためにRLエージェントと協調する方法について検討し、また、大きな観測空間によって特徴づけられる環境の複雑さに対処する研究論文を探索する。
論文 参考訳(メタデータ) (2024-11-20T15:52:03Z) - Selective Exploration and Information Gathering in Search and Rescue Using Hierarchical Learning Guided by Natural Language Input [5.522800137785975]
本稿では,大規模言語モデル(LLM)と階層的強化学習(HRL)フレームワークを連携させるシステムを提案する。
提案システムは,人間の利害関係者からの言語入力を実用的なRLインサイトへ翻訳し,検索戦略を調整するように設計されている。
LLMによる人為的情報の利用とHRLによるタスク実行の構造化により、長い地平線とスパース報酬を特徴とする環境におけるエージェントの学習効率と意思決定プロセスを大幅に改善する。
論文 参考訳(メタデータ) (2024-09-20T12:27:47Z) - Rewarding What Matters: Step-by-Step Reinforcement Learning for Task-Oriented Dialogue [17.47550065558479]
強化学習(RL)はタスク指向対話(TOD)システムを強化するための強力なアプローチである。
既存のRL手法は主に生成タスクに焦点を合わせ、理解のために対話状態追跡(DST)を無視する傾向にある。
トークン生成全体でステップバイステップの報酬を導入し、RLを理解タスクと生成タスクの両方に拡張する。
論文 参考訳(メタデータ) (2024-06-20T16:15:40Z) - WESE: Weak Exploration to Strong Exploitation for LLM Agents [95.6720931773781]
本稿では,オープンワールド対話型タスクの解法において,LLMエージェントの強化を目的としたWeak Exploration to Strong Exploitation (WESE)を提案する。
WESEは、探究と搾取のプロセスを分離し、費用対効果の弱いエージェントを用いて世界的知識の探索を行う。
次に、獲得した知識を格納し、タスク関連知識を抽出する知識グラフベースの戦略を導入する。
論文 参考訳(メタデータ) (2024-04-11T03:31:54Z) - Trial and Error: Exploration-Based Trajectory Optimization for LLM Agents [49.85633804913796]
本稿では,ETOと呼ばれる探索に基づく軌道最適化手法を提案する。
この学習方法はオープンLLMエージェントの性能を向上させるために設計されている。
3つの複雑なタスクに関する実験は、ETOがベースライン性能をはるかに上回っていることを示す。
論文 参考訳(メタデータ) (2024-03-04T21:50:29Z) - Large Language Model-based Human-Agent Collaboration for Complex Task
Solving [94.3914058341565]
複雑なタスク解決のためのLarge Language Models(LLM)に基づくヒューマンエージェントコラボレーションの問題を紹介する。
Reinforcement Learning-based Human-Agent Collaboration method, ReHACを提案する。
このアプローチには、タスク解決プロセスにおける人間の介入の最も急進的な段階を決定するために設計されたポリシーモデルが含まれている。
論文 参考訳(メタデータ) (2024-02-20T11:03:36Z) - ADAPTER-RL: Adaptation of Any Agent using Reinforcement Learning [0.0]
アダプタは自然言語処理やコンピュータビジョンなどの教師あり学習コンテキストにおいて有効であることが証明されている。
本稿では,学習効率の向上とベースエージェントの改良を実証する,革新的な適応戦略を提案する。
提案するユニバーサルアプローチは、事前訓練されたニューラルネットワークだけでなく、ルールベースのエージェントとも互換性があり、人間の専門知識を統合する手段を提供する。
論文 参考訳(メタデータ) (2023-11-20T04:54:51Z) - Reinforcement Learning-assisted Evolutionary Algorithm: A Survey and
Research Opportunities [63.258517066104446]
進化的アルゴリズムの構成要素として統合された強化学習は,近年,優れた性能を示している。
本稿では,RL-EA 統合手法,RL-EA が採用する RL-EA 支援戦略,および既存文献による適用について論じる。
RL-EAセクションの適用例では、RL-EAのいくつかのベンチマークおよび様々な公開データセットにおける優れた性能を示す。
論文 参考訳(メタデータ) (2023-08-25T15:06:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。