論文の概要: Simultaneously Evolving Deep Reinforcement Learning Models using
Multifactorial Optimization
- arxiv url: http://arxiv.org/abs/2002.12133v2
- Date: Mon, 23 Mar 2020 10:47:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-28 20:18:51.391527
- Title: Simultaneously Evolving Deep Reinforcement Learning Models using
Multifactorial Optimization
- Title(参考訳): 多要素最適化による深層強化学習モデルの進化
- Authors: Aritz D. Martinez, Eneko Osaba, Javier Del Ser and Francisco Herrera
- Abstract要約: この研究は、関連する強化学習タスクの解決に向けて、複数のDQLモデルを同時に進化させることのできるフレームワークを提案する。
フレームワークの性能を評価するために、徹底的な実験を行い、議論する。
- 参考スコア(独自算出の注目度): 18.703421169342796
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, Multifactorial Optimization (MFO) has gained a notable
momentum in the research community. MFO is known for its inherent capability to
efficiently address multiple optimization tasks at the same time, while
transferring information among such tasks to improve their convergence speed.
On the other hand, the quantum leap made by Deep Q Learning (DQL) in the
Machine Learning field has allowed facing Reinforcement Learning (RL) problems
of unprecedented complexity. Unfortunately, complex DQL models usually find it
difficult to converge to optimal policies due to the lack of exploration or
sparse rewards. In order to overcome these drawbacks, pre-trained models are
widely harnessed via Transfer Learning, extrapolating knowledge acquired in a
source task to the target task. Besides, meta-heuristic optimization has been
shown to reduce the lack of exploration of DQL models. This work proposes a MFO
framework capable of simultaneously evolving several DQL models towards solving
interrelated RL tasks. Specifically, our proposed framework blends together the
benefits of meta-heuristic optimization, Transfer Learning and DQL to automate
the process of knowledge transfer and policy learning of distributed RL agents.
A thorough experimentation is presented and discussed so as to assess the
performance of the framework, its comparison to the traditional methodology for
Transfer Learning in terms of convergence, speed and policy quality , and the
intertask relationships found and exploited over the search process.
- Abstract(参考訳): 近年,MFO(Multifactorial Optimization)が研究コミュニティで注目されている。
MFOは、複数の最適化タスクに効率的に対処すると同時に、それらの収束速度を改善するために、それらのタスク間で情報を転送する能力で知られている。
一方、機械学習分野におけるDeep Q Learning(DQL)による量子飛躍は、前例のない複雑さの強化学習(RL)問題に直面した。
残念ながら、複雑なDQLモデルは通常、探索やスパース報酬の欠如のために最適なポリシに収束することが難しい。
これらの欠点を克服するために、事前学習されたモデルは、転送学習を通じて広く活用され、ソースタスクで取得した知識を対象タスクに推定する。
さらに、メタヒューリスティック最適化は、DQLモデルの探索の欠如を減らすことが示されている。
この研究は、複数のDQLモデルを同時に進化させ、関連するRLタスクを解決するためのMFOフレームワークを提案する。
具体的には,分散rlエージェントの知識伝達とポリシー学習のプロセスを自動化するために,メタヒューリスティック最適化,転送学習,dqlの利点を融合したフレームワークを提案する。
フレームワークの性能を評価するための徹底的な実験, 収束性, 速度, 政策品質の観点からのトランスファーラーニングの従来の方法論との比較, 検索プロセス上で発見・活用されるインタータスクの関係について検討した。
関連論文リスト
- Enhancing Multi-Step Reasoning Abilities of Language Models through Direct Q-Function Optimization [50.485788083202124]
強化学習(Reinforcement Learning, RL)は、大規模言語モデルを人間の好みと整合させ、複雑なタスクを遂行する能力を向上させる上で重要な役割を担っている。
反応生成過程をマルコフ決定プロセス(MDP)として定式化し,ソフトアクター・クリティック(SAC)フレームワークを用いて,言語モデルによって直接パラメータ化されたQ関数を最適化する,直接Q関数最適化(DQO)を提案する。
GSM8KとMATHという2つの数学問題解決データセットの実験結果から、DQOは従来の手法よりも優れており、言語モデルを整合させるための有望なオフライン強化学習手法として確立されている。
論文 参考訳(メタデータ) (2024-10-11T23:29:20Z) - EVOLvE: Evaluating and Optimizing LLMs For Exploration [76.66831821738927]
大規模言語モデル(LLM)は、不確実性の下で最適な意思決定を必要とするシナリオにおいて、未調査のままである。
多くのアプリケーションに関係のあるステートレス強化学習環境である,帯域幅を最適に決定できる LLM の (in) 能力の測定を行う。
最適な探索アルゴリズムの存在を動機として,このアルゴリズム知識をLLMに統合する効率的な方法を提案する。
論文 参考訳(メタデータ) (2024-10-08T17:54:03Z) - Optimization by Parallel Quasi-Quantum Annealing with Gradient-Based Sampling [0.0]
本研究では、連続緩和による勾配に基づく更新と準量子アナリング(QQA)を組み合わせた別のアプローチを提案する。
数値実験により,本手法はiSCOと学習型解法に匹敵する性能を有する汎用解法であることが示された。
論文 参考訳(メタデータ) (2024-09-02T12:55:27Z) - Enhancing Textbook Question Answering Task with Large Language Models
and Retrieval Augmented Generation [3.948068081583197]
本稿では,テキスト質問応答(TQA)における領域外シナリオを扱う手法を提案する。
LLMモデルLlama-2の微調整とRAGの導入により、我々のアーキテクチャはベースラインよりも優れ、検証セットでは4.12%、非ダイアグラム多重選択質問では9.84%の精度向上を実現している。
論文 参考訳(メタデータ) (2024-02-05T11:58:56Z) - H-ensemble: An Information Theoretic Approach to Reliable Few-Shot
Multi-Source-Free Transfer [4.328706834250445]
本稿では,対象タスクに対するソースモデルの最適線形結合を学習するHアンサンブル(H-ensemble)というフレームワークを提案する。
H-アンサンブルは,1)少数の目標タスクに対する新しいMSF設定への適応性,2)理論的信頼性,3)解釈や適応が容易な軽量構造を特徴とする。
我々は,Hアンサンブルが最適なタスクアンサンブルを学習し,先行技術より優れていることを示す。
論文 参考訳(メタデータ) (2023-12-19T17:39:34Z) - Efficient Meta Reinforcement Learning for Preference-based Fast
Adaptation [17.165083095799712]
本研究では,ループ内強化学習の文脈における少数ショット適応の問題について検討する。
そこで我々は,嗜好に基づくフィードバックによる迅速なポリシー適応を実現するメタRLアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-11-20T03:55:09Z) - Neuroevolution is a Competitive Alternative to Reinforcement Learning
for Skill Discovery [12.586875201983778]
深層強化学習(Deep Reinforcement Learning, RL)は、複雑な制御タスクを解決するために神経ポリシーをトレーニングするための強力なパラダイムとして登場した。
品質多様性(QD)手法は,スキル発見のための情報理論強化RLの代替手段であることを示す。
論文 参考訳(メタデータ) (2022-10-06T11:06:39Z) - Reinforcement Learning for Branch-and-Bound Optimisation using
Retrospective Trajectories [72.15369769265398]
機械学習は分岐のための有望なパラダイムとして登場した。
分岐のための単純かつ効果的なRLアプローチであるレトロ分岐を提案する。
我々は現在最先端のRL分岐アルゴリズムを3~5倍に上回り、500の制約と1000の変数を持つMILP上での最高のILメソッドの性能の20%以内である。
論文 参考訳(メタデータ) (2022-05-28T06:08:07Z) - Few-shot Quality-Diversity Optimization [50.337225556491774]
品質多様性(QD)の最適化は、強化学習における知覚的最小値とスパース報酬を扱う上で効果的なツールであることが示されている。
本稿では,タスク分布の例から,パラメータ空間の最適化によって得られる経路の情報を利用して,未知の環境でQD手法を初期化する場合,数発の適応が可能であることを示す。
ロボット操作とナビゲーションベンチマークを用いて、疎密な報酬設定と密集した報酬設定の両方で実施された実験は、これらの環境でのQD最適化に必要な世代数を著しく削減することを示している。
論文 参考訳(メタデータ) (2021-09-14T17:12:20Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Provable Multi-Objective Reinforcement Learning with Generative Models [98.19879408649848]
目的の選好から最適な政策を学習する単一政策 MORL の問題について検討する。
既存の方法は、多目的決定プロセスの正確な知識のような強い仮定を必要とする。
モデルベースエンベロップ値 (EVI) と呼ばれる新しいアルゴリズムを提案し, 包含された多目的$Q$学習アルゴリズムを一般化する。
論文 参考訳(メタデータ) (2020-11-19T22:35:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。