論文の概要: In-context Exploration-Exploitation for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2403.06826v1
- Date: Mon, 11 Mar 2024 15:43:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-12 18:38:53.038277
- Title: In-context Exploration-Exploitation for Reinforcement Learning
- Title(参考訳): 強化学習のための文脈内探索-探索
- Authors: Zhenwen Dai, Federico Tomasi, Sina Ghiassian
- Abstract要約: In-context Exploration-Exploitation (ICEE)アルゴリズムを導入する。
ICEEは、明確なベイズ推論を必要とせず、Transformerモデル内で推論時に探索・探索のトレードオフを実行する。
ICEEは数十エピソードのみを用いて新しいRL課題の解法を学習できることを示し、従来の文脈内学習法で必要とされる数百エピソードよりも大幅に改善されていることを示す。
- 参考スコア(独自算出の注目度): 6.141960122107961
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In-context learning is a promising approach for online policy learning of
offline reinforcement learning (RL) methods, which can be achieved at inference
time without gradient optimization. However, this method is hindered by
significant computational costs resulting from the gathering of large training
trajectory sets and the need to train large Transformer models. We address this
challenge by introducing an In-context Exploration-Exploitation (ICEE)
algorithm, designed to optimize the efficiency of in-context policy learning.
Unlike existing models, ICEE performs an exploration-exploitation trade-off at
inference time within a Transformer model, without the need for explicit
Bayesian inference. Consequently, ICEE can solve Bayesian optimization problems
as efficiently as Gaussian process biased methods do, but in significantly less
time. Through experiments in grid world environments, we demonstrate that ICEE
can learn to solve new RL tasks using only tens of episodes, marking a
substantial improvement over the hundreds of episodes needed by the previous
in-context learning method.
- Abstract(参考訳): In-context Learningはオフライン強化学習(RL)手法のオンラインポリシー学習において有望なアプローチであり、勾配最適化なしで推論時に実現できる。
しかし、この手法は、大規模な訓練軌道集合の収集と大きなトランスフォーマーモデルを訓練する必要性により、計算コストが大幅に低下する。
我々は,コンテキスト内ポリシ学習の効率を最適化するicee(in-context exploration-exploitation)アルゴリズムを導入することで,この課題に対処した。
既存のモデルとは異なり、ICEEは明確なベイズ推論を必要とせず、トランスフォーマーモデル内で推論時に探索・探索のトレードオフを実行する。
その結果、ICEEはガウス過程の偏りと同様に効率よくベイズ最適化を解くことができるが、時間的にはかなり少ない。
グリッドワールド環境での実験を通じて、ICEEは数十エピソードのみを使用して新しいRLタスクを学習できることを示し、以前のインコンテキスト学習法で必要とされる数百エピソードよりも大幅に改善されていることを示す。
関連論文リスト
- Offline reinforcement learning for job-shop scheduling problems [1.3927943269211593]
本稿では,複雑な制約を伴う最適化問題に対して,新しいオフラインRL法を提案する。
我々のアプローチは、エッジ属性のアクションを符号化し、専門家ソリューションの模倣と期待される報酬のバランスをとる。
本手法がジョブショップスケジューリングおよびフレキシブルジョブショップスケジューリングベンチマークに与える影響を実証する。
論文 参考訳(メタデータ) (2024-10-21T07:33:42Z) - Learning Constrained Optimization with Deep Augmented Lagrangian Methods [54.22290715244502]
機械学習(ML)モデルは、制約付き最適化ソルバをエミュレートするために訓練される。
本稿では,MLモデルを用いて2つの解推定を直接予測する手法を提案する。
これにより、双対目的が損失関数であるエンドツーエンドのトレーニングスキームと、双対上昇法をエミュレートした原始的実現可能性への解推定を可能にする。
論文 参考訳(メタデータ) (2024-03-06T04:43:22Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - FedLALR: Client-Specific Adaptive Learning Rates Achieve Linear Speedup
for Non-IID Data [54.81695390763957]
フェデレートラーニング(Federated Learning)は、分散機械学習の手法である。
我々は,AMSGradの異種局所変種であるFedLALRを提案し,各クライアントが学習率を調整する。
クライアントが指定した自動調整型学習率スケジューリングが,クライアント数に対して収束し,線形高速化を実現することを示す。
論文 参考訳(メタデータ) (2023-09-18T12:35:05Z) - Supervised Pretraining Can Learn In-Context Reinforcement Learning [96.62869749926415]
本稿では,意思決定問題における変換器の文脈内学習能力について検討する。
本稿では,変換器が最適動作を予測する教師付き事前学習法であるDPT(Decision-Pretrained Transformer)を導入,研究する。
事前学習した変換器は、オンラインと保守主義の両方をオフラインで探索することで、コンテキスト内における様々なRL問題の解決に利用できる。
論文 参考訳(メタデータ) (2023-06-26T17:58:50Z) - Sample-Efficient, Exploration-Based Policy Optimisation for Routing
Problems [2.6782615615913348]
本稿では,エントロピーに基づく新しい強化学習手法を提案する。
さらに、我々は、期待したリターンを最大化する、政治以外の強化学習手法を設計する。
我々のモデルは様々な経路問題に一般化可能であることを示す。
論文 参考訳(メタデータ) (2022-05-31T09:51:48Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Accelerating Federated Edge Learning via Topology Optimization [41.830942005165625]
フェデレートエッジラーニング(FEEL)は、プライバシー保護の分散ラーニングを実現するための有望なパラダイムとして考えられている。
ストラグラー装置の存在により、過度の学習時間を消費する。
フェデレーション学習における不均一性問題に対処するために,新しいトポロジ最適化フェデレーション・エッジ・ラーニング(TOFEL)手法を提案する。
論文 参考訳(メタデータ) (2022-04-01T14:49:55Z) - Hybrid Learning for Orchestrating Deep Learning Inference in Multi-user
Edge-cloud Networks [3.7630209350186807]
ディープラーニングのためのコラボレーション型のエッジクラウドコンピューティングは、さまざまなパフォーマンスと効率を提供する。
ディープラーニング推論オーケストレーション戦略では、最適なオーケストレーションポリシを見つけるために強化学習を採用している。
我々は、最先端のRLベースの推論オーケストレーションを実験的に比較することで、HL戦略の有効性を実証する。
論文 参考訳(メタデータ) (2022-02-21T21:50:50Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。