論文の概要: RL + Transformer = A General-Purpose Problem Solver
- arxiv url: http://arxiv.org/abs/2501.14176v1
- Date: Fri, 24 Jan 2025 01:55:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-27 14:57:56.967360
- Title: RL + Transformer = A General-Purpose Problem Solver
- Title(参考訳): RL + Transformer = A General-Purpose Problem Solver
- Authors: Micah Rentschler, Jesse Roberts,
- Abstract要約: 本研究では,複数回にわたって強化学習を施した事前学習型変圧器が,これまでに遭遇したことのない問題を解く能力を発揮することを実証した。
この強力なメタラーナーは、見知らぬ分布環境を顕著なサンプル効率で解決するだけでなく、分布外の環境でも高い性能を示す。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: What if artificial intelligence could not only solve problems for which it was trained but also learn to teach itself to solve new problems (i.e., meta-learn)? In this study, we demonstrate that a pre-trained transformer fine-tuned with reinforcement learning over multiple episodes develops the ability to solve problems that it has never encountered before - an emergent ability called In-Context Reinforcement Learning (ICRL). This powerful meta-learner not only excels in solving unseen in-distribution environments with remarkable sample efficiency, but also shows strong performance in out-of-distribution environments. In addition, we show that it exhibits robustness to the quality of its training data, seamlessly stitches together behaviors from its context, and adapts to non-stationary environments. These behaviors demonstrate that an RL-trained transformer can iteratively improve upon its own solutions, making it an excellent general-purpose problem solver.
- Abstract(参考訳): もし人工知能が、訓練された問題を解くだけでなく、新しい問題(メタ学習)を自分で教えることを学ぶことができたらどうだろうか?
本研究では,複数のエピソードにまたがって強化学習を施した事前学習型トランスフォーマーが,これまで遭遇したことのない問題を解決する能力(ICRL(In-Context Reinforcement Learning))を発達させることを示す。
この強力なメタラーナーは、見知らぬ分布環境を顕著なサンプル効率で解決するだけでなく、分布外の環境でも高い性能を示す。
さらに、トレーニングデータの品質に堅牢性を示し、コンテキストからシームレスに動作を縫合し、非定常環境に適応することを示す。
これらの挙動は、RL学習変換器が自身の解を反復的に改善できることを示し、優れた汎用問題解法となる。
関連論文リスト
- Self-Improving Transformers Overcome Easy-to-Hard and Length Generalization Challenges [15.975023196507841]
大規模言語モデルは、しばしば、トレーニング分布を超えて、長さの一般化と複雑な問題インスタンスの解決に苦労する。
モデルが自身のソリューションから反復的に生成し、学習する自己改善アプローチを提案する。
本研究は,制御された弱強曲線がモデル論理外挿法を体系的に教える方法を示した。
論文 参考訳(メタデータ) (2025-02-03T18:45:22Z) - Can Learned Optimization Make Reinforcement Learning Less Difficult? [70.5036361852812]
学習の最適化が強化学習の難しさを克服するのに役立つかどうかを検討する。
本稿では, 塑性, 探索および非定常性のための学習最適化手法(OPEN)を用いて, 入力特性と出力構造がこれらの困難に対して予め提案された情報によって通知される更新規則をメタラーニングする。
論文 参考訳(メタデータ) (2024-07-09T17:55:23Z) - Efficient Imitation Learning with Conservative World Models [54.52140201148341]
報酬機能のない専門家によるデモンストレーションから政策学習の課題に取り組む。
純粋な強化学習ではなく、微調整問題として模倣学習を再構成する。
論文 参考訳(メタデータ) (2024-05-21T20:53:18Z) - Supervised Pretraining Can Learn In-Context Reinforcement Learning [96.62869749926415]
本稿では,意思決定問題における変換器の文脈内学習能力について検討する。
本稿では,変換器が最適動作を予測する教師付き事前学習法であるDPT(Decision-Pretrained Transformer)を導入,研究する。
事前学習した変換器は、オンラインと保守主義の両方をオフラインで探索することで、コンテキスト内における様々なRL問題の解決に利用できる。
論文 参考訳(メタデータ) (2023-06-26T17:58:50Z) - Learning to Optimize for Reinforcement Learning [58.01132862590378]
強化学習(Reinforcement Learning, RL)は、教師付き学習とは本質的に異なり、実際、これらの学習は単純なRLタスクでもうまく機能しない。
エージェント勾配分布は非独立で同一分布であり、非効率なメタトレーニングをもたらす。
おもちゃのタスクでしか訓練されていないが、我々の学習はブラックスの目に見えない複雑なタスクを一般化できることを示した。
論文 参考訳(メタデータ) (2023-02-03T00:11:02Z) - Self-Paced Context Evaluation for Contextual Reinforcement Learning [34.8990562818147]
自己ペースト文脈評価(SPaCE)
セルフペースの学習に基づいて、spcはオンラインのタスクキュリキュラを、計算オーバーヘッドが少なく自動的に生成する。
2つの環境における異なる値ベースRLエージェントの学習を高速化するSPaCEの能力を実証する。
論文 参考訳(メタデータ) (2021-06-09T14:39:09Z) - Dynamics Generalization via Information Bottleneck in Deep Reinforcement
Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。
迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。
この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文 参考訳(メタデータ) (2020-08-03T02:24:20Z) - DisCor: Corrective Feedback in Reinforcement Learning via Distribution
Correction [96.90215318875859]
ブートストラップに基づくQ-ラーニングアルゴリズムは必ずしも修正フィードバックの恩恵を受けないことを示す。
本稿では,この最適分布に対する近似を計算し,トレーニングに使用する遷移の重み付けに使用する新しいアルゴリズムであるDisCorを提案する。
論文 参考訳(メタデータ) (2020-03-16T16:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。