論文の概要: Emergence of In-Context Reinforcement Learning from Noise Distillation
- arxiv url: http://arxiv.org/abs/2312.12275v3
- Date: Wed, 12 Jun 2024 11:30:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-13 23:13:33.918673
- Title: Emergence of In-Context Reinforcement Learning from Noise Distillation
- Title(参考訳): 騒音蒸留によるインテクスト強化学習の創発
- Authors: Ilya Zisman, Vladislav Kurenkov, Alexander Nikulin, Viacheslav Sinii, Sergey Kolesnikov,
- Abstract要約: 雑音によるカリキュラムからコンテキスト内強化学習を可能にする新しいデータ取得手法を提案する。
本研究では,学習履歴の収集を支援する合成ノイズ注入カリキュラムの構築が可能であることを示す。
テキスト内RLは、学習データセットの最適部分ポリシーを2倍のマージンで上回り、最適ポリシーによる生成の必要性を軽減できることを実験的に実証した。
- 参考スコア(独自算出の注目度): 46.29510499540939
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, extensive studies in Reinforcement Learning have been carried out on the ability of transformers to adapt in-context to various environments and tasks. Current in-context RL methods are limited by their strict requirements for data, which needs to be generated by RL agents or labeled with actions from an optimal policy. In order to address this prevalent problem, we propose AD$^\varepsilon$, a new data acquisition approach that enables in-context Reinforcement Learning from noise-induced curriculum. We show that it is viable to construct a synthetic noise injection curriculum which helps to obtain learning histories. Moreover, we experimentally demonstrate that it is possible to alleviate the need for generation using optimal policies, with in-context RL still able to outperform the best suboptimal policy in a learning dataset by a 2x margin.
- Abstract(参考訳): 近年,様々な環境やタスクに適応するトランスフォーマーの能力について,強化学習に関する広範な研究が進められている。
現在のコンテキスト内RLメソッドは、RLエージェントによって生成されるか、あるいは最適なポリシーからのアクションでラベル付けする必要があるデータに対する厳格な要求によって制限される。
本稿では,この問題に対処するために,雑音によるカリキュラムからテキスト内強化学習を可能にする新しいデータ取得手法AD$^\varepsilon$を提案する。
本研究では,学習履歴の収集を支援する合成ノイズ注入カリキュラムの構築が可能であることを示す。
さらに、テキスト内RLは学習データセットの最適部分ポリシーを2倍のマージンで上回り、最適ポリシーによる生成の必要性を軽減できることを実験的に実証した。
関連論文リスト
- N-Gram Induction Heads for In-Context RL: Improving Stability and Reducing Data Needs [42.446740732573296]
コンテキスト内学習は、トランスフォーマーのようなモデルが重みを更新することなく、新しいタスクに適応できるようにする。
アルゴリズム蒸留(AD)のような既存のコンテキスト内RL手法では、大きく、慎重にキュレートされたデータセットが要求される。
本研究では,n-gram誘導ヘッドをインコンテキストRLの変換器に統合した。
論文 参考訳(メタデータ) (2024-11-04T10:31:03Z) - Enhancing Noise Robustness of Retrieval-Augmented Language Models with Adaptive Adversarial Training [39.21885486667879]
大型言語モデル(LLM)は、幻覚、時代遅れの知識、追跡不能な推論プロセスなどの課題に遭遇する重大な能力を示す。
Retrieval-augmented Generation(RAG)は、これらの課題を軽減するために、外部データベースからの知識を統合する、有望なソリューションとして登場した。
本稿では,RAAT(Retrieval-augmented Adaptive Adrial Training)として知られる新しいRAGアプローチを提案する。
論文 参考訳(メタデータ) (2024-05-31T16:24:53Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Efficient Meta Reinforcement Learning for Preference-based Fast
Adaptation [17.165083095799712]
本研究では,ループ内強化学習の文脈における少数ショット適応の問題について検討する。
そこで我々は,嗜好に基づくフィードバックによる迅速なポリシー適応を実現するメタRLアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-11-20T03:55:09Z) - In-context Reinforcement Learning with Algorithm Distillation [35.72003039559626]
本稿では,ニューラルネットワークに強化学習アルゴリズムを蒸留する手法を提案し,そのトレーニング履歴を因果シーケンスモデルを用いてモデル化する。
学習履歴のデータセットは、ソースRLアルゴリズムによって生成され、その後、因果変換器は、先行した学習履歴を文脈として、自己回帰的に行動を予測することによって訓練される。
我々は,ADが様々な環境において,スパース報酬,タスク構造,ピクセルベースの観察でコンテキストを学習できることを示し,ADがソースデータを生成するものよりも,よりデータ効率のよいRLアルゴリズムを学習できることを見出した。
論文 参考訳(メタデータ) (2022-10-25T17:57:49Z) - Exploration via Planning for Information about the Optimal Trajectory [67.33886176127578]
我々は,タスクと現在の知識を考慮に入れながら,探索を計画できる手法を開発した。
本手法は, 探索基準値よりも2倍少ないサンプルで, 強いポリシーを学習できることを実証する。
論文 参考訳(メタデータ) (2022-10-06T20:28:55Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Curriculum Offline Imitation Learning [72.1015201041391]
オフラインの強化学習タスクでは、エージェントは、環境とのさらなるインタラクションなしに、事前にコンパイルされたデータセットから学ぶ必要がある。
我々は,適応的な近隣政策を模倣する経験的選択戦略を,より高いリターンで活用するテキストカリキュラムオフライン学習(COIL)を提案する。
連続制御ベンチマークでは、COILを模倣ベースとRLベースの両方の手法と比較し、混合データセット上で平凡な振る舞いを学ぶことを避けるだけでなく、最先端のオフラインRL手法と競合することを示します。
論文 参考訳(メタデータ) (2021-11-03T08:02:48Z) - Learning to Continuously Optimize Wireless Resource in a Dynamic
Environment: A Bilevel Optimization Perspective [52.497514255040514]
この研究は、データ駆動メソッドが動的環境でリソース割り当て戦略を継続的に学び、最適化することを可能にする新しいアプローチを開発しています。
学習モデルが新たなエピソードに段階的に適応できるように、連続学習の概念を無線システム設計に組み込むことを提案する。
我々の設計は、異なるデータサンプルにまたがる公平性を保証する、新しい二段階最適化定式化に基づいている。
論文 参考訳(メタデータ) (2021-05-03T07:23:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。