論文の概要: Emergence of In-Context Reinforcement Learning from Noise Distillation
- arxiv url: http://arxiv.org/abs/2312.12275v1
- Date: Tue, 19 Dec 2023 15:56:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 15:05:31.326344
- Title: Emergence of In-Context Reinforcement Learning from Noise Distillation
- Title(参考訳): 騒音蒸留によるインテクスト強化学習の創発
- Authors: Ilya Zisman, Vladislav Kurenkov, Alexander Nikulin, Viacheslav Sinii,
Sergey Kolesnikov
- Abstract要約: In-Context Reinforcement Learningは、人工知能を進化させる大きな可能性を持つ新興分野である。
政策改善なしに実演を活用でき、マルチタスク・イン・コンテキスト学習を可能にする手法を提案する。
我々のアプローチはダークルームとダークキー・ツー・ドア環境でテストされ、データで利用可能なポリシーと比較して、textbf2$x以上改善されました。
- 参考スコア(独自算出の注目度): 49.05502570281515
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In-Context Reinforcement Learning is an emerging field with great potential
for advancing Artificial Intelligence. Its core capability lies in generalizing
to unseen tasks through interaction with the environment. To master these
capabilities, an agent must be trained on specifically curated data that
includes a policy improvement that an algorithm seeks to extract and then apply
in context in the environment. However, for numerous tasks, training RL agents
may be unfeasible, while obtaining human demonstrations can be relatively easy.
Additionally, it is rare to be given the optimal policy, typically, only
suboptimal demonstrations are available. We propose $AD^{\epsilon}$, a method
that leverages demonstrations without policy improvement and enables multi-task
in-context learning in the presence of a suboptimal demonstrator. This is
achieved by artificially creating a history of incremental improvement, wherein
noise is systematically introduced into the demonstrator's policy.
Consequently, each successive transition illustrates a marginally better
trajectory than the previous one. Our approach was tested on the Dark Room and
Dark Key-to-Door environments, resulting in over a $\textbf{2}$x improvement
compared to the best available policy in the data.
- Abstract(参考訳): In-Context Reinforcement Learningは、人工知能を進化させる大きな可能性を持つ新興分野である。
その中核的な能力は、環境との相互作用を通じて見えないタスクを一般化することにある。
これらの能力を習得するために、エージェントは、アルゴリズムが抽出し、環境のコンテキストに適用しようとするポリシー改善を含む、特定のキュレーションされたデータに基づいて訓練されなければならない。
しかし、多くのタスクにおいて、RLエージェントの訓練は不可能であり、人間のデモンストレーションを得ることは比較的容易である。
さらに、最適ポリシーを与えられることはまれであり、通常は準最適デモンストレーションのみが利用可能である。
我々は,ポリシー改善を伴わずにデモを活用し,準最適デモンストレータの存在下でマルチタスク・イン・コンテキスト学習を可能にする手法である$ad^{\epsilon}$を提案する。
これは漸進的な改善の歴史を人工的に創造することで達成され、そこではノイズがデモ参加者のポリシーに体系的に導入される。
その結果、各遷移は以前の遷移よりも極端に良い軌道を示す。
提案手法はDark RoomとDark Key-to-Door環境でテストし,データ中の最良のポリシと比較して$\textbf{2}$xの改善を実現した。
関連論文リスト
- N-Gram Induction Heads for In-Context RL: Improving Stability and Reducing Data Needs [42.446740732573296]
コンテキスト内学習は、トランスフォーマーのようなモデルが重みを更新することなく、新しいタスクに適応できるようにする。
アルゴリズム蒸留(AD)のような既存のコンテキスト内RL手法では、大きく、慎重にキュレートされたデータセットが要求される。
本研究では,n-gram誘導ヘッドをインコンテキストRLの変換器に統合した。
論文 参考訳(メタデータ) (2024-11-04T10:31:03Z) - Enhancing Noise Robustness of Retrieval-Augmented Language Models with Adaptive Adversarial Training [39.21885486667879]
大型言語モデル(LLM)は、幻覚、時代遅れの知識、追跡不能な推論プロセスなどの課題に遭遇する重大な能力を示す。
Retrieval-augmented Generation(RAG)は、これらの課題を軽減するために、外部データベースからの知識を統合する、有望なソリューションとして登場した。
本稿では,RAAT(Retrieval-augmented Adaptive Adrial Training)として知られる新しいRAGアプローチを提案する。
論文 参考訳(メタデータ) (2024-05-31T16:24:53Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Efficient Meta Reinforcement Learning for Preference-based Fast
Adaptation [17.165083095799712]
本研究では,ループ内強化学習の文脈における少数ショット適応の問題について検討する。
そこで我々は,嗜好に基づくフィードバックによる迅速なポリシー適応を実現するメタRLアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-11-20T03:55:09Z) - In-context Reinforcement Learning with Algorithm Distillation [35.72003039559626]
本稿では,ニューラルネットワークに強化学習アルゴリズムを蒸留する手法を提案し,そのトレーニング履歴を因果シーケンスモデルを用いてモデル化する。
学習履歴のデータセットは、ソースRLアルゴリズムによって生成され、その後、因果変換器は、先行した学習履歴を文脈として、自己回帰的に行動を予測することによって訓練される。
我々は,ADが様々な環境において,スパース報酬,タスク構造,ピクセルベースの観察でコンテキストを学習できることを示し,ADがソースデータを生成するものよりも,よりデータ効率のよいRLアルゴリズムを学習できることを見出した。
論文 参考訳(メタデータ) (2022-10-25T17:57:49Z) - Exploration via Planning for Information about the Optimal Trajectory [67.33886176127578]
我々は,タスクと現在の知識を考慮に入れながら,探索を計画できる手法を開発した。
本手法は, 探索基準値よりも2倍少ないサンプルで, 強いポリシーを学習できることを実証する。
論文 参考訳(メタデータ) (2022-10-06T20:28:55Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Curriculum Offline Imitation Learning [72.1015201041391]
オフラインの強化学習タスクでは、エージェントは、環境とのさらなるインタラクションなしに、事前にコンパイルされたデータセットから学ぶ必要がある。
我々は,適応的な近隣政策を模倣する経験的選択戦略を,より高いリターンで活用するテキストカリキュラムオフライン学習(COIL)を提案する。
連続制御ベンチマークでは、COILを模倣ベースとRLベースの両方の手法と比較し、混合データセット上で平凡な振る舞いを学ぶことを避けるだけでなく、最先端のオフラインRL手法と競合することを示します。
論文 参考訳(メタデータ) (2021-11-03T08:02:48Z) - Learning to Continuously Optimize Wireless Resource in a Dynamic
Environment: A Bilevel Optimization Perspective [52.497514255040514]
この研究は、データ駆動メソッドが動的環境でリソース割り当て戦略を継続的に学び、最適化することを可能にする新しいアプローチを開発しています。
学習モデルが新たなエピソードに段階的に適応できるように、連続学習の概念を無線システム設計に組み込むことを提案する。
我々の設計は、異なるデータサンプルにまたがる公平性を保証する、新しい二段階最適化定式化に基づいている。
論文 参考訳(メタデータ) (2021-05-03T07:23:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。