Fugu-MT 論文翻訳(概要): Random Policy Enables In-Context Reinforcement Learning within Trust Horizons

論文の概要: Random Policy Enables In-Context Reinforcement Learning within Trust Horizons

arxiv url: http://arxiv.org/abs/2410.19982v2
Date: Tue, 14 Jan 2025 06:18:03 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-15 17:02:04.214204
Title: Random Policy Enables In-Context Reinforcement Learning within Trust Horizons
Title（参考訳）: 信頼のホライズン内での文脈強化学習を可能にするランダムポリシー
Authors: Weiqin Chen, Santiago Paternain,
Abstract要約: State-Action Distillation (SAD) は、ランダムポリシーのみによってガイドされる効果的な事前学習データセットを生成する。 SADはオフライン評価では236.3%、オンライン評価では135.2%で最高のベースラインを上回っている。
参考スコア（独自算出の注目度）: 2.52299400625445
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Pretrained foundation models have exhibited extraordinary in-context learning performance, allowing zero-shot generalization to new tasks not encountered during pretraining. In the case of reinforcement learning (RL), in-context RL (ICRL) emerges when pretraining FMs on decision-making problems in an autoregressive-supervised manner. Nevertheless, current state-of-the-art ICRL algorithms, like Algorithm Distillation, Decision Pretrained Transformer and Decision Importance Transformer, impose stringent requirements on the pretraining dataset concerning the source policies, context information, and action labels. Notably, these algorithms either demand optimal policies or require varying degrees of well-trained behavior policies for all pretraining environments. This significantly hinders the application of ICRL to real-world scenarios, where acquiring optimal or well-trained policies for a substantial volume of real-world training environments can be intractable. To overcome this challenge, we introduce a novel approach, termed State-Action Distillation (SAD), that allows to generate an effective pretraining dataset guided solely by random policies. In particular, SAD selects query states and corresponding action labels by distilling outstanding state-action pairs from the entire state and action spaces by using random policies within a trust horizon, and then inherits the classical autoregressive-supervised mechanism during pretraining. To the best of our knowledge, this is the first work that enables effective ICRL under random policies and random contexts. We also establish quantitative analysis of the trustworthiness as well as the performance guarantees of SAD. Moreover, our empirical results across multiple popular ICRL benchmark environments demonstrate that, on average, SAD outperforms the best baseline by 236.3% in the offline evaluation and by 135.2% in the online evaluation.
Abstract（参考訳）: 事前訓練された基礎モデルは、特別なコンテキスト内学習性能を示し、事前訓練中に遭遇しない新しいタスクにゼロショットの一般化を可能にする。強化学習(Regressive Learning, RL)の場合, 自己回帰的指導による意思決定問題に対して, FMを事前訓練する際, ICRL(In-context RL)が出現する。それでも、アルゴリズム蒸留、決定事前学習トランスフォーマー、決定重要トランスフォーマーのような現在の最先端ICRLアルゴリズムは、ソースポリシー、コンテキスト情報、アクションラベルに関する事前訓練データセットに厳格な要件を課している。特に、これらのアルゴリズムは最適なポリシーを要求するか、事前訓練されたすべての環境に対して、様々な訓練された行動ポリシーを必要とする。これにより、ICRLの現実のシナリオへの適用が著しく妨げられ、現実のトレーニング環境のかなりの量に対して最適な、あるいは十分に訓練されたポリシーを取得できる。この課題を克服するために、我々は、ランダムポリシーのみによってガイドされる効果的な事前学習データセットを生成するための、SAD(State-Action Distillation)と呼ばれる新しいアプローチを導入する。特に、SADは、信頼地平線内のランダムポリシーを用いて、状態と行動空間全体から卓越した状態対を蒸留し、クエリ状態と対応する行動ラベルを選択し、事前訓練中に古典的な自己回帰制御機構を継承する。我々の知る限りでは、これはランダムポリシーとランダムコンテキストの下で効果的なICRLを可能にする最初の研究である。また、信頼性とSADの性能保証を定量的に分析する。さらに、複数の人気のあるICRLベンチマーク環境における実験結果から、SADはオフライン評価では236.3%、オンライン評価では135.2%で最高のベースラインを上回ります。

関連論文リスト

Learning in Context, Guided by Choice: A Reward-Free Paradigm for Reinforcement Learning with Transformers [55.33468902405567]
本稿では、事前学習とデプロイの両方が好みのフィードバックにのみ依存する新しい学習パラダイム、In-Context Preference-based Reinforcement Learning (ICPRL)を提案する。 ICPRLは、厳密なコンテキスト内一般化を可能にし、完全な報酬管理で訓練されたICRLメソッドに匹敵するパフォーマンスを達成する。
論文参考訳（メタデータ） (2026-02-09T03:42:16Z)
In-Context Reinforcement Learning through Bayesian Fusion of Context and Value Prior [53.21550098214227]
テキスト内強化学習は、パラメータを更新せずに、目に見えない環境への高速な適応を約束する。本研究では,ベイズ ICRL 法である SPICE を導入し,その事前値を深層アンサンブルで学習し,テスト時に更新する。本研究は,SPICEが準最適軌道のみに事前訓練した場合でも,帯域幅と有限水平MDPの両方において,後悔と最適動作を達成できることを証明した。
論文参考訳（メタデータ） (2026-01-06T13:41:31Z)
Evaluation-Aware Reinforcement Learning [10.594563233900004]
政策評価は、安全および性能クリティカルなシステムをデプロイするための前提条件であることが多い。本稿では,評価対応強化学習(EvA-RL)を提案する。 EvA-RLは競合リターンを維持しつつ評価誤差を大幅に低減できることを示す。
論文参考訳（メタデータ） (2025-09-23T18:17:21Z)
EXPO: Stable Reinforcement Learning with Expressive Policies [74.30151915786233]
2つのパラメータ化ポリシーで値の最大化を実現するために,サンプル効率のよいオンライン強化学習アルゴリズムを提案する。提案手法は, 従来手法に比べて試料効率を最大2～3倍向上させる。
論文参考訳（メタデータ） (2025-07-10T17:57:46Z)
Safe Domain Randomization via Uncertainty-Aware Out-of-Distribution Detection and Policy Adaptation [26.241756408576684]
Uncertainty-Aware RL (UARL) は、ターゲットドメイン内で直接のインタラクションを必要とせず、OOD(Out-Of-Distribution)の検出とポリシー適応に対処することで、トレーニング中の安全性を優先する新しいフレームワークである。我々は, MuJoCoベンチマークと四足歩行ロボット上でのUARLを評価し, 信頼性の高いOOD検出, 性能向上, ベースラインと比較して試料効率の向上を実証した。
論文参考訳（メタデータ） (2025-07-08T15:51:57Z)
Flow-Based Policy for Online Reinforcement Learning [34.86742824686496]
FlowRLは、フローベースのポリシー表現とWasserstein-2正規化最適化を統合する、オンライン強化学習のためのフレームワークである。オンライン強化学習ベンチマークにおいて,FlowRLが競争力を発揮することを示す。
論文参考訳（メタデータ） (2025-06-15T10:53:35Z)
Representation-based Reward Modeling for Efficient Safety Alignment of Large Language Model [84.00480999255628]
大規模言語モデル(LLM)の安全性アライメントのための強化学習アルゴリズムは,分散シフトの課題に直面している。現在のアプローチでは、ターゲットポリシーからのオンラインサンプリングを通じてこの問題に対処するのが一般的である。モデル固有の安全判断能力を活用して報酬信号を抽出する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-13T06:40:34Z)
Constrained Reinforcement Learning Under Model Mismatch [18.05296241839688]
制約強化学習(RL)に関する既存の研究は、訓練環境における優れた政策を得ることができる。しかし、実際の環境にデプロイすると、トレーニングと実際の環境の間にモデルミスマッチがあるため、トレーニング中に当初満足していた制約に容易に違反する可能性がある。我々は,大規模かつ連続的な状態空間に適用可能な最初のアルゴリズムであるロバスト制約付きポリシー最適化(RCPO)アルゴリズムを開発し,トレーニング中の各イテレーションにおいて最悪の報酬改善と制約違反を理論的に保証する。
論文参考訳（メタデータ） (2024-05-02T14:31:52Z)
Foundation Policies with Hilbert Representations [54.44869979017766]
ラベルなしオフラインデータから一般ポリシーを事前学習するための教師なしフレームワークを提案する。我々の重要な洞察は、基盤となる環境の時間的構造を保存する構造的表現を学習することである。実験の結果、教師なしのポリシーは、ゴール条件付きおよび一般のRLタスクをゼロショットで解決できることがわかった。
論文参考訳（メタデータ） (2024-02-23T19:09:10Z)
Statistically Efficient Variance Reduction with Double Policy Estimation for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。 D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文参考訳（メタデータ） (2023-08-28T20:46:07Z)
Model-based Safe Deep Reinforcement Learning via a Constrained Proximal Policy Optimization Algorithm [4.128216503196621]
オンライン方式で環境の遷移動態を学習する,オンライン型モデルに基づくセーフディープRLアルゴリズムを提案する。我々は,本アルゴリズムがより標本効率が高く,制約付きモデルフリーアプローチと比較して累積的ハザード違反が低いことを示す。
論文参考訳（メタデータ） (2022-10-14T06:53:02Z)
A State-Distribution Matching Approach to Non-Episodic Reinforcement Learning [61.406020873047794]
現実世界の応用への大きなハードルは、エピソード的な環境でのアルゴリズムの開発である。提案手法は,提案する実証実験における状態分布に一致するように後方方針を訓練する手法である。実験の結果,MEDALは3つのスパース・リワード連続制御タスクにおいて先行手法と一致し,性能が向上することがわかった。
論文参考訳（メタデータ） (2022-05-11T00:06:29Z)
Robustness and risk management via distributional dynamic programming [13.173307471333619]
我々は,政策評価のための実用的なDPアルゴリズムとともに,分散演算子の新しいクラスを導入する。我々の手法は、各状態が最悪の部分状態と最良の部分状態に分割される拡張状態空間を通して再構成される。我々は、分散演算子とDPアルゴリズムを導出し、新しい制御課題を解決する。
論文参考訳（メタデータ） (2021-12-28T12:12:57Z)
Curriculum Offline Imitation Learning [72.1015201041391]
オフラインの強化学習タスクでは、エージェントは、環境とのさらなるインタラクションなしに、事前にコンパイルされたデータセットから学ぶ必要がある。我々は,適応的な近隣政策を模倣する経験的選択戦略を,より高いリターンで活用するテキストカリキュラムオフライン学習(COIL)を提案する。連続制御ベンチマークでは、COILを模倣ベースとRLベースの両方の手法と比較し、混合データセット上で平凡な振る舞いを学ぶことを避けるだけでなく、最先端のオフラインRL手法と競合することを示します。
論文参考訳（メタデータ） (2021-11-03T08:02:48Z)
Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文参考訳（メタデータ） (2021-10-12T17:05:05Z)
Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning [63.53407136812255]
オフライン強化学習は、探索を必要とせずに、事前に収集された静的データセットから効果的なポリシーを学ぶことを約束する。既存のQラーニングとアクター批判に基づくオフポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(OOD)アクションや状態からのブートストラップ時に失敗する。我々は,OOD状態-動作ペアを検出し,トレーニング目標への貢献度を下げるアルゴリズムであるUncertainty Weighted Actor-Critic (UWAC)を提案する。
論文参考訳（メタデータ） (2021-05-17T20:16:46Z)
MUSBO: Model-based Uncertainty Regularized and Sample Efficient Batch Optimization for Deployment Constrained Reinforcement Learning [108.79676336281211]
データ収集とオンライン学習のための新しいポリシーの継続的展開はコスト非効率か非現実的かのどちらかである。モデルベース不確実性正規化とサンプル効率的なバッチ最適化という新しいアルゴリズム学習フレームワークを提案する。本フレームワークは,各デプロイメントの新規で高品質なサンプルを発見し,効率的なデータ収集を実現する。
論文参考訳（メタデータ） (2021-02-23T01:30:55Z)
Risk-Averse Offline Reinforcement Learning [46.383648750385575]
高度なアプリケーションでRL(Training Reinforcement Learning)エージェントを訓練することは、探索に伴うリスクのため、あまりにも禁じられている可能性がある。 O-RAAC(Offline Risk-Averse Actor-Critic)は,完全オフライン環境でリスク-Averseポリシーを学習可能なモデルフリーRLアルゴリズムである。
論文参考訳（メタデータ） (2021-02-10T10:27:49Z)
Expert-Supervised Reinforcement Learning for Offline Policy Learning and Evaluation [21.703965401500913]
本稿では,オフライン政策学習のための不確実性定量化手法であるExpert-Supervised RL (ESRL) フレームワークを提案する。具体的には,1)仮説テストによる安全かつ最適なポリシの学習,2)ESRLはアプリケーションコンテキストに合わせて異なるレベルのリスク逆実装を可能にし,3)後続分布を通してESRLのポリシーを解釈する方法を提案する。
論文参考訳（メタデータ） (2020-06-23T17:43:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。