Fugu-MT 論文翻訳(概要): Yes, Q-learning Helps Offline In-Context RL

論文の概要: Yes, Q-learning Helps Offline In-Context RL

arxiv url: http://arxiv.org/abs/2502.17666v3
Date: Mon, 19 May 2025 16:55:06 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-20 14:57:10.485718
Title: Yes, Q-learning Helps Offline In-Context RL
Title（参考訳）: Q-learningはコンテキスト内RLのオフライン化を支援する
Authors: Denis Tarasov, Alexander Nikulin, Ilya Zisman, Albina Klepach, Andrei Polubarov, Nikita Lyubaykin, Alexander Derevyagin, Igor Kiselev, Vladislav Kurenkov,
Abstract要約: 本研究では,オフラインのテキスト内強化学習フレームワークにおけるRL目標の統合について検討する。 RL目標の最適化は、広く採用されているアルゴリズム蒸留(AD)と比較して、平均で約30%向上することを示した。私たちの結果は、バリュー学習中に保守性を追加することで、テストされたほぼすべての設定にさらなる改善がもたらされることも示しています。
参考スコア（独自算出の注目度）: 69.26691452160505
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Existing offline in-context reinforcement learning (ICRL) methods have predominantly relied on supervised training objectives, which are known to have limitations in offline RL settings. In this study, we explore the integration of RL objectives within an offline ICRL framework. Through experiments on more than 150 GridWorld and MuJoCo environment-derived datasets, we demonstrate that optimizing RL objectives directly improves performance by approximately 30% on average compared to widely adopted Algorithm Distillation (AD), across various dataset coverages, structures, expertise levels, and environmental complexities. Furthermore, in the challenging XLand-MiniGrid environment, RL objectives doubled the performance of AD. Our results also reveal that the addition of conservatism during value learning brings additional improvements in almost all settings tested. Our findings emphasize the importance of aligning ICRL learning objectives with the RL reward-maximization goal, and demonstrate that offline RL is a promising direction for advancing ICRL.
Abstract（参考訳）: 既存のオフラインインコンテキスト強化学習(ICRL)手法は、オフラインRL設定に制限があることが知られている教師付きトレーニング目標に大きく依存している。本研究では,オフラインICRLフレームワークにおけるRL目標の統合について検討する。 150以上のGridWorldおよびMuJoCo環境由来データセットの実験を通じて、RLの目的を最適化することで、さまざまなデータセットカバレッジ、構造、専門レベル、環境複雑さに対して、広く採用されているアルゴリズム蒸留(AD)と比較して、パフォーマンスが平均で約30%向上することを示した。さらに、挑戦的なXLand-MiniGrid環境では、RLの目標はADの性能を2倍にした。私たちの結果は、バリュー学習中に保守性を追加することで、テストされたほぼすべての設定にさらなる改善がもたらされることも示しています。本研究は, ICRL 学習目標と RL 報酬最大化目標との整合性の重要性を強調し, オフライン RL が ICRL 推進の有望な方向であることを実証した。

関連論文リスト

Unsupervised Data Generation for Offline Reinforcement Learning: A Perspective from Model [57.20064815347607]
オフライン強化学習(RL)は、最近RL研究者から関心が高まりつつある。オフラインRLの性能は、オンラインRLのフィードバックによって修正できる配布外問題に悩まされる。本稿では、まず、バッチデータとオフラインRLアルゴリズムの性能を理論的に橋渡しする。タスクに依存しない環境では、教師なしのRLによって訓練された一連のポリシーは、パフォーマンスギャップにおける最悪の後悔を最小限に抑えることができることを示す。
論文参考訳（メタデータ） (2025-06-24T14:08:36Z)
MOORL: A Framework for Integrating Offline-Online Reinforcement Learning [6.7265073544042995]
オフラインおよびオンライン学習を統合するハイブリッドフレームワークであるMOORL(Meta Offline-Online Reinforcement Learning)を提案する。提案手法は,オフラインデータとオンラインデータの相補的強みを効果的に組み合わせることで,探索の促進を図っている。計算オーバーヘッドが最小限であるMOORLは、実世界のシナリオにおける実用的な応用の可能性を強調し、高い性能を達成する。
論文参考訳（メタデータ） (2025-06-11T10:12:50Z)
Enhancing Online Reinforcement Learning with Meta-Learned Objective from Offline Data [8.583014846046886]
強化学習(RL)における大きな課題は、スパース報酬から最適な政策を学ぶことの難しさである。我々は,オフラインデータから知識を抽出する目的をメタ学習するGILD(Generalized Imitation Learning from Demonstration)を開発した。課題である4つのMuJoCoタスクにおいて、GILDで拡張された3つのRLアルゴリズムが、最先端の手法を大幅に上回っていることを示す。
論文参考訳（メタデータ） (2025-01-13T14:11:12Z)
A Benchmark Environment for Offline Reinforcement Learning in Racing Games [54.83171948184851]
オフライン強化学習(英語: Offline Reinforcement Learning、ORL)は、従来の強化学習(RL)の高サンプリング複雑さを減らすための有望なアプローチである。本稿では,ORL研究のための新しい環境であるOfflineManiaを紹介する。 TrackManiaシリーズにインスパイアされ、Unity 3Dゲームエンジンで開発された。
論文参考訳（メタデータ） (2024-07-12T16:44:03Z)
Learning Goal-Conditioned Policies from Sub-Optimal Offline Data via Metric Learning [22.174803826742963]
目標条件付きオフライン強化学習における最適データセットからの最適行動学習の問題に対処する。本稿では,目標条件付きオフラインRL問題に対する最適値関数を近似するための計量学習法を提案する。本手法は,分布外推定誤差に悩まされることなく,高度に最適化されたオフラインデータセットから最適な挙動を推定する。
論文参考訳（メタデータ） (2024-02-16T16:46:53Z)
SMORE: Score Models for Offline Goal-Conditioned Reinforcement Learning [33.125187822259186]
オフライン目標定義強化学習(GCRL)は、スパース報酬関数を使用して、オフラインデータセットから純粋な環境において、複数の目標を達成するための学習を行う。我々は混合分布マッチングの新しいレンズの下でGCRLに新しいアプローチを提案する。
論文参考訳（メタデータ） (2023-11-03T16:19:33Z)
Reward-agnostic Fine-tuning: Provable Statistical Benefits of Hybrid Reinforcement Learning [66.43003402281659]
オンラインデータ収集を効率的に活用してオフラインデータセットを強化し補完する方法に、中心的な疑問が浮かび上がっている。我々は、純粋なオフラインRLと純粋なオンラインRLという、両方の世界のベストを打ち負かす3段階のハイブリッドRLアルゴリズムを設計する。提案アルゴリズムは,データ収集時に報酬情報を必要としない。
論文参考訳（メタデータ） (2023-05-17T15:17:23Z)
Using Offline Data to Speed Up Reinforcement Learning in Procedurally Generated Environments [16.62777710035937]
本研究では, エージェントがオフラインデータをトラジェクトリ形式で活用して, 手続き的に生成した環境におけるサンプル効率を向上させることができるかを検討した。 1)オンラインRLトレーニングの前にポリシーを事前学習し、(2)オフラインデータからオンラインRLとILでポリシーを同時に訓練する。
論文参考訳（メタデータ） (2023-04-18T16:23:15Z)
Optimal Goal-Reaching Reinforcement Learning via Quasimetric Learning [73.80728148866906]
準メトリック強化学習(QRL)は、準メトリックモデルを用いて最適な値関数を学習する新しいRL法である。オフラインおよびオンラインの目標達成ベンチマークでは、QRLはサンプル効率とパフォーマンスが改善されている。
論文参考訳（メタデータ） (2023-04-03T17:59:58Z)
Benchmarks and Algorithms for Offline Preference-Based Reward Learning [41.676208473752425]
本稿では、オフラインデータセットを用いて、プールベースのアクティブラーニングによる嗜好クエリを作成するアプローチを提案する。提案手法では,報酬学習や政策最適化のステップに対して,実際の物理ロールアウトや正確なシミュレータを必要としない。
論文参考訳（メタデータ） (2023-01-03T23:52:16Z)
Behavioral Priors and Dynamics Models: Improving Performance and Domain Transfer in Offline RL [82.93243616342275]
適応行動優先型オフラインモデルに基づくRL(Adaptive Behavioral Priors:MABE)を導入する。 MABEは、ドメイン内の一般化をサポートする動的モデルと、ドメイン間の一般化をサポートする振る舞いの事前が相補的であることの発見に基づいている。クロスドメインの一般化を必要とする実験では、MABEが先行手法より優れていることが判明した。
論文参考訳（メタデータ） (2021-06-16T20:48:49Z)
Representation Matters: Offline Pretraining for Sequential Decision Making [27.74988221252854]
本稿では,オフラインデータを逐次意思決定に組み込む手法について考察する。教師なし学習目標を用いた事前学習は,政策学習アルゴリズムの性能を劇的に向上させることができる。
論文参考訳（メタデータ） (2021-02-11T02:38:12Z)
RL Unplugged: A Suite of Benchmarks for Offline Reinforcement Learning [108.9599280270704]
オフラインのRL手法を評価・比較するためのRL Unpluggedというベンチマークを提案する。 RL Unpluggedにはゲームやシミュレートされたモーター制御問題を含むさまざまな領域のデータが含まれている。本論文で提示した全タスクのデータと,全アルゴリズムをオープンソースとして公開する。
論文参考訳（メタデータ） (2020-06-24T17:14:51Z)
D4RL: Datasets for Deep Data-Driven Reinforcement Learning [119.49182500071288]
オフラインRLのリアルタイムアプリケーションに関連するデータセットのキープロパティによってガイドされるオフライン設定用に特別に設計されたベンチマークを紹介する。部分的に訓練されたRLエージェントによって収集された単純なベンチマークタスクやデータを超えて、既存のアルゴリズムの重要かつ未承認な欠陥を明らかにする。
論文参考訳（メタデータ） (2020-04-15T17:18:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。