論文の概要: Yes, Q-learning Helps Offline In-Context RL
- arxiv url: http://arxiv.org/abs/2502.17666v1
- Date: Mon, 24 Feb 2025 21:29:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 15:22:50.406956
- Title: Yes, Q-learning Helps Offline In-Context RL
- Title(参考訳): Q-learningはコンテキスト内RLのオフライン化を支援する
- Authors: Denis Tarasov, Alexander Nikulin, Ilya Zisman, Albina Klepach, Andrei Polubarov, Nikita Lyubaykin, Alexander Derevyagin, Igor Kiselev, Vladislav Kurenkov,
- Abstract要約: RL目標の最適化は,広く確立されたアルゴリズム蒸留(AD)ベースラインと比較して,平均で約40%向上することを示す。
また、オフラインのRLベースの手法は、オフラインのシナリオに特化して設計されていないオンラインアプローチよりも優れていることも明らかにした。
- 参考スコア(独自算出の注目度): 69.26691452160505
- License:
- Abstract: In this work, we explore the integration of Reinforcement Learning (RL) approaches within a scalable offline In-Context RL (ICRL) framework. Through experiments across more than 150 datasets derived from GridWorld and MuJoCo environments, we demonstrate that optimizing RL objectives improves performance by approximately 40% on average compared to the widely established Algorithm Distillation (AD) baseline across various dataset coverages, structures, expertise levels, and environmental complexities. Our results also reveal that offline RL-based methods outperform online approaches, which are not specifically designed for offline scenarios. These findings underscore the importance of aligning the learning objectives with RL's reward-maximization goal and demonstrate that offline RL is a promising direction for application in ICRL settings.
- Abstract(参考訳): 本研究では、スケーラブルなオフラインIn-Context RL(ICRL)フレームワークにおける強化学習(RL)アプローチの統合について検討する。
GridWorldとMuJoCo環境から派生した150以上のデータセットを対象とした実験を通じて、RLの目的を最適化することで、さまざまなデータセットのカバレッジ、構造、専門レベル、環境複合体にわたる広く確立されたアルゴリズム蒸留(AD)ベースラインと比較して、平均で約40%パフォーマンスが向上することを示した。
また、オフラインのRLベースの手法は、オフラインのシナリオに特化して設計されていないオンラインアプローチよりも優れていることも明らかにした。
これらの結果は、学習目標をRLの報酬最大化目標と整合させることの重要性を強調し、オフラインRLがICRL設定での応用に有望な方向であることを実証する。
関連論文リスト
- A Benchmark Environment for Offline Reinforcement Learning in Racing Games [54.83171948184851]
オフライン強化学習(英語: Offline Reinforcement Learning、ORL)は、従来の強化学習(RL)の高サンプリング複雑さを減らすための有望なアプローチである。
本稿では,ORL研究のための新しい環境であるOfflineManiaを紹介する。
TrackManiaシリーズにインスパイアされ、Unity 3Dゲームエンジンで開発された。
論文 参考訳(メタデータ) (2024-07-12T16:44:03Z) - Reward-agnostic Fine-tuning: Provable Statistical Benefits of Hybrid
Reinforcement Learning [66.43003402281659]
オンラインデータ収集を効率的に活用してオフラインデータセットを強化し補完する方法に、中心的な疑問が浮かび上がっている。
我々は、純粋なオフラインRLと純粋なオンラインRLという、両方の世界のベストを打ち負かす3段階のハイブリッドRLアルゴリズムを設計する。
提案アルゴリズムは,データ収集時に報酬情報を必要としない。
論文 参考訳(メタデータ) (2023-05-17T15:17:23Z) - Using Offline Data to Speed Up Reinforcement Learning in Procedurally Generated Environments [16.62777710035937]
本研究では, エージェントがオフラインデータをトラジェクトリ形式で活用して, 手続き的に生成した環境におけるサンプル効率を向上させることができるかを検討した。
1)オンラインRLトレーニングの前にポリシーを事前学習し、(2)オフラインデータからオンラインRLとILでポリシーを同時に訓練する。
論文 参考訳(メタデータ) (2023-04-18T16:23:15Z) - Optimal Goal-Reaching Reinforcement Learning via Quasimetric Learning [73.80728148866906]
準メトリック強化学習(QRL)は、準メトリックモデルを用いて最適な値関数を学習する新しいRL法である。
オフラインおよびオンラインの目標達成ベンチマークでは、QRLはサンプル効率とパフォーマンスが改善されている。
論文 参考訳(メタデータ) (2023-04-03T17:59:58Z) - Benchmarks and Algorithms for Offline Preference-Based Reward Learning [41.676208473752425]
本稿では、オフラインデータセットを用いて、プールベースのアクティブラーニングによる嗜好クエリを作成するアプローチを提案する。
提案手法では,報酬学習や政策最適化のステップに対して,実際の物理ロールアウトや正確なシミュレータを必要としない。
論文 参考訳(メタデータ) (2023-01-03T23:52:16Z) - Behavioral Priors and Dynamics Models: Improving Performance and Domain
Transfer in Offline RL [82.93243616342275]
適応行動優先型オフラインモデルに基づくRL(Adaptive Behavioral Priors:MABE)を導入する。
MABEは、ドメイン内の一般化をサポートする動的モデルと、ドメイン間の一般化をサポートする振る舞いの事前が相補的であることの発見に基づいている。
クロスドメインの一般化を必要とする実験では、MABEが先行手法より優れていることが判明した。
論文 参考訳(メタデータ) (2021-06-16T20:48:49Z) - Representation Matters: Offline Pretraining for Sequential Decision
Making [27.74988221252854]
本稿では,オフラインデータを逐次意思決定に組み込む手法について考察する。
教師なし学習目標を用いた事前学習は,政策学習アルゴリズムの性能を劇的に向上させることができる。
論文 参考訳(メタデータ) (2021-02-11T02:38:12Z) - D4RL: Datasets for Deep Data-Driven Reinforcement Learning [119.49182500071288]
オフラインRLのリアルタイムアプリケーションに関連するデータセットのキープロパティによってガイドされるオフライン設定用に特別に設計されたベンチマークを紹介する。
部分的に訓練されたRLエージェントによって収集された単純なベンチマークタスクやデータを超えて、既存のアルゴリズムの重要かつ未承認な欠陥を明らかにする。
論文 参考訳(メタデータ) (2020-04-15T17:18:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。