論文の概要: Trajectory-Level Data Augmentation for Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2605.13401v1
- Date: Wed, 13 May 2026 11:57:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:28.025447
- Title: Trajectory-Level Data Augmentation for Offline Reinforcement Learning
- Title(参考訳): オフライン強化学習のための軌道レベルデータ拡張
- Authors: Tobias Schmähling, Matthias Burkhardt, Tobias Windisch,
- Abstract要約: 本稿では,タスク構造と報酬,値関数,ロギングポリシの数学的特性の幾何学的関係を活かしたトラジェクトリベースの拡張手法を提案する。
データ収集中、当社の強化は、最適下層ロギングポリシーをサポートし、データ品質の向上とオフライン強化学習性能の向上につながります。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a data augmentation method for offline reinforcement learning, motivated by active positioning problems. Particularly, our approach enables the training of off-policy models from a limited number of suboptimal trajectories. We introduce a trajectory-based augmentation technique that exploits task structure and the geometric relationship between rewards, value functions, and mathematical properties of logging policies. During data collection, our augmentation supports suboptimal logging policies, leading to higher data quality and improved offline reinforcement learning performance. We provide theoretical justification for these strategies and validate them empirically across positioning tasks of varying dimensionality and under partial observability.
- Abstract(参考訳): アクティブな位置決め問題に動機づけられたオフライン強化学習のためのデータ拡張手法を提案する。
特に,本手法は,限られた数の準最適軌道からの非政治モデルの訓練を可能にする。
本稿では,タスク構造と報酬,値関数,ロギングポリシの数学的特性の幾何学的関係を活かしたトラジェクトリベースの拡張手法を提案する。
データ収集中、当社の強化は、最適下層ロギングポリシーをサポートし、データ品質の向上とオフライン強化学習性能の向上につながります。
我々はこれらの戦略を理論的に正当化し、様々な次元と部分的可観測性のある位置決めタスクを経験的に検証する。
関連論文リスト
- Decentralized Learning Strategies for Estimation Error Minimization with Graph Neural Networks [86.99017195607077]
無線ネットワークにおける自己回帰的マルコフ音源のリアルタイムサンプリングと推定について検討する。
政策最適化のためのグラフィカル強化学習フレームワークを提案する。
理論的には、提案したポリシーは転送可能であり、あるグラフ上で訓練されたポリシーを構造的に類似したグラフに効果的に適用することができる。
論文 参考訳(メタデータ) (2026-01-19T02:18:45Z) - Offline Hierarchical Reinforcement Learning via Inverse Optimization [23.664330010602708]
OHIOは、階層的ポリシーのオフライン強化学習のためのフレームワークである。
エンド・ツー・エンドのRL法を大幅に上回り、ロバスト性を向上させる。
論文 参考訳(メタデータ) (2024-10-10T14:00:21Z) - Offline Reinforcement Learning from Datasets with Structured Non-Stationarity [50.35634234137108]
現在の強化学習(RL)は、成功するポリシーを学ぶのに必要な大量のデータによって制限されることが多い。
本稿では,データセットを収集しながら,各エピソードの遷移と報酬関数が徐々に変化するが,各エピソード内で一定に保たれるような新しいオフラインRL問題に対処する。
本稿では、オフラインデータセットにおけるこの非定常性を識別し、ポリシーのトレーニング時にそれを説明し、評価中に予測するContrastive Predictive Codingに基づく手法を提案する。
論文 参考訳(メタデータ) (2024-05-23T02:41:36Z) - Small Dataset, Big Gains: Enhancing Reinforcement Learning by Offline
Pre-Training with Model Based Augmentation [59.899714450049494]
オフラインの事前トレーニングは、準最適ポリシーを生成し、オンライン強化学習のパフォーマンスを低下させる可能性がある。
本稿では,オフライン強化学習による事前学習のメリットを最大化し,有効となるために必要なデータの規模を削減するためのモデルベースデータ拡張戦略を提案する。
論文 参考訳(メタデータ) (2023-12-15T14:49:41Z) - Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。
主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。
本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。