論文の概要: TROFI: Trajectory-Ranked Offline Inverse Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2506.22008v1
- Date: Fri, 27 Jun 2025 08:22:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 21:12:23.134384
- Title: TROFI: Trajectory-Ranked Offline Inverse Reinforcement Learning
- Title(参考訳): TROFI: 軌道駆動型オフライン逆強化学習
- Authors: Alessandro Sestini, Joakim Bergdahl, Konrad Tollmar, Andrew D. Bagdanov, Linus Gisslén,
- Abstract要約: 本稿では,TROFI(Trjectory-Ranked Offline Inverse reinforcement Learning)を提案する。
TROFIは、事前に定義された報酬関数なしでオフラインでポリシーを効果的に学習するための新しいアプローチである。
TROFIは基準線を一貫して上回り、基本真理報酬を用いてポリシーを学ぶのに相容れない性能を示す。
- 参考スコア(独自算出の注目度): 48.31236495564408
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In offline reinforcement learning, agents are trained using only a fixed set of stored transitions derived from a source policy. However, this requires that the dataset be labeled by a reward function. In applied settings such as video game development, the availability of the reward function is not always guaranteed. This paper proposes Trajectory-Ranked OFfline Inverse reinforcement learning (TROFI), a novel approach to effectively learn a policy offline without a pre-defined reward function. TROFI first learns a reward function from human preferences, which it then uses to label the original dataset making it usable for training the policy. In contrast to other approaches, our method does not require optimal trajectories. Through experiments on the D4RL benchmark we demonstrate that TROFI consistently outperforms baselines and performs comparably to using the ground truth reward to learn policies. Additionally, we validate the efficacy of our method in a 3D game environment. Our studies of the reward model highlight the importance of the reward function in this setting: we show that to ensure the alignment of a value function to the actual future discounted reward, it is fundamental to have a well-engineered and easy-to-learn reward function.
- Abstract(参考訳): オフラインの強化学習では、エージェントはソースポリシーから派生した固定されたトランジションセットのみを使用して訓練される。
しかし、これはデータセットに報酬関数をラベル付けする必要がある。
ビデオゲーム開発のような応用環境では、報酬関数の可用性は必ずしも保証されない。
本稿では,提案するTROFI(Trjectory-Ranked Offline Inverse reinforcement Learning)を提案する。
TROFIはまず、人間の好みから報酬関数を学習し、その後、ポリシーのトレーニングに使えるように、オリジナルのデータセットをラベル付けする。
他の手法とは対照的に,本手法は最適軌跡を必要としない。
D4RLベンチマークの実験により、TROFIはベースラインを一貫して上回り、基本真理報酬を用いてポリシーを学ぶのに相容れない性能を示す。
さらに,本手法の有効性を3次元ゲーム環境において検証する。
報奨モデルの研究は,この設定における報奨関数の重要性を浮き彫りにしたものであり,報奨関数と実際の割引報酬関数との整合性を確保するためには,十分な技術と学習が容易な報奨関数を持つことが基本であることを示す。
関連論文リスト
- Leveraging Skills from Unlabeled Prior Data for Efficient Online Exploration [54.8229698058649]
ラベルなしのオフライン軌道データは、効率的な探索戦略を学ぶために利用することができる。
提案手法は,42の長軸,スパース・リワードタスクからなるスイートにおいて,従来戦略よりも一貫して優れていた。
論文 参考訳(メタデータ) (2024-10-23T17:58:45Z) - Efficient Preference-based Reinforcement Learning via Aligned Experience Estimation [37.36913210031282]
評価に基づく強化学習(PbRL)は、報酬工学を使わずにトレーニングエージェントに優れた能力を示す。
ラベルの平滑化とポリシー正則化を併用した効率的なPbRL法であるSEERを提案する。
論文 参考訳(メタデータ) (2024-05-29T01:49:20Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - PAGAR: Taming Reward Misalignment in Inverse Reinforcement
Learning-Based Imitation Learning with Protagonist Antagonist Guided
Adversarial Reward [8.83374617444803]
我々は、PAGAR(Protagonist Antagonist Guided Adrial Reward)と呼ばれる半教師付き報酬設計パラダイムを導入する。
PAGARベースのILは、IRLベースのILのように単一の報酬関数ではなく、混合報酬関数の下でうまく機能するポリシーを訓練する。
提案アルゴリズムは,複雑なタスクにおいて標準のILベースラインよりも優れており,転送設定が困難であることを示す。
論文 参考訳(メタデータ) (2023-06-02T17:57:53Z) - Benchmarks and Algorithms for Offline Preference-Based Reward Learning [41.676208473752425]
本稿では、オフラインデータセットを用いて、プールベースのアクティブラーニングによる嗜好クエリを作成するアプローチを提案する。
提案手法では,報酬学習や政策最適化のステップに対して,実際の物理ロールアウトや正確なシミュレータを必要としない。
論文 参考訳(メタデータ) (2023-01-03T23:52:16Z) - Teacher Forcing Recovers Reward Functions for Text Generation [21.186397113834506]
本稿では,教師の強制力で訓練されたモデルから直接,ステップワイズ報酬関数を導出するタスク依存型手法を提案する。
また、並列でないデータセットに対するRLトレーニングを誘導報酬関数で安定化するための簡単な修正も提案する。
論文 参考訳(メタデータ) (2022-10-17T02:48:58Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Dynamics-Aware Comparison of Learned Reward Functions [21.159457412742356]
報酬関数を学習する能力は、現実世界にインテリジェントエージェントを配置する上で重要な役割を果たす。
リワード関数は通常、最適化されたポリシーの振舞いを考慮することで比較されるが、このアプローチは報酬関数の欠陥を最適化に使用するポリシー探索アルゴリズムのそれと混同する。
そこで我々はDARD(Dynamics-Aware Reward Distance)を提案する。
論文 参考訳(メタデータ) (2022-01-25T03:48:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。