論文の概要: PROF: An LLM-based Reward Code Preference Optimization Framework for Offline Imitation Learning
- arxiv url: http://arxiv.org/abs/2511.13765v1
- Date: Fri, 14 Nov 2025 14:38:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:52.696275
- Title: PROF: An LLM-based Reward Code Preference Optimization Framework for Offline Imitation Learning
- Title(参考訳): PROF: オフライン模倣学習のためのLLMベースのリワードコード参照最適化フレームワーク
- Authors: Shengjie Sun, Jiafei Lyu, Runze Liu, Mengbei Yan, Bo Liu, Deheng Ye, Xiu Li,
- Abstract要約: 本稿では,自然言語記述から実行可能報酬関数コードを生成し,改善するためのフレームワークであるPROFと,単一専門家の軌跡を提案する。
また,環境相互作用やRLトレーニングを必要とせず,新たな報酬関数品質評価とランキング戦略であるReward Preference Ranking(RPR)を提案する。
- 参考スコア(独自算出の注目度): 29.373324685358753
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline imitation learning (offline IL) enables training effective policies without requiring explicit reward annotations. Recent approaches attempt to estimate rewards for unlabeled datasets using a small set of expert demonstrations. However, these methods often assume that the similarity between a trajectory and an expert demonstration is positively correlated with the reward, which oversimplifies the underlying reward structure. We propose PROF, a novel framework that leverages large language models (LLMs) to generate and improve executable reward function codes from natural language descriptions and a single expert trajectory. We propose Reward Preference Ranking (RPR), a novel reward function quality assessment and ranking strategy without requiring environment interactions or RL training. RPR calculates the dominance scores of the reward functions, where higher scores indicate better alignment with expert preferences. By alternating between RPR and text-based gradient optimization, PROF fully automates the selection and refinement of optimal reward functions for downstream policy learning. Empirical results on D4RL demonstrate that PROF surpasses or matches recent strong baselines across numerous datasets and domains, highlighting the effectiveness of our approach.
- Abstract(参考訳): オフライン模倣学習(オフラインIL)は、明示的な報酬アノテーションを必要とせずに効果的なポリシーを訓練することができる。
最近のアプローチでは、少数の専門家によるデモンストレーションを用いてラベルなしデータセットの報酬を見積もろうとしている。
しかし、これらの手法はしばしば、軌道と専門家のデモンストレーションの類似性は報酬と正の相関関係にあると仮定し、それが基礎となる報酬構造を過度に単純化する。
ProFは,大規模言語モデル(LLM)を利用して,自然言語記述と単一専門家軌道から実行可能な報酬関数コードを生成し,改善する新しいフレームワークである。
本稿では,環境相互作用やRLトレーニングを必要とせず,新たな報酬関数品質評価とランキング戦略であるReward Preference Ranking(RPR)を提案する。
RPRは報酬関数の優位スコアを計算し、より高いスコアは専門家の選好との整合性を示す。
RPRとテキストベースの勾配最適化を交互に組み合わせることで、PROFは下流ポリシー学習のための最適報酬関数の選択と洗練を完全に自動化する。
D4RLの実証的な結果は、PROFが最近の強力なベースラインを、多くのデータセットやドメインで超越し、一致していることを示し、我々のアプローチの有効性を強調している。
関連論文リスト
- Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。
我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。
我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文 参考訳(メタデータ) (2025-09-23T16:15:42Z) - Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [63.32585910975191]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。
当社のアプローチは,DPOをかなりのマージンで継続的に向上させることを示す。
本手法は,嗜好データの有用性を最大化するだけでなく,未学習の問題も軽減し,データ拡張を超えてその広範な効果を実証する。
論文 参考訳(メタデータ) (2024-10-10T16:01:51Z) - LIRE: listwise reward enhancement for preference alignment [27.50204023448716]
本稿では、複数の応答のオフライン報酬を合理化されたリストワイズフレームワークに組み込む、勾配に基づく報酬最適化手法を提案する。
LIREは実装が簡単で、最小限のパラメータチューニングを必要とし、ペアワイズパラダイムとシームレスに整合する。
実験の結果,LIREは対話タスクや要約タスクのベンチマークにおいて,既存のメソッドよりも一貫して優れていることがわかった。
論文 参考訳(メタデータ) (2024-05-22T10:21:50Z) - Fine-Tuning Language Models with Reward Learning on Policy [68.70065254564642]
人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせる効果的なアプローチとして現れている。
その人気にもかかわらず、(固定された)報酬モデルが不正確な流通に悩まされることがある。
本稿では、政策サンプルを用いて報酬モデルを洗練し、流通を継続する、教師なしのフレームワークであるポリシーに関する報酬学習(RLP)を提案する。
論文 参考訳(メタデータ) (2024-03-28T10:02:10Z) - Information Directed Reward Learning for Reinforcement Learning [64.33774245655401]
我々は、標準rlアルゴリズムが可能な限り少数の専門家クエリで高い期待値を達成することができる報酬関数のモデルを学ぶ。
特定のタイプのクエリ用に設計された以前のアクティブな報酬学習方法とは対照的に、IDRLは自然に異なるクエリタイプに対応します。
我々は,複数の環境における広範囲な評価と,異なるタイプのクエリでこの結果を支持する。
論文 参考訳(メタデータ) (2021-02-24T18:46:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。