Fugu-MT 論文翻訳(概要): Mind the Gap: Offline Policy Optimization for Imperfect Rewards

論文の概要: Mind the Gap: Offline Policy Optimization for Imperfect Rewards

arxiv url: http://arxiv.org/abs/2302.01667v1
Date: Fri, 3 Feb 2023 11:39:50 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-06 16:37:20.662625
Title: Mind the Gap: Offline Policy Optimization for Imperfect Rewards
Title（参考訳）: Mind the Gap: 不完全なリワードに対するオフラインポリシー最適化
Authors: Jianxiong Li, Xiao Hu, Haoran Xu, Jingjing Liu, Xianyuan Zhan, Qing-Shan Jia, Ya-Qin Zhang
Abstract要約: 多様な不完全な報酬を処理できる統合オフラインポリシー最適化手法である textitRGM (Reward Gap Minimization) を提案する。下位層の双対性を生かして,オンラインインタラクションを伴わずにサンプルベースの学習を可能にする,抽出可能なアルゴリズムを導出する。
参考スコア（独自算出の注目度）: 14.874900923808408
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reward function is essential in reinforcement learning (RL), serving as the guiding signal to incentivize agents to solve given tasks, however, is also notoriously difficult to design. In many cases, only imperfect rewards are available, which inflicts substantial performance loss for RL agents. In this study, we propose a unified offline policy optimization approach, \textit{RGM (Reward Gap Minimization)}, which can smartly handle diverse types of imperfect rewards. RGM is formulated as a bi-level optimization problem: the upper layer optimizes a reward correction term that performs visitation distribution matching w.r.t. some expert data; the lower layer solves a pessimistic RL problem with the corrected rewards. By exploiting the duality of the lower layer, we derive a tractable algorithm that enables sampled-based learning without any online interactions. Comprehensive experiments demonstrate that RGM achieves superior performance to existing methods under diverse settings of imperfect rewards. Further, RGM can effectively correct wrong or inconsistent rewards against expert preference and retrieve useful information from biased rewards.
Abstract（参考訳）: リワード機能は強化学習(RL)において必須であり、与えられた課題を解決するためのエージェントのインセンティブを誘導するシグナルとして機能するが、設計も困難である。多くの場合、不完全な報酬のみが利用可能であり、RLエージェントにかなりのパフォーマンス損失をもたらす。本研究では,様々な種類の不完全な報酬をスマートに処理できる,オフラインポリシー最適化手法である \textit{rgm (reward gap minimization)"を提案する。 RGMは二段階最適化問題として定式化され、上層は、一部の専門家データと一致する訪問分布を行う報酬補正項を最適化し、下層は補正された報酬と悲観的なRL問題を解く。下位層の双対性を利用して,オンラインインタラクションを伴わずにサンプルベース学習が可能な抽出可能なアルゴリズムを導出する。総合的な実験により、RGMは不完全な報酬の多様な設定の下で、既存の手法よりも優れた性能を発揮することが示された。さらに、RGMは、専門家の選好に対する誤りや矛盾した報奨を効果的に補正し、偏見のある報奨から有用な情報を取得することができる。

関連論文リスト

RLVMR: Reinforcement Learning with Verifiable Meta-Reasoning Rewards for Robust Long-Horizon Agents [43.806220882212386]
RLVMRは、検証可能なメタ推論の振る舞いに報いることによって、密集したプロセスレベルの監視をエンドツーエンドのRLに統合する。挑戦的なALFWorldとScienceWorldのベンチマークでは、RLVMRが新たな最先端の結果を達成している。
論文参考訳（メタデータ） (2025-07-30T17:00:48Z)
ReDit: Reward Dithering for Improved LLM Policy Optimization [6.841631032347429]
DeepSeek-R1は、ルールベースの報酬システムを通じて、LLM(Large Language Model)推論機能の拡張に成功した。報酬のハッキングを効果的に軽減する「完璧な」報酬システムであるが、そのような報酬機能はしばしば離散的である。本稿では、単純なランダムノイズを加えることで離散的な報酬信号をディザリングするReDit(Reward Dithering)を提案する。
論文参考訳（メタデータ） (2025-06-23T13:36:24Z)
RRO: LLM Agent Optimization Through Rising Reward Trajectories [52.579992804584464]
大規模言語モデル (LLM) は様々なタスクにおいて異常な性能を示した。実際には、エージェントは特定の重要なステップの結果に敏感で、タスクを失敗する可能性がある。この問題を軽減するために,Reward Rising Optimization (RRO)を提案する。
論文参考訳（メタデータ） (2025-05-27T05:27:54Z)
Process Reinforcement through Implicit Rewards [95.7442934212076]
複雑なプロセス報酬は、大きな言語モデル(LLM)の推論時間スケーリングにおいて、スパースな結果レベルの報酬よりも効果的な選択肢であることが証明されている。ディエンス報酬は、その微粒な報酬が結果報酬の固有の問題に対処する可能性があるため、LLMの強化学習(RL)に魅力的な選択を与える。これは主に、高品質なプロセスラベルの収集が違法に高価であるオンラインのトレーニングプロセス報酬モデル(PRM)の課題に起因する可能性がある。提案するPRIMEは,ポリシロールアウトと結果ラベルのみを用いて,インプットプロセス報酬によるオンラインPRM更新を可能にする。
論文参考訳（メタデータ） (2025-02-03T15:43:48Z)
Systematic Reward Gap Optimization for Mitigating VLM Hallucinations [34.71750379630014]
本稿では,報酬ギャップ構成の体系的最適化を目的とした新しいフレームワークであるトピックレベルの参照書き換え(TPR)を紹介する。 TPRは、詳細なセマンティック詳細をトピックレベルに制御し、高度なデータキュレーション戦略を可能にする。 ObjectHal-Benchでは幻覚を最大93%減少させ、堅牢で費用対効果の高いVLMアライメントに対して優れたデータ効率を示す。
論文参考訳（メタデータ） (2024-11-26T09:42:07Z)
R3HF: Reward Redistribution for Enhancing Reinforcement Learning from Human Feedback [25.27230140274847]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせるためのパラダイムを提供する。本稿では,より微細なトークンレベルの報酬配分を容易にするR3HFという新たな報酬分配手法を提案する。
論文参考訳（メタデータ） (2024-11-13T02:45:21Z)
ORSO: Accelerating Reward Design via Online Reward Selection and Policy Optimization [41.074747242532695]
Online Reward Selection and Policy Optimization (ORSO) は、オンラインモデル選択問題としてシェーピング報酬関数の選択を枠組みとした、新しいアプローチである。 ORSOは、整形報酬関数を評価するのに必要なデータ量を著しく削減し、データ効率と計算時間(最大8倍)の大幅な削減をもたらす。 ORSOは、従来の手法よりも50%以上優れた高品質の報酬関数を一貫して識別し、平均的にポリシーを、ドメインの専門家が手作業で設計した報酬関数を使って学んだものと同様に、パフォーマンスとして識別する。
論文参考訳（メタデータ） (2024-10-17T17:55:05Z)
Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [56.24431208419858]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。そこで本稿では,品質スコアに優先ペアを条件付け,報酬を加算したデータセットを構築する,効果的なデータレバーベリング手法を提案する。
論文参考訳（メタデータ） (2024-10-10T16:01:51Z)
Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文参考訳（メタデータ） (2024-09-26T12:37:26Z)
ELO-Rated Sequence Rewards: Advancing Reinforcement Learning Models [3.8616427106430677]
強化学習(RL)は報酬関数の精巧な設計に依存している。 ELO-Rating based RL (ERRL) という新しい報酬推定アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-09-05T07:14:03Z)
Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文参考訳（メタデータ） (2024-05-26T05:38:50Z)
REBEL: A Regularization-Based Solution for Reward Overoptimization in Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数とユーザの意図、価値観、社会的規範の相違は、現実世界で破滅的なものになる可能性がある。人間の嗜好から報酬関数を学習することで、このミスアライメント作業を軽減するための現在の方法。本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文参考訳（メタデータ） (2023-12-22T04:56:37Z)
Behavior Alignment via Reward Function Optimization [23.92721220310242]
設計者のドメイン知識と環境のプライマリ報酬を反映した補助報酬を統合する新しいフレームワークを導入する。提案手法の有効性を,小型実験から高次元制御課題に至るまで,様々な課題に対して評価する。
論文参考訳（メタデータ） (2023-10-29T13:45:07Z)
Provably Efficient Offline Reinforcement Learning with Trajectory-Wise Reward [66.81579829897392]
我々はPessimistic vAlue iteRaTionとrEward Decomposition (PARTED)という新しいオフライン強化学習アルゴリズムを提案する。 PartEDは、最小2乗ベースの報酬再分配を通じて、ステップごとのプロキシ報酬に軌道を分解し、学習したプロキシ報酬に基づいて悲観的な値を実行する。私たちの知る限りでは、PartEDは、トラジェクティブな報酬を持つ一般のMDPにおいて、証明可能な効率のよい最初のオフラインRLアルゴリズムである。
論文参考訳（メタデータ） (2022-06-13T19:11:22Z)
Information Directed Reward Learning for Reinforcement Learning [64.33774245655401]
我々は、標準rlアルゴリズムが可能な限り少数の専門家クエリで高い期待値を達成することができる報酬関数のモデルを学ぶ。特定のタイプのクエリ用に設計された以前のアクティブな報酬学習方法とは対照的に、IDRLは自然に異なるクエリタイプに対応します。我々は,複数の環境における広範囲な評価と,異なるタイプのクエリでこの結果を支持する。
論文参考訳（メタデータ） (2021-02-24T18:46:42Z)
Learning to Utilize Shaping Rewards: A New Approach of Reward Shaping [71.214923471669]
リワード整形は、ドメイン知識を強化学習(RL)に組み込む効果的な手法である本稿では,所定の整形報酬関数を適応的に活用する問題を考察する。スパース逆カートポールとMuJoCo環境の実験は、我々のアルゴリズムが有益な整形報酬を完全に活用できることを示している。
論文参考訳（メタデータ） (2020-11-05T05:34:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。