論文の概要: Robustness in the Face of Partial Identifiability in Reward Learning
- arxiv url: http://arxiv.org/abs/2501.06376v2
- Date: Mon, 15 Sep 2025 14:37:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 15:23:15.929323
- Title: Robustness in the Face of Partial Identifiability in Reward Learning
- Title(参考訳): 逆学習における部分的不確かさの面におけるロバスト性
- Authors: Filippo Lazzati, Alberto Maria Metelli,
- Abstract要約: 本稿では、考慮されたアプリケーションにおける「性能」の低下を定量化するための一般的なReward Learning(ReL)フレームワークを紹介する。
次に、この頑健なアプローチを2つのポリシー間の嗜好を評価することを目的としたReL問題のサブセットに適用するRob-ReLアルゴリズムを開発する。
- 参考スコア(独自算出の注目度): 37.79354987519793
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In Reward Learning (ReL), we are given feedback on an unknown target reward, and the goal is to use this information to recover it in order to carry out some downstream application, e.g., planning. When the feedback is not informative enough, the target reward is only partially identifiable, i.e., there exists a set of rewards, called the feasible set, that are equally plausible candidates for the target reward. In these cases, the ReL algorithm might recover a reward function different from the target reward, possibly leading to a failure in the application. In this paper, we introduce a general ReL framework that permits to quantify the drop in "performance" suffered in the considered application because of identifiability issues. Building on this, we propose a robust approach to address the identifiability problem in a principled way, by maximizing the "performance" with respect to the worst-case reward in the feasible set. We then develop Rob-ReL, a ReL algorithm that applies this robust approach to the subset of ReL problems aimed at assessing a preference between two policies, and we provide theoretical guarantees on sample and iteration complexity for Rob-ReL. We conclude with a proof-of-concept experiment to illustrate the considered setting.
- Abstract(参考訳): Reward Learning(ReL)では、未知の目標報酬に対するフィードバックが与えられており、その目標は、この情報を使って、ダウンストリームアプリケーション(例えば、計画)を実行することです。
フィードバックが十分な情報を持っていない場合、目標報酬は部分的に識別できるだけであり、すなわち、目標報酬に対して同様に妥当な候補である、実現可能な集合と呼ばれる一連の報酬が存在する。
これらの場合、ReLアルゴリズムは、ターゲットの報酬とは異なる報酬関数を復元し、アプリケーションの失敗につながる可能性がある。
本稿では、識別可能性の問題から考慮されたアプリケーションにおける「性能」の低下を定量化する一般的なReLフレームワークを提案する。
そこで本論文では,本手法を用いて,本手法の「性能」の最大化を図り,実現可能な集合における最悪の報酬に対する「性能」を最大化することにより,同定可能性問題に対処する頑健なアプローチを提案する。
次に、この頑健なアプローチを2つのポリシー間の選好評価を目的としたReL問題のサブセットに適用するRob-ReLアルゴリズムを開発し、Rob-ReLのサンプルとイテレーションの複雑さに関する理論的保証を提供する。
本研究は,概念実証実験により考察した。
関連論文リスト
- R3HF: Reward Redistribution for Enhancing Reinforcement Learning from Human Feedback [25.27230140274847]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせるためのパラダイムを提供する。
本稿では,より微細なトークンレベルの報酬配分を容易にするR3HFという新たな報酬分配手法を提案する。
論文 参考訳(メタデータ) (2024-11-13T02:45:21Z) - Walking the Values in Bayesian Inverse Reinforcement Learning [66.68997022043075]
ベイズIRLの鍵となる課題は、可能な報酬の仮説空間と可能性の間の計算的ギャップを埋めることである。
本稿では,この知見に基づく新しいマルコフ連鎖モンテカルロ法であるValueWalkを提案する。
論文 参考訳(メタデータ) (2024-07-15T17:59:52Z) - Dense Reward for Free in Reinforcement Learning from Human Feedback [64.92448888346125]
我々は報酬モデルが単にスカラー出力よりも多くの情報を含んでいるという事実を活用している。
私たちは、これらの注意重みを使って、完了全体に沿って報酬を再分配します。
経験的に、トレーニングを安定化し、学習速度を加速し、実際は、より良い局所最適性をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2024-02-01T17:10:35Z) - REBEL: A Regularization-Based Solution for Reward Overoptimization in Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数とユーザの意図、価値観、社会的規範の相違は、現実世界で破滅的なものになる可能性がある。
人間の嗜好から報酬関数を学習することで、このミスアライメント作業を軽減するための現在の方法。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - STARC: A General Framework For Quantifying Differences Between Reward Functions [52.69620361363209]
我々は、STARCメトリックと呼ばれるすべての報酬関数の空間上の擬計量のクラスを提供する。
以上の結果から,STARCは最悪の後悔に対して上界と下界の両方を誘導することがわかった。
また、以前の研究によって提案された報酬指標に関するいくつかの問題も特定します。
論文 参考訳(メタデータ) (2023-09-26T20:31:19Z) - Iterative Reward Shaping using Human Feedback for Correcting Reward
Misspecification [15.453123084827089]
ITERSは、人間のフィードバックを用いて、不特定報酬関数の効果を緩和する反復的な報酬形成手法である。
ITERSを3つの環境で評価し,不特定報酬関数の修正に成功していることを示す。
論文 参考訳(メタデータ) (2023-08-30T11:45:40Z) - Invariance in Policy Optimisation and Partial Identifiability in Reward
Learning [67.4640841144101]
一般の報奨学習データソースに与えられる報酬関数の部分的識別性を特徴付ける。
また、政策最適化など、下流業務におけるこの部分的識別可能性の影響も分析する。
論文 参考訳(メタデータ) (2022-03-14T20:19:15Z) - RewardsOfSum: Exploring Reinforcement Learning Rewards for Summarisation [7.0471949371778795]
本稿では,抽象的な要約作業に対する2つの報酬関数を提案する。
最初の関数はRwB-Hingeと呼ばれ、勾配更新のサンプルを動的に選択する。
第2の機能はRISKと呼ばれ、強力な候補者の小さなプールを利用して報酬を知らせる。
論文 参考訳(メタデータ) (2021-06-08T03:30:50Z) - Information Directed Reward Learning for Reinforcement Learning [64.33774245655401]
我々は、標準rlアルゴリズムが可能な限り少数の専門家クエリで高い期待値を達成することができる報酬関数のモデルを学ぶ。
特定のタイプのクエリ用に設計された以前のアクティブな報酬学習方法とは対照的に、IDRLは自然に異なるクエリタイプに対応します。
我々は,複数の環境における広範囲な評価と,異なるタイプのクエリでこの結果を支持する。
論文 参考訳(メタデータ) (2021-02-24T18:46:42Z) - Learning to Utilize Shaping Rewards: A New Approach of Reward Shaping [71.214923471669]
リワード整形は、ドメイン知識を強化学習(RL)に組み込む効果的な手法である
本稿では,所定の整形報酬関数を適応的に活用する問題を考察する。
スパース逆カートポールとMuJoCo環境の実験は、我々のアルゴリズムが有益な整形報酬を完全に活用できることを示している。
論文 参考訳(メタデータ) (2020-11-05T05:34:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。