Fugu-MT 論文翻訳(概要): Symbol Guided Hindsight Priors for Reward Learning from Human Preferences

論文の概要: Symbol Guided Hindsight Priors for Reward Learning from Human Preferences

arxiv url: http://arxiv.org/abs/2210.09151v1
Date: Mon, 17 Oct 2022 14:57:06 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-18 15:54:11.530702
Title: Symbol Guided Hindsight Priors for Reward Learning from Human Preferences
Title（参考訳）: 人間選好からの報酬学習のためのシンボル誘導後遺症前兆
Authors: Mudit Verma and Katherine Metcalf
Abstract要約: PRIor Over Rewards(PRIor Over Rewards, PRIOR) フレームワークを提案する。我々は,前者の計算に抽象状態空間を用いることで,報酬学習とエージェントの性能がさらに向上することが実証された。
参考スコア（独自算出の注目度）: 2.512827436728378
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Specifying rewards for reinforcement learned (RL) agents is challenging. Preference-based RL (PbRL) mitigates these challenges by inferring a reward from feedback over sets of trajectories. However, the effectiveness of PbRL is limited by the amount of feedback needed to reliably recover the structure of the target reward. We present the PRIor Over Rewards (PRIOR) framework, which incorporates priors about the structure of the reward function and the preference feedback into the reward learning process. Imposing these priors as soft constraints on the reward learning objective reduces the amount of feedback required by half and improves overall reward recovery. Additionally, we demonstrate that using an abstract state space for the computation of the priors further improves the reward learning and the agent's performance.
Abstract（参考訳）: 強化学習(RL)エージェントに対する報酬の特定は困難である。嗜好に基づくRL(PbRL)は、一連の軌道上のフィードバックから報酬を推測することでこれらの課題を軽減する。しかし、PbRLの有効性は、目標報酬の構造を確実に回復するために必要なフィードバック量によって制限される。本稿では,報酬関数の構造と選好フィードバックを報酬学習プロセスに組み込んだprior over rewards(prior)フレームワークを提案する。報酬学習の目的にソフトな制約を課すことは、半分のフィードバックの量を減らし、全体の報酬回復を改善する。さらに,事前の計算に抽象的な状態空間を用いることで,報酬学習とエージェントのパフォーマンスがさらに向上することを示す。

関連論文リスト

Reward-Conditioned Reinforcement Learning [56.417273471201845]
Reward-Conditioned Reinforcement Learning (RCRL) は、報酬仕様のファミリーを最適化するために単一のエージェントを訓練するフレームワークである。 RCRLは、報酬パラメータ化のエージェントを条件付け、共有されたリプレイデータから複数の報酬目標を学習する。その結果、RCRLはシングルタスクトレーニングの単純さを犠牲にすることなく、堅牢でステアブルなポリシを学習するためのスケーラブルなメカニズムを提供することを示した。
論文参考訳（メタデータ） (2026-03-05T11:29:17Z)
Repairing Reward Functions with Human Feedback to Mitigate Reward Hacking [13.417125511014447]
そこで本稿では,人為的に規定された代行報酬関数を,優先事項から付加的かつ遷移依存的な補正項を学習することで修復する自動フレームワークを提案する。 PBRRは、好みから報酬関数をスクラッチから学習するベースラインを一貫して上回り、他のアプローチを使用してプロキシ報酬関数を変更する。
論文参考訳（メタデータ） (2025-10-14T23:18:24Z)
Information-Theoretic Reward Decomposition for Generalizable RLHF [51.550547285296794]
我々は報酬値を2つの独立したコンポーネントに分解する。提案手法は,データサンプルを不利な報酬値に基づいて優先順位付けすることで,新たな報酬学習アルゴリズムを提案する。
論文参考訳（メタデータ） (2025-04-08T13:26:07Z)
Towards Improving Reward Design in RL: A Reward Alignment Metric for RL Practitioners [15.25763345316458]
強化学習エージェントは、彼らが学んだ報酬関数の品質によって、基本的に制限されている。本稿では, 人的利害関係者の軌道分布ランキングと, 与えられた報酬関数によって誘導されるものとの類似性を定量化するために, トラジェクティブアライメント係数を導入する。
論文参考訳（メタデータ） (2025-03-08T00:38:17Z)
Reward Shaping to Mitigate Reward Hacking in RLHF [47.71454266800376]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデルと人間の価値の整合に不可欠である。報酬形成はRLHFを安定させ、報酬ハッキングを部分的に軽減する。本稿では,報酬形成手法の総合的研究について述べる。提案手法は,報酬モデル自体に埋め込まれた潜在的嗜好を,強化学習の信号として活用する手法である。
論文参考訳（メタデータ） (2025-02-26T02:57:59Z)
RED: Unleashing Token-Level Rewards from Holistic Feedback via Reward Redistribution [50.171320156632866]
人間のフィードバックからの強化学習は、大きな言語モデルを人間の好みに合わせるための有望なアプローチを提供する。現在の報酬モデルはシークエンス・ツー・ワンモデルとして動作し、単一、スパース、遅延報酬を全出力シーケンスに割り当てる。よりきめ細かなトークンレベルの指導手法をRLトレーニングに提案する。
論文参考訳（メタデータ） (2024-11-13T02:45:21Z)
Beyond Simple Sum of Delayed Rewards: Non-Markovian Reward Modeling for Reinforcement Learning [44.770495418026734]
強化学習(Reinforcement Learning, RL)は、報酬信号から学習することで、エージェントに様々なスキルを習得する権限を与える。伝統的な手法では、マルコフ報酬の根底にある存在を仮定し、観測された遅延報酬は単にインスタンスレベルの報酬の和である。本稿では,特殊なインシーケンスアテンション機構を備えた複合遅延逆変換器(CoDeTr)を提案する。
論文参考訳（メタデータ） (2024-10-26T13:12:27Z)
ELO-Rated Sequence Rewards: Advancing Reinforcement Learning Models [3.8616427106430677]
ELO-Rating based Reinforcement Learning (ERRL) という新たな報酬推定アルゴリズムを提案する。まず、各軌道のELO評価を報酬として計算するために、基数報酬(ユーティリティ)ではなく、軌跡よりも専門的な選好を使用する。第2に、固定アンカー報酬がない場合のトレーニング不安定を軽減するために、新たな報奨再分配アルゴリズムを導入する。
論文参考訳（メタデータ） (2024-09-05T07:14:03Z)
Listwise Reward Estimation for Offline Preference-based Reinforcement Learning [20.151932308777553]
リストワイズ・リワード推定(LiRE)は、オフラインの推論に基づく強化学習(PbRL)のための新しいアプローチである。 LiRE は Ranked List of Trajectories (RLT) を構築することで既存の PbRL メソッドに基づいている。実験では,フィードバック数やフィードバックノイズに関して,緩やかなフィードバック予算や頑健さを享受しながらも,LiREの優位性を実証した。
論文参考訳（メタデータ） (2024-08-08T03:18:42Z)
Hindsight PRIORs for Reward Learning from Human Preferences [3.4990427823966828]
嗜好に基づく強化学習(PbRL)では、政策行動に対する嗜好フィードバックから報酬を学習することで報酬関数を手渡す必要がなくなる。 PbRLへの現在のアプローチは、行動のどの部分が優先に最も寄与しているかを決定することに固有の信用割当問題に対処しない。我々は、世界モデルを用いて軌道内の状態重要度を近似し、報酬を国家重要度に比例するように誘導する信用割当戦略(Hindsight PRIOR)を導入する。
論文参考訳（メタデータ） (2024-04-12T21:59:42Z)
Dense Reward for Free in Reinforcement Learning from Human Feedback [64.92448888346125]
我々は報酬モデルが単にスカラー出力よりも多くの情報を含んでいるという事実を活用している。私たちは、これらの注意重みを使って、完了全体に沿って報酬を再分配します。経験的に、トレーニングを安定化し、学習速度を加速し、実際は、より良い局所最適性をもたらす可能性があることを示す。
論文参考訳（メタデータ） (2024-02-01T17:10:35Z)
The Distributional Reward Critic Framework for Reinforcement Learning Under Perturbed Rewards [31.550669983576544]
報酬信号は、強化学習におけるエージェントの望ましい振る舞いを定義する上で中心的な役割を果たす。本稿では,トレーニング中の報酬分布と摂動を推定するための分配報酬批判フレームワークを提案する。その結果、報奨環境下でRLを実行する能力の拡大と深化が図られた。
論文参考訳（メタデータ） (2024-01-11T07:25:28Z)
REBEL: A Regularization-Based Solution for Reward Overoptimization in Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数とユーザの意図、価値観、社会的規範の相違は、現実世界で破滅的なものになる可能性がある。人間の嗜好から報酬関数を学習することで、このミスアライメント作業を軽減するための現在の方法。本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文参考訳（メタデータ） (2023-12-22T04:56:37Z)
Deep Reinforcement Learning from Hierarchical Preference Design [99.46415116087259]
本稿では,特定の構造を利用することにより,報酬設計プロセスの容易性を示す。シナリオのための階層的な報酬モデリングフレームワーク -- HERONを提案する。 (I) フィードバック信号は自然に階層構造を呈し、 (II) 報酬は希少であるが、政策学習を支援するためにあまり重要でないサロゲートフィードバックを持つ。
論文参考訳（メタデータ） (2023-09-06T00:44:29Z)
A State Augmentation based approach to Reinforcement Learning from Human Preferences [20.13307800821161]
優先に基づく強化学習は、クエリされたトラジェクトリペアのバイナリフィードバックを利用することで、この問題を解決しようとする。本稿では,エージェントの報酬モデルが堅牢である状態拡張手法を提案する。
論文参考訳（メタデータ） (2023-02-17T07:10:50Z)
Reward Uncertainty for Exploration in Preference-based Reinforcement Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文参考訳（メタデータ） (2022-05-24T23:22:10Z)
Information Directed Reward Learning for Reinforcement Learning [64.33774245655401]
我々は、標準rlアルゴリズムが可能な限り少数の専門家クエリで高い期待値を達成することができる報酬関数のモデルを学ぶ。特定のタイプのクエリ用に設計された以前のアクティブな報酬学習方法とは対照的に、IDRLは自然に異なるクエリタイプに対応します。我々は,複数の環境における広範囲な評価と,異なるタイプのクエリでこの結果を支持する。
論文参考訳（メタデータ） (2021-02-24T18:46:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。