Fugu-MT 論文翻訳(概要): Would I have gotten that reward? Long-term credit assignment by counterfactual contribution analysis

論文の概要: Would I have gotten that reward? Long-term credit assignment by counterfactual contribution analysis

arxiv url: http://arxiv.org/abs/2306.16803v2
Date: Tue, 31 Oct 2023 10:28:50 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-01 23:13:41.417184
Title: Would I have gotten that reward? Long-term credit assignment by counterfactual contribution analysis
Title（参考訳）: その報酬をもらえませんか? 偽りの貢献分析による長期クレジット割り当て
Authors: Alexander Meulemans, Simon Schug, Seijin Kobayashi, Nathaniel Daw, Gregory Wayne
Abstract要約: モデルベース信用代入アルゴリズムの新たなファミリーであるCOCOA(Counterfactual Contribution Analysis)を紹介する。我々のアルゴリズムは、その後の報酬を得る際の行動の貢献度を測定することによって、正確な信用割当を実現する。
参考スコア（独自算出の注目度）: 50.926791529605396
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: To make reinforcement learning more sample efficient, we need better credit assignment methods that measure an action's influence on future rewards. Building upon Hindsight Credit Assignment (HCA), we introduce Counterfactual Contribution Analysis (COCOA), a new family of model-based credit assignment algorithms. Our algorithms achieve precise credit assignment by measuring the contribution of actions upon obtaining subsequent rewards, by quantifying a counterfactual query: 'Would the agent still have reached this reward if it had taken another action?'. We show that measuring contributions w.r.t. rewarding states, as is done in HCA, results in spurious estimates of contributions, causing HCA to degrade towards the high-variance REINFORCE estimator in many relevant environments. Instead, we measure contributions w.r.t. rewards or learned representations of the rewarding objects, resulting in gradient estimates with lower variance. We run experiments on a suite of problems specifically designed to evaluate long-term credit assignment capabilities. By using dynamic programming, we measure ground-truth policy gradients and show that the improved performance of our new model-based credit assignment methods is due to lower bias and variance compared to HCA and common baselines. Our results demonstrate how modeling action contributions towards rewarding outcomes can be leveraged for credit assignment, opening a new path towards sample-efficient reinforcement learning.
Abstract（参考訳）: 強化学習をより効率的にするためには、アクションが将来の報酬に与える影響を測定するためのより良い信用割当方法が必要である。 HCA(Hindsight Credit Assignment)に基づいて、モデルベースの新しい信用割当アルゴリズムであるCOCOA(Counterfactual Contribution Analysis)を導入する。我々のアルゴリズムは、偽のクエリを定量化することで、その後の報酬を得る際の行動の寄与度を測定することによって、正確な信用割り当てを達成します。 hcaで行われているように、貢献度を計測する w.r.t. 報酬状態は、貢献の散逸を招き、多くの関連環境において、hca が高分散強化推定値に向かって低下することを示している。代わりに、報酬オブジェクトの貢献度や学習された表現を測定し、より低い分散を伴う勾配推定をもたらす。我々は、長期クレジット割り当て能力を評価するために特別に設計された一連の問題で実験を行う。動的計画法を用いることで,新たなモデルに基づく信用割当手法の性能向上は,hcaや共通ベースラインと比較してバイアスやばらつきが小さいことによるものであることを示す。本研究は,成果を報奨するための行動貢献のモデル化をクレジット割り当てに活用できることを示し,サンプル効率のよい強化学習への新たな道を開く。

関連論文リスト

Intra-Trajectory Consistency for Reward Modeling [67.84522106537274]
軌道内整合性正則化を開発し、より高い次トーケン生成確率を持つプロセスがより一貫した報酬を維持することを強制する。提案した正規化でトレーニングした報酬モデルにより、より優れたDPO整合ポリシーが導出され、より優れたベスト・オブ・N(BON)検証結果が得られることを示す。
論文参考訳（メタデータ） (2025-06-10T12:59:14Z)
Discriminative Policy Optimization for Token-Level Reward Models [55.98642069903191]
プロセス報酬モデル(PRM)は、結果報酬モデル(ORM)と比較して、よりきめ細かい監督を提供する。 Q-RMは、微粒なアノテーションに頼ることなく、優先データからトークンレベルのQ関数を明示的に学習する。 Q-RMによる強化学習は、トレーニング効率を大幅に向上させ、GSM8KでのORMの12倍、MATHでのステップレベルPRMの11倍の収束を実現した。
論文参考訳（メタデータ） (2025-05-29T11:40:34Z)
Rewarding Progress: Scaling Automated Process Verifiers for LLM Reasoning [90.23629291067763]
大規模言語モデルにおける推論を改善するための有望なアプローチは、プロセス報酬モデル(PRM)を使用することである。 PRMは多段階の推論トレースの各ステップでフィードバックを提供し、結果報酬モデル(ORM)よりも信用割当を改善する可能性がある。 PRMに対して探索を行ったり、強化学習(RL)の報酬として使ったりすることで、基本方針を改善するために、「プロセス報酬をどう設計すべきか?」と質問する。理論的には,良質なプロデューサの集合を特徴付けるとともに,このようなプロデューサからのプロセス報酬の最適化が,テスト時間探索やオンラインRLの探索を改善することを示す。
論文参考訳（メタデータ） (2024-10-10T17:31:23Z)
Evaluating Robustness of Reward Models for Mathematical Reasoning [14.97819343313859]
本稿では,報酬モデルの信頼性評価のための新しい設計を提案し,これを検証するためにRewardMATHを構築した。 RewardMATHのスコアは、最適化されたポリシーの結果と強く相関し、効果的に報酬過大評価を推定する。
論文参考訳（メタデータ） (2024-10-02T16:39:58Z)
VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment [66.80143024475635]
VinePPOは不偏のモンテカルロ推定を計算するための簡単な手法である。我々は、VinePPOが、MATHおよびGSM8Kデータセット間でPPOや他のRLフリーベースラインを一貫して上回ることを示す。
論文参考訳（メタデータ） (2024-10-02T15:49:30Z)
Walking the Values in Bayesian Inverse Reinforcement Learning [66.68997022043075]
ベイズIRLの鍵となる課題は、可能な報酬の仮説空間と可能性の間の計算的ギャップを埋めることである。本稿では,この知見に基づく新しいマルコフ連鎖モンテカルロ法であるValueWalkを提案する。
論文参考訳（メタデータ） (2024-07-15T17:59:52Z)
Hindsight PRIORs for Reward Learning from Human Preferences [3.4990427823966828]
嗜好に基づく強化学習(PbRL)では、政策行動に対する嗜好フィードバックから報酬を学習することで報酬関数を手渡す必要がなくなる。 PbRLへの現在のアプローチは、行動のどの部分が優先に最も寄与しているかを決定することに固有の信用割当問題に対処しない。我々は、世界モデルを用いて軌道内の状態重要度を近似し、報酬を国家重要度に比例するように誘導する信用割当戦略(Hindsight PRIOR)を導入する。
論文参考訳（メタデータ） (2024-04-12T21:59:42Z)
Towards Causal Credit Assignment [0.0]
Hindsight Credit Assignmentは有望だが、まだ未検討の候補であり、長期的および対実的なクレジット割り当ての問題を解決することを目的としている。この論文で我々は、Hindsight Credit Assignmentを実証的に調査し、その主な利点と改善すべき重要なポイントを特定します。この修正により、ハイドサイト・クレジット・アサインメントの作業負荷が大幅に削減され、効率が向上し、各種タスクにおけるベースライン・クレジット・アサインメント・メソッドよりもパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2022-12-22T12:06:37Z)
Distributional Reward Estimation for Effective Multi-Agent Deep Reinforcement Learning [19.788336796981685]
実効的マルチエージェント強化学習(DRE-MARL)のための分散逆推定フレームワークを提案する。本研究の目的は,安定トレーニングのための多行動分岐報酬推定と政策重み付け報酬アグリゲーションを設計することである。 DRE-MARLの優位性は,有効性とロバスト性の両方の観点から,SOTAベースラインと比較して,ベンチマークマルチエージェントシナリオを用いて実証される。
論文参考訳（メタデータ） (2022-10-14T08:31:45Z)
Revisiting QMIX: Discriminative Credit Assignment by Gradient Entropy Regularization [126.87359177547455]
協力的なマルチエージェントシステムでは、エージェントは共同で行動し、個々の報酬ではなくチーム報酬を受け取る。個々の報酬信号がない場合は、通常、異なるエージェントの貢献を識別するためにクレジット代入機構が導入される。クレジット割当測定の新しい視点を提案し,QMIXがエージェントへのクレジット割当において限定的な差別性に悩まされていることを実証的に示す。
論文参考訳（メタデータ） (2022-02-09T12:37:55Z)
Direct Advantage Estimation [63.52264764099532]
予測されるリターンは、学習を遅くする可能性のある望ましくない方法でポリシーに依存する可能性があることを示します。本稿では,優位関数をモデル化し,データから直接推定する手法として,DAE(Direct Advantage Estimation)を提案する。望むなら、値関数をDAEにシームレスに統合して、時間差学習と同様の方法で更新することもできる。
論文参考訳（メタデータ） (2021-09-13T16:09:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。