Fugu-MT 論文翻訳(概要): Explaining Learned Reward Functions with Counterfactual Trajectories

論文の概要: Explaining Learned Reward Functions with Counterfactual Trajectories

arxiv url: http://arxiv.org/abs/2402.04856v4
Date: Tue, 15 Oct 2024 11:19:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:30.65925
Title: Explaining Learned Reward Functions with Counterfactual Trajectories
Title（参考訳）: 擬似軌道を用いた学習後進関数の解説
Authors: Jan Wehner, Frans Oliehoek, Luciano Cavalcante Siebert,
Abstract要約: 解釈可能性ツールは、学習した報酬関数の潜在的な欠陥を理解し評価することを可能にする。本稿では,強化学習における報酬関数の解釈のためのCTE(Counterfactual Trajectory Explanations)を提案する。
参考スコア（独自算出の注目度）: 1.3654846342364308
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Learning rewards from human behaviour or feedback is a promising approach to aligning AI systems with human values but fails to consistently extract correct reward functions. Interpretability tools could enable users to understand and evaluate possible flaws in learned reward functions. We propose Counterfactual Trajectory Explanations (CTEs) to interpret reward functions in reinforcement learning by contrasting an original with a counterfactual partial trajectory and the rewards they each receive. We derive six quality criteria for CTEs and propose a novel Monte-Carlo-based algorithm for generating CTEs that optimises these quality criteria. Finally, we measure how informative the generated explanations are to a proxy-human model by training it on CTEs. CTEs are demonstrably informative for the proxy-human model, increasing the similarity between its predictions and the reward function on unseen trajectories. Further, it learns to accurately judge differences in rewards between trajectories and generalises to out-of-distribution examples. Although CTEs do not lead to a perfect understanding of the reward, our method, and more generally the adaptation of XAI methods, are presented as a fruitful approach for interpreting learned reward functions.
Abstract（参考訳）: 人間の振る舞いやフィードバックから報酬を学ぶことは、AIシステムを人間の価値と整合させるための有望なアプローチであるが、常に正しい報酬関数を抽出できない。解釈可能性ツールは、学習した報酬関数の潜在的な欠陥を理解し評価することを可能にする。本稿では,正則部分軌跡と正則部分軌跡とを対比することにより,強化学習における報酬関数を解釈するための対実的軌道説明(CTE)を提案する。我々はCTEの6つの品質基準を導出し、これらの品質基準を最適化するCTEを生成するためのモンテカルロベースの新しいアルゴリズムを提案する。最後に、CTEで学習することで、生成した説明がプロキシ・ヒューマンモデルにどの程度情報をもたらすかを測定する。 CTEは、プロキシ・ヒューマンモデルに対して明らかに有益であり、予測と未知の軌道上の報酬関数との類似性を高める。さらに、トラジェクトリ間の報酬の差を正確に判断し、アウト・オブ・ディストリビューションの例に一般化する。 CTEは報酬の完全な理解に繋がるものではないが、我々の方法、より一般的にはXAI法の適応は、学習された報酬関数を解釈するための実りあるアプローチとして提示される。

関連論文リスト

Interpretable Reward Modeling with Active Concept Bottlenecks [54.00085739303773]
本稿では,解釈可能な嗜好学習を可能にする報酬モデリングフレームワークであるConcept Bottleneck Reward Models (CB-RM)を紹介する。不透明報酬関数に依存する標準的なRLHF法とは異なり、CB-RMは報酬予測を人間の解釈可能な概念に分解する。我々は,最も情報性の高い概念ラベルを動的に取得する能動的学習戦略を定式化する。
論文参考訳（メタデータ） (2025-07-07T06:26:04Z)
Intra-Trajectory Consistency for Reward Modeling [67.84522106537274]
軌道内整合性正則化を開発し、より高い次トーケン生成確率を持つプロセスがより一貫した報酬を維持することを強制する。提案した正規化でトレーニングした報酬モデルにより、より優れたDPO整合ポリシーが導出され、より優れたベスト・オブ・N(BON)検証結果が得られることを示す。
論文参考訳（メタデータ） (2025-06-10T12:59:14Z)
Enhancing Training Data Attribution with Representational Optimization [57.61977909113113]
トレーニングデータ属性法は、トレーニングデータがモデルの予測にどのように影響するかを測定することを目的としている。本稿では,タスク固有表現とモデル整合表現をTDAで明示的に学習することで,このギャップを埋める表現ベースアプローチであるAirRepを提案する。 AirRepは、属性品質に合わせて調整されたトレーニング可能なエンコーダと、グループワイドの影響を正確に見積もるアテンションベースのプール機構の2つの重要なイノベーションを紹介している。
論文参考訳（メタデータ） (2025-05-24T05:17:53Z)
Learning Explainable Dense Reward Shapes via Bayesian Optimization [45.34810347865996]
トークンレベルのクレジット代入に焦点をあてた最適化問題として、報酬形成の枠組みを定めている。 SHAP や LIME などの説明可能性法を用いて,報酬モデルから各報酬を推定する。実験の結果,トークンレベルの報酬属性のバランスが良くなると,ベースラインよりもパフォーマンスが向上することがわかった。
論文参考訳（メタデータ） (2025-04-22T21:09:33Z)
R3HF: Reward Redistribution for Enhancing Reinforcement Learning from Human Feedback [25.27230140274847]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせるためのパラダイムを提供する。本稿では,より微細なトークンレベルの報酬配分を容易にするR3HFという新たな報酬分配手法を提案する。
論文参考訳（メタデータ） (2024-11-13T02:45:21Z)
A Generalized Acquisition Function for Preference-based Reward Learning [12.158619866176487]
優先度に基づく報酬学習は、ロボットや自律システムに対して、人間がタスクを実行したいと望む方法を教えるための一般的なテクニックである。従来の研究では、報酬関数パラメータに関する情報獲得を最大化するために、嗜好クエリを積極的に合成することで、データ効率が向上することが示されている。本研究では, 報酬関数を行動同値クラスまで学習するためには, 行動上の同一ランク付け, 選択上の分布, その他の関連する2つの報酬の類似性の定義などの最適化が可能であることを示す。
論文参考訳（メタデータ） (2024-03-09T20:32:17Z)
Towards Faithful Explanations for Text Classification with Robustness Improvement and Explanation Guided Training [30.626080706755822]
特徴属性法は、重要な入力トークンをモデル予測の説明として強調する。近年の研究では、これらの手法による説明は、忠実で堅牢であるという課題に直面している。本稿では,テキスト分類のためのロバスト性向上と説明指導による,より忠実な説明(REGEX)への指導手法を提案する。
論文参考訳（メタデータ） (2023-12-29T13:07:07Z)
REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文参考訳（メタデータ） (2023-12-22T04:56:37Z)
Sample Complexity of Preference-Based Nonparametric Off-Policy Evaluation with Deep Networks [58.469818546042696]
我々は、OPEのサンプル効率を人間の好みで研究し、その統計的保証を確立する。 ReLUネットワークのサイズを適切に選択することにより、マルコフ決定過程において任意の低次元多様体構造を活用できることが示される。
論文参考訳（メタデータ） (2023-10-16T16:27:06Z)
Distance-rank Aware Sequential Reward Learning for Inverse Reinforcement Learning with Sub-optimal Demonstrations [25.536792010283566]
逆強化学習(IRL)は、専門家による実験結果に基づいて、基礎となる報酬関数を明示的に推論することを目的としている。本稿では,DRASRL(Distance-rank Aware Sequential Reward Learning)フレームワークを紹介する。本フレームワークは,従来のSOTA手法よりも大幅な性能向上を実現している。
論文参考訳（メタデータ） (2023-10-13T02:38:35Z)
STARC: A General Framework For Quantifying Differences Between Reward Functions [55.33869271912095]
我々は、STARCメトリックと呼ばれるすべての報酬関数の空間上の擬計量のクラスを提供する。以上の結果から,STARCは最悪の後悔に対して上界と下界の両方を誘導することがわかった。また、以前の研究によって提案された報酬指標に関するいくつかの問題も特定します。
論文参考訳（メタデータ） (2023-09-26T20:31:19Z)
Curricular Subgoals for Inverse Reinforcement Learning [21.038691420095525]
逆強化学習(IRL)は、専門家による実証から報酬関数を再構築し、政策学習を促進することを目的としている。既存のIRL法は主に、模倣者と専門家の軌跡の違いを最小限に抑えるために、グローバル報酬関数の学習に重点を置いている。エージェントの模倣を導くために,一タスクを複数の局所的なサブゴールで明示的に切り離す,Curricular Subgoal-based Inverse Reinforcement Learningフレームワークを提案する。
論文参考訳（メタデータ） (2023-06-14T04:06:41Z)
Basis for Intentions: Efficient Inverse Reinforcement Learning using Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文参考訳（メタデータ） (2022-08-09T17:29:49Z)
Invariance in Policy Optimisation and Partial Identifiability in Reward Learning [67.4640841144101]
一般の報奨学習データソースに与えられる報酬関数の部分的識別性を特徴付ける。また、政策最適化など、下流業務におけるこの部分的識別可能性の影響も分析する。
論文参考訳（メタデータ） (2022-03-14T20:19:15Z)
PsiPhi-Learning: Reinforcement Learning with Demonstrations using Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。 Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文参考訳（メタデータ） (2021-02-24T21:12:09Z)
Learning to Utilize Shaping Rewards: A New Approach of Reward Shaping [71.214923471669]
リワード整形は、ドメイン知識を強化学習(RL)に組み込む効果的な手法である本稿では,所定の整形報酬関数を適応的に活用する問題を考察する。スパース逆カートポールとMuJoCo環境の実験は、我々のアルゴリズムが有益な整形報酬を完全に活用できることを示している。
論文参考訳（メタデータ） (2020-11-05T05:34:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。