Fugu-MT 論文翻訳(概要): Can Differentiable Decision Trees Learn Interpretable Reward Functions?

論文の概要: Can Differentiable Decision Trees Learn Interpretable Reward Functions?

arxiv url: http://arxiv.org/abs/2306.13004v3
Date: Wed, 25 Oct 2023 21:36:24 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-28 01:28:06.901429
Title: Can Differentiable Decision Trees Learn Interpretable Reward Functions?
Title（参考訳）: 微分可能決定木は解釈可能な逆関数を学習できるか?
Authors: Akansha Kalra, Daniel S. Brown
Abstract要約: 微分決定木(DDT)を用いた嗜好から表現的・解釈可能な報酬関数を学習するための新しいアプローチを提案し,評価する。 CartPole、Visual Gridworld環境、Atariゲームなど、いくつかの領域にわたる実験により、学習した報酬関数のツリー構造が人間の嗜好に合致する範囲を決定するのに有用であることを示す。
参考スコア（独自算出の注目度）: 12.957818662082124
License: http://creativecommons.org/licenses/by/4.0/
Abstract: There is an increasing interest in learning reward functions that model human preferences. However, many frameworks use blackbox learning methods that, while expressive, are difficult to interpret. We propose and evaluate a novel approach for learning expressive and interpretable reward functions from preferences using Differentiable Decision Trees (DDTs). Our experiments across several domains, including CartPole, Visual Gridworld environments and Atari games, provide evidence that that the tree structure of our learned reward function is useful in determining the extent to which the reward function is aligned with human preferences. We provide experimental evidence that reward DDTs can achieve competitive performance when compared with larger capacity deep neural network reward functions. We also observe that the choice between soft and hard (argmax) output of reward DDT reveals a tension between wanting highly shaped rewards to ensure good RL performance, while also wanting simpler, more interpretable rewards.
Abstract（参考訳）: 人間の好みをモデル化する報酬関数の学習への関心が高まっている。しかし、多くのフレームワークは、表現力はあるが解釈が難しいブラックボックス学習手法を使っている。本稿では,微分可能決定木(DDT)を用いた嗜好から表現的かつ解釈可能な報酬関数を学習するための新しいアプローチを提案し,評価する。 CartPole、Visual Gridworld環境、Atariゲームなど、いくつかの領域にわたる実験により、学習した報酬関数のツリー構造が人間の嗜好に合致する範囲を決定するのに有用であることを示す。我々は,大容量のディープニューラルネットワーク報酬関数と比較して,報酬ddtが競合性能を達成できることを示す実験的な証拠を提供する。また,ddtのソフト(argmax)出力とハード(argmax)出力の選択は,よりシンプルで解釈可能な報酬を求めると同時に,高い形状の報酬を求めることと,より優れたrl性能を確保するための緊張関係を明らかにすることも観察した。

関連論文リスト

GRACE: A Language Model Framework for Explainable Inverse Reinforcement Learning [46.09328632452354]
本稿では,進化探索における大規模言語モデルを用いた解釈可能なコードベース報酬関数のリバースエンジニアリング手法であるGRACEを紹介する。その結果得られる報酬関数は、検査と検証が可能な実行可能なコードである。 BabyAIとAndroidWorldのベンチマークでGRACEを実証的に検証し、高い精度の報酬を効率よく学習する。
論文参考訳（メタデータ） (2025-10-02T16:31:39Z)
Learning to Reason without External Rewards [100.27210579418562]
RLVR(Reinforcement Learning with Verifiable Rewards)による複雑な推論のための大規模言語モデル(LLM)の訓練は、費用がかかるドメイン固有の監督に依存して効果的であるが制限されている。内部フィードバックからの強化学習(Reinforcement Learning from Internal Feedback, RLIF)は、LLMが外部の報酬やラベル付きデータなしで本質的な信号から学習できるフレームワークである。本稿では,モデル自身の信頼度を利用したRLIF手法であるIntuitorについて,その唯一の報奨信号として自己確実性(self-certainty)を提案する。
論文参考訳（メタデータ） (2025-05-26T07:01:06Z)
Reward Shaping to Mitigate Reward Hacking in RLHF [47.71454266800376]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデルと人間の価値の整合に不可欠である。報酬形成はRLHFを安定させ、報酬ハッキングを部分的に軽減する。本稿では,報酬形成手法の総合的研究について述べる。提案手法は,報酬モデル自体に埋め込まれた潜在的嗜好を,強化学習の信号として活用する手法である。
論文参考訳（メタデータ） (2025-02-26T02:57:59Z)
RED: Unleashing Token-Level Rewards from Holistic Feedback via Reward Redistribution [50.171320156632866]
人間のフィードバックからの強化学習は、大きな言語モデルを人間の好みに合わせるための有望なアプローチを提供する。現在の報酬モデルはシークエンス・ツー・ワンモデルとして動作し、単一、スパース、遅延報酬を全出力シーケンスに割り当てる。よりきめ細かなトークンレベルの指導手法をRLトレーニングに提案する。
論文参考訳（メタデータ） (2024-11-13T02:45:21Z)
Few-shot In-Context Preference Learning Using Large Language Models [15.84585737510038]
報酬関数の設計は強化学習の中核的な要素である。報酬を学ぶことは、しばしばタトゥーラ・ラサを学ぶため、非常に非効率である。 In-Context Preference Learning (ICPL) を提案する。
論文参考訳（メタデータ） (2024-10-22T17:53:34Z)
REBEL: A Regularization-Based Solution for Reward Overoptimization in Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数とユーザの意図、価値観、社会的規範の相違は、現実世界で破滅的なものになる可能性がある。人間の嗜好から報酬関数を学習することで、このミスアライメント作業を軽減するための現在の方法。本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文参考訳（メタデータ） (2023-12-22T04:56:37Z)
Deep Reinforcement Learning from Hierarchical Preference Design [99.46415116087259]
本稿では,特定の構造を利用することにより,報酬設計プロセスの容易性を示す。シナリオのための階層的な報酬モデリングフレームワーク -- HERONを提案する。 (I) フィードバック信号は自然に階層構造を呈し、 (II) 報酬は希少であるが、政策学習を支援するためにあまり重要でないサロゲートフィードバックを持つ。
論文参考訳（メタデータ） (2023-09-06T00:44:29Z)
Basis for Intentions: Efficient Inverse Reinforcement Learning using Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文参考訳（メタデータ） (2022-08-09T17:29:49Z)
Interpretable Preference-based Reinforcement Learning with Tree-Structured Reward Functions [2.741266294612776]
本稿では,木の構造を内在的に解釈して報酬関数を構成するオンライン能動的選好学習アルゴリズムを提案する。いくつかの環境において,木構造報酬関数のサンプル効率学習を実演し,改良された解釈可能性を活用して,アライメントの探索とデバッグを行う。
論文参考訳（メタデータ） (2021-12-20T09:53:23Z)
Reward function shape exploration in adversarial imitation learning: an empirical study [9.817069267241575]
敵対的模倣学習アルゴリズム(ails)では、戦略を学ぶための環境から真の報酬は得られない。代表的な報酬関数の形状を設計し,その性能を大規模実験により比較する。
論文参考訳（メタデータ） (2021-04-14T08:21:49Z)
Information Directed Reward Learning for Reinforcement Learning [64.33774245655401]
我々は、標準rlアルゴリズムが可能な限り少数の専門家クエリで高い期待値を達成することができる報酬関数のモデルを学ぶ。特定のタイプのクエリ用に設計された以前のアクティブな報酬学習方法とは対照的に、IDRLは自然に異なるクエリタイプに対応します。我々は,複数の環境における広範囲な評価と,異なるタイプのクエリでこの結果を支持する。
論文参考訳（メタデータ） (2021-02-24T18:46:42Z)
Semi-supervised reward learning for offline reinforcement learning [71.6909757718301]
トレーニングエージェントは通常、報酬機能が必要ですが、報酬は実際にはほとんど利用できず、エンジニアリングは困難で手間がかかります。限定されたアノテーションから学習し,ラベルなしデータを含む半教師付き学習アルゴリズムを提案する。シミュレーションロボットアームを用いた実験では,動作のクローン化が大幅に向上し,真理の報奨によって達成される性能に近づいた。
論文参考訳（メタデータ） (2020-12-12T20:06:15Z)
Understanding Learned Reward Functions [6.714172005695389]
学習報酬関数の解釈手法を検討する。特に、障害モードを特定し、報酬関数の堅牢性を予測するために、サリペンシーメソッドを適用します。学習報酬関数は、環境の偶発的な側面に依存する驚くべきアルゴリズムをしばしば実装する。
論文参考訳（メタデータ） (2020-12-10T18:19:48Z)
Learning to Utilize Shaping Rewards: A New Approach of Reward Shaping [71.214923471669]
リワード整形は、ドメイン知識を強化学習(RL)に組み込む効果的な手法である本稿では,所定の整形報酬関数を適応的に活用する問題を考察する。スパース逆カートポールとMuJoCo環境の実験は、我々のアルゴリズムが有益な整形報酬を完全に活用できることを示している。
論文参考訳（メタデータ） (2020-11-05T05:34:14Z)
Reward Machines: Exploiting Reward Function Structure in Reinforcement Learning [22.242379207077217]
報酬関数のコードをRLエージェントに示すことで、関数の内部構造を利用して最適なポリシーを学習する方法を示す。まず、報酬関数の仕様をサポートする有限状態機械の一種である報酬機械を提案する。次に、この構造を利用して、自動報酬形成、タスク分解、非政治的学習による対実的推論など、学習を支援する方法について述べる。
論文参考訳（メタデータ） (2020-10-06T00:10:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。