論文の概要: Reward Learning with Trees: Methods and Evaluation
- arxiv url: http://arxiv.org/abs/2210.01007v1
- Date: Mon, 3 Oct 2022 15:17:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 13:58:09.767923
- Title: Reward Learning with Trees: Methods and Evaluation
- Title(参考訳): 木による報酬学習:方法と評価
- Authors: Tom Bewley, Jonathan Lawry, Arthur Richards, Rachel Craddock, Ian
Henderson
- Abstract要約: 選好ラベルから報奨木を学習する手法を提案する。
我々は、高次元課題に挑戦する上で、ニューラルネットワークと幅広い競争力を持つことを示します。
複雑な環境では、報酬ツリーの学習が効果的に行えることに気付いたので、なぜそれを使うべきかを考えました。
- 参考スコア(独自算出の注目度): 10.473362152378979
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent efforts to learn reward functions from human feedback have tended to
use deep neural networks, whose lack of transparency hampers our ability to
explain agent behaviour or verify alignment. We explore the merits of learning
intrinsically interpretable tree models instead. We develop a recently proposed
method for learning reward trees from preference labels, and show it to be
broadly competitive with neural networks on challenging high-dimensional tasks,
with good robustness to limited or corrupted data. Having found that reward
tree learning can be done effectively in complex settings, we then consider why
it should be used, demonstrating that the interpretable reward structure gives
significant scope for traceability, verification and explanation.
- Abstract(参考訳): 人間のフィードバックから報酬機能を学ぶ最近の取り組みは、透明性の欠如がエージェントの振る舞いの説明やアライメントの検証を妨げているディープニューラルネットワークを使う傾向がある。
我々は本質的に解釈可能な木モデルを学ぶメリットを探求する。
本研究では,最近提案する選好ラベルから報奨木を学習する手法を開発し,制限されたデータや破損したデータに対して頑健性のある高次元課題に対して,ニューラルネットワークと幅広い競合関係にあることを示す。
報酬ツリー学習が複雑な環境で効果的に行えることを発見した後、その利用理由を検討し、解釈可能な報酬構造がトレーサビリティ、検証、説明に重要なスコープを与えることを示した。
関連論文リスト
- Improving Network Interpretability via Explanation Consistency Evaluation [56.14036428778861]
本稿では、より説明可能なアクティベーションヒートマップを取得し、同時にモデル性能を向上させるフレームワークを提案する。
具体的には、モデル学習において、トレーニングサンプルを適応的に重み付けするために、新しいメトリクス、すなわち説明整合性を導入する。
そこで,本フレームワークは,これらのトレーニングサンプルに深い注意を払ってモデル学習を促進する。
論文 参考訳(メタデータ) (2024-08-08T17:20:08Z) - Coding schemes in neural networks learning classification tasks [52.22978725954347]
完全接続型広義ニューラルネットワーク学習タスクについて検討する。
ネットワークが強力なデータ依存機能を取得することを示す。
驚くべきことに、内部表現の性質は神経の非線形性に大きく依存する。
論文 参考訳(メタデータ) (2024-06-24T14:50:05Z) - Why do Random Forests Work? Understanding Tree Ensembles as
Self-Regularizing Adaptive Smoothers [68.76846801719095]
統計学で広く普及している偏りと分散還元に対する現在の高次二分法は、木のアンサンブルを理解するには不十分である、と我々は主張する。
森林は、通常暗黙的に絡み合っている3つの異なるメカニズムによって、樹木を改良できることを示す。
論文 参考訳(メタデータ) (2024-02-02T15:36:43Z) - NSOTree: Neural Survival Oblique Tree [0.21756081703275998]
サバイバル分析(英: Survival analysis)は、特定の利害関係が成立するまでの期間を精査するために用いられる統計手法である。
深層学習に基づく手法は、その表現能力と最先端の性能からこの分野を支配してきた。
本稿では,ニューラルネットワークと木に基づく手法の両方の長所を活用し,解釈可能性を維持しつつ,複雑な関数を近似する能力を生かした。
論文 参考訳(メタデータ) (2023-09-25T02:14:15Z) - Minimizing Control for Credit Assignment with Strong Feedback [65.59995261310529]
ディープニューラルネットワークにおける勾配に基づくクレジット割り当ての現在の手法は、無限小のフィードバック信号を必要とする。
我々は、神経活動に対する強いフィードバックと勾配に基づく学習を組み合わせることで、ニューラルネットワークの最適化に関する新たな視点を自然に導き出すことを示す。
DFCにおける強いフィードバックを用いることで、空間と時間において完全に局所的な学習規則を用いることで、前向きとフィードバックの接続を同時に学習できることを示す。
論文 参考訳(メタデータ) (2022-04-14T22:06:21Z) - Interpretable Preference-based Reinforcement Learning with
Tree-Structured Reward Functions [2.741266294612776]
本稿では,木の構造を内在的に解釈して報酬関数を構成するオンライン能動的選好学習アルゴリズムを提案する。
いくつかの環境において,木構造報酬関数のサンプル効率学習を実演し,改良された解釈可能性を活用して,アライメントの探索とデバッグを行う。
論文 参考訳(メタデータ) (2021-12-20T09:53:23Z) - Backprop-Free Reinforcement Learning with Active Neural Generative
Coding [84.11376568625353]
動的環境におけるエラー(バックプロップ)のバックプロパゲーションを伴わない行動駆動型生成モデルの学習のための計算フレームワークを提案する。
我々は、まばらな報酬でも機能するインテリジェントエージェントを開発し、推論として計画の認知理論からインスピレーションを得ている。
我々のエージェントの堅牢な性能は、神経推論と学習のためのバックプロップフリーアプローチがゴール指向の行動を促進するという有望な証拠を提供する。
論文 参考訳(メタデータ) (2021-07-10T19:02:27Z) - Sparse Oblique Decision Trees: A Tool to Understand and Manipulate
Neural Net Features [3.222802562733787]
ニューラルネットワークによって計算される内部的特徴のどれが特定のクラスに責任を持つかを理解することに注力する。
我々は、ニューラルネットワークの機能を容易に操作できることを示し、ネットが所定のクラスを予測するかどうかを予測できるようにし、機能レベルで敵対的な攻撃を行うことができることを示した。
論文 参考訳(メタデータ) (2021-04-07T05:31:08Z) - Learning Intrinsic Symbolic Rewards in Reinforcement Learning [7.101885582663675]
低次元のシンボル木の形で高密度報酬を発見する方法を提案する。
得られた高密度報酬は、ベンチマークタスクを解くためのRLポリシーに有効な信号であることを示す。
論文 参考訳(メタデータ) (2020-10-08T00:02:46Z) - Reward Propagation Using Graph Convolutional Networks [61.32891095232801]
本稿では,グラフ表現学習のアイデアを活用した潜在機能学習フレームワークを提案する。
我々のアプローチは、強化学習の確率論的推論と組み合わせて、重要な要素として使用するグラフ畳み込みネットワークに依存している。
論文 参考訳(メタデータ) (2020-10-06T04:38:16Z) - Making Neural Networks Interpretable with Attribution: Application to
Implicit Signals Prediction [11.427019313283997]
本稿では,属性処理のための解釈可能なディープニューラルネットワークの新たな定式化を提案する。
マスク付きの重量を使って隠れた特徴を深く評価し、いくつかの入力制限されたサブネットワークに分割し、専門家の強化された混合として訓練する。
論文 参考訳(メタデータ) (2020-08-26T06:46:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。