論文の概要: Interpretable and Editable Programmatic Tree Policies for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2405.14956v1
- Date: Thu, 23 May 2024 18:07:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-27 19:27:22.090524
- Title: Interpretable and Editable Programmatic Tree Policies for Reinforcement Learning
- Title(参考訳): 強化学習のための解釈可能かつ編集可能なプログラム木ポリシー
- Authors: Hector Kohler, Quentin Delfosse, Riad Akrour, Kristian Kersting, Philippe Preux,
- Abstract要約: 本稿では,INERpretable Editable tRee Programs for ReinforcEmenT lEaRningを提案する。
我々は,アタリゲームにおける不正調整を正し,実際の農業戦略を説明するために,我々の方針を解釈し,編集することができることを示す。
- 参考スコア(独自算出の注目度): 25.952871505978642
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep reinforcement learning agents are prone to goal misalignments. The black-box nature of their policies hinders the detection and correction of such misalignments, and the trust necessary for real-world deployment. So far, solutions learning interpretable policies are inefficient or require many human priors. We propose INTERPRETER, a fast distillation method producing INTerpretable Editable tRee Programs for ReinforcEmenT lEaRning. We empirically demonstrate that INTERPRETER compact tree programs match oracles across a diverse set of sequential decision tasks and evaluate the impact of our design choices on interpretability and performances. We show that our policies can be interpreted and edited to correct misalignments on Atari games and to explain real farming strategies.
- Abstract(参考訳): 深い強化学習エージェントは、目標のミスアライメントを目標とする傾向があります。
それらのポリシーのブラックボックスの性質は、そのようなミスアライメントの検出と修正を妨げ、現実世界の展開に必要な信頼を妨げている。
これまでのところ、解釈可能なポリシを学習するソリューションは非効率的か、あるいは多くの人的優先事項を必要とする。
本稿では,INERpretable Editable tRee Programs for ReinforcEmenT lEaRning の高速蒸留法である InterPRETER を提案する。
実験により,InterPRETERのコンパクトツリープログラムは,様々な逐次決定課題にまたがるオーラクルと一致し,設計選択が解釈可能性や性能に与える影響を実証した。
我々は,アタリゲームにおける不正調整を正し,実際の農業戦略を説明するために,我々の方針を解釈し,編集することができることを示す。
関連論文リスト
- Compromising Embodied Agents with Contextual Backdoor Attacks [69.71630408822767]
大型言語モデル(LLM)は、エンボディドインテリジェンスの発展に変化をもたらした。
本稿では,このプロセスにおけるバックドアセキュリティの重大な脅威を明らかにする。
ほんの少しの文脈的デモンストレーションを毒殺しただけで、攻撃者はブラックボックスLDMの文脈的環境を隠蔽することができる。
論文 参考訳(メタデータ) (2024-08-06T01:20:12Z) - Hierarchical Programmatic Reinforcement Learning via Learning to Compose
Programs [58.94569213396991]
プログラムポリシーを作成するための階層型プログラム強化学習フレームワークを提案する。
提案するフレームワークは,プログラム作成の学習を通じて,アウト・オブ・ディストリビュータの複雑な動作を記述するプログラムポリシーを作成することができる。
Karel ドメインの実験結果から,提案するフレームワークがベースラインより優れていることが示された。
論文 参考訳(メタデータ) (2023-01-30T14:50:46Z) - Constrained Policy Optimization for Controlled Self-Learning in
Conversational AI Systems [18.546197100318693]
ユーザ定義制約により、個々のドメインに対するきめ細かい探索ターゲットをサポートするスケーラブルなフレームワークを導入する。
この問題に対処するために,スケーラブルで実用的なメタ段階学習手法を提案する。
我々は、現実的な制約ベンチマークのセット上で、現実世界の会話型AIのデータを使用して広範な実験を行う。
論文 参考訳(メタデータ) (2022-09-17T23:44:13Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - Constructing a Good Behavior Basis for Transfer using Generalized Policy
Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。
理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文 参考訳(メタデータ) (2021-12-30T12:20:46Z) - Off-policy Reinforcement Learning with Optimistic Exploration and
Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。
最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文 参考訳(メタデータ) (2021-10-22T22:07:51Z) - Learning to Synthesize Programs as Interpretable and Generalizable
Policies [25.258598215642067]
本稿では,プログラムの合成を学習するフレームワークについて述べる。
実験の結果,提案フレームワークは,タスク解決プログラムを確実に合成するだけでなく,DRLやプログラム合成ベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-08-31T07:03:06Z) - Certifying Decision Trees Against Evasion Attacks by Program Analysis [9.290879387995401]
本稿では,回避攻撃に対する機械学習モデルの安全性を検証する新しい手法を提案する。
提案手法は,決定木の解釈可能性を利用して命令型プログラムに変換する。
実験の結果,我々の手法は正確かつ効率的であり,最小限の偽陽性しか得られないことが判明した。
論文 参考訳(メタデータ) (2020-07-06T14:18:10Z) - Tree-Structured Policy based Progressive Reinforcement Learning for
Temporally Language Grounding in Video [128.08590291947544]
非トリミングビデオにおける一時的言語接地は、ビデオ理解における新たな課題である。
ヒトの粗大な意思決定パラダイムにインスパイアされた我々は、新しい木構造政策に基づくプログレッシブ強化学習フレームワークを定式化した。
論文 参考訳(メタデータ) (2020-01-18T15:08:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。