論文の概要: Unveiling the Decision-Making Process in Reinforcement Learning with Genetic Programming
- arxiv url: http://arxiv.org/abs/2407.14714v1
- Date: Sat, 20 Jul 2024 00:45:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-23 21:14:02.709081
- Title: Unveiling the Decision-Making Process in Reinforcement Learning with Genetic Programming
- Title(参考訳): 遺伝的プログラミングによる強化学習における意思決定プロセスの展開
- Authors: Manuel Eberhardinger, Florian Rupp, Johannes Maucher, Setareh Maghsudi,
- Abstract要約: 不理解性は、現実世界で(深い)強化学習を使用するための選択肢ではない。
我々は、すでに訓練されたエージェントの意思決定プロセスの説明を生成するための遺伝的プログラミングフレームワークを提案する。
私たちは性能に匹敵するが、ハードウェアリソースや計算時間を大幅に削減する必要があることを示しています。
- 参考スコア(独自算出の注目度): 4.249842620609683
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite tremendous progress, machine learning and deep learning still suffer from incomprehensible predictions. Incomprehensibility, however, is not an option for the use of (deep) reinforcement learning in the real world, as unpredictable actions can seriously harm the involved individuals. In this work, we propose a genetic programming framework to generate explanations for the decision-making process of already trained agents by imitating them with programs. Programs are interpretable and can be executed to generate explanations of why the agent chooses a particular action. Furthermore, we conduct an ablation study that investigates how extending the domain-specific language by using library learning alters the performance of the method. We compare our results with the previous state of the art for this problem and show that we are comparable in performance but require much less hardware resources and computation time.
- Abstract(参考訳): 膨大な進歩にもかかわらず、機械学習とディープラーニングはいまだに理解不能な予測に悩まされている。
しかし、予測不能な行動は関係する個人に深刻なダメージを与えるため、現実の世界で(深い)強化学習を使用する選択肢にはなり得ない。
本研究では,プログラムを模倣することで,すでに訓練済みのエージェントの意思決定プロセスの説明を生成する遺伝的プログラミングフレームワークを提案する。
プログラムは解釈可能であり、エージェントが特定のアクションを選択する理由を説明するために実行できる。
さらに,図書館学習によるドメイン固有言語の拡張が,その手法の性能をどう変えるかを検討するアブレーション研究を行った。
この問題に対するこれまでの最先端技術と比較し、我々は性能に匹敵するが、ハードウェアリソースや計算時間をはるかに少なくすることを示した。
関連論文リスト
- A Human-Centered Approach for Improving Supervised Learning [0.44378250612683995]
本稿では、パフォーマンス、時間、リソースの制約のバランスをとる方法を示す。
この研究のもう1つの目標は、人間中心のアプローチを用いて、エンサンブルスをより説明しやすく、理解しやすくすることである。
論文 参考訳(メタデータ) (2024-10-14T10:27:14Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Improving Long-Horizon Imitation Through Instruction Prediction [93.47416552953075]
本研究では、しばしば使われない補助的監督源である言語の使用について検討する。
近年のトランスフォーマーモデルの発展にインスパイアされたエージェントは,高レベルの抽象化で動作する時間拡張表現の学習を促す命令予測損失を持つエージェントを訓練する。
さらなる分析では、複雑な推論を必要とするタスクにおいて、命令モデリングが最も重要であり、単純な計画を必要とする環境において、より小さなゲインを提供する。
論文 参考訳(メタデータ) (2023-06-21T20:47:23Z) - Explainable Data-Driven Optimization: From Context to Decision and Back
Again [76.84947521482631]
データ駆動最適化では、コンテキスト情報と機械学習アルゴリズムを使用して、不確実なパラメータによる決定問題の解決策を見つける。
本稿では,データ駆動型問題に対する解法を説明するために,対実的説明手法を提案する。
在庫管理やルーティングといった運用管理における重要な問題を説明することで,我々のアプローチを実証する。
論文 参考訳(メタデータ) (2023-01-24T15:25:16Z) - Chain of Thought Imitation with Procedure Cloning [129.62135987416164]
本稿では,一連の専門家計算を模倣するために,教師付きシーケンス予測を適用したプロシージャクローニングを提案する。
本研究では、専門家の行動の中間計算を模倣することで、プロシージャのクローン化により、未知の環境構成に顕著な一般化を示すポリシーを学習できることを示す。
論文 参考訳(メタデータ) (2022-05-22T13:14:09Z) - On Reinforcement Learning, Effect Handlers, and the State Monad [0.0]
本研究では,機能プログラムにおける意思決定抽象化を支援する手段として,エフェクトとハンドラについて検討する。
我々は,これらの操作のハンドラセットとして実装された強化学習アルゴリズムとして,その基盤となるインテリジェンスを表現している。
我々は、タイプとエフェクトハンドラがいかに安全性を確保できるかを示唆することで結論付けた。
論文 参考訳(メタデータ) (2022-03-29T10:46:58Z) - Inverse Online Learning: Understanding Non-Stationary and Reactionary
Policies [79.60322329952453]
エージェントが意思決定を行う方法の解釈可能な表現を開発する方法を示す。
一連の軌跡に基づく意思決定プロセスを理解することにより,このオンライン学習問題に対して,政策推論問題を逆問題とみなした。
本稿では、エージェントがそれらを更新するプロセスと並行して、その影響を遡及的に推定する実用的なアルゴリズムを提案する。
UNOSの臓器提供受諾決定の分析に応用することで、我々のアプローチは意思決定プロセスを管理する要因や時間とともにどのように変化するかに、貴重な洞察をもたらすことができることを実証する。
論文 参考訳(メタデータ) (2022-03-14T17:40:42Z) - Deep Reinforcement Learning with Stacked Hierarchical Attention for
Text-based Games [64.11746320061965]
自然言語の文脈におけるインタラクティブなシミュレーションであるテキストベースゲームの強化学習について検討する。
エージェントの動作が解釈可能な推論手順によって生成され、支援されるように、意思決定のための知識グラフを用いた明示的な推論を行うことを目指している。
提案手法を多数の人為的ベンチマークゲームで広範囲に評価し,本手法が既存のテキストベースエージェントよりも優れていることを示す実験結果を得た。
論文 参考訳(メタデータ) (2020-10-22T12:40:22Z) - Leveraging Rationales to Improve Human Task Performance [15.785125079811902]
計算システムの性能が人間のユーザを上回ることを考えれば、人間のパフォーマンスを改善するために説明可能なAI能力を活用することができるだろうか?
本稿では,ユーティリティベースの計算手法の合理性を自動生成するRationale-Generating Algorithmを紹介する。
以上の結果から,本手法は人事性能の統計的改善につながる有理性を生み出すことが示唆された。
論文 参考訳(メタデータ) (2020-02-11T04:51:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。