論文の概要: SMOSE: Sparse Mixture of Shallow Experts for Interpretable Reinforcement Learning in Continuous Control Tasks
- arxiv url: http://arxiv.org/abs/2412.13053v1
- Date: Tue, 17 Dec 2024 16:15:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 14:00:29.997990
- Title: SMOSE: Sparse Mixture of Shallow Experts for Interpretable Reinforcement Learning in Continuous Control Tasks
- Title(参考訳): SMOSE: 連続制御タスクにおける解釈型強化学習のための浅部エキスパートの疎混合
- Authors: Mátyás Vincze, Laura Ferrarotti, Leonardo Lucio Custode, Bruno Lepri, Giovanni Iacca,
- Abstract要約: SMOSEは、疎活性化された解釈可能なコントローラを訓練する新しい方法である。
さまざまな基本的なスキルのエキスパートになるように訓練された解釈可能な意思決定者と、専門家にタスクを割り当てる解釈可能なルータを組み合わせたものだ。
次に、ルータの重みから決定木を蒸留し、解釈の容易さを大幅に改善する。
- 参考スコア(独自算出の注目度): 6.408395876568997
- License:
- Abstract: Continuous control tasks often involve high-dimensional, dynamic, and non-linear environments. State-of-the-art performance in these tasks is achieved through complex closed-box policies that are effective, but suffer from an inherent opacity. Interpretable policies, while generally underperforming compared to their closed-box counterparts, advantageously facilitate transparent decision-making within automated systems. Hence, their usage is often essential for diagnosing and mitigating errors, supporting ethical and legal accountability, and fostering trust among stakeholders. In this paper, we propose SMOSE, a novel method to train sparsely activated interpretable controllers, based on a top-1 Mixture-of-Experts architecture. SMOSE combines a set of interpretable decisionmakers, trained to be experts in different basic skills, and an interpretable router that assigns tasks among the experts. The training is carried out via state-of-the-art Reinforcement Learning algorithms, exploiting load-balancing techniques to ensure fair expert usage. We then distill decision trees from the weights of the router, significantly improving the ease of interpretation. We evaluate SMOSE on six benchmark environments from MuJoCo: our method outperforms recent interpretable baselines and narrows the gap with noninterpretable state-of-the-art algorithms
- Abstract(参考訳): 連続制御タスクは高次元、動的、非線形の環境を含むことが多い。
これらのタスクにおける最先端のパフォーマンスは、複雑なクローズドボックスポリシーによって達成される。
解釈可能なポリシは、一般的にクローズドボックスよりもパフォーマンスが低いが、自動化システム内の透過的な意思決定を有利に促進する。
したがって、それらの使用はしばしば、エラーの診断と緩和、倫理的および法的説明責任のサポート、利害関係者間の信頼の促進に不可欠である。
本稿では,SMOSEを提案する。SMOSEは,Top-1 Mixture-of-Expertsアーキテクチャをベースとした,疎活性化可能な解釈可能なコントローラの学習手法である。
SMOSEには、さまざまな基本的なスキルの専門家として訓練された解釈可能な意思決定者と、専門家にタスクを割り当てる解釈可能なルータが組み合わされている。
トレーニングは最先端の強化学習アルゴリズムを通じて行われ、負荷分散技術を活用して、専門家の公正な使用を保証する。
次に、ルータの重みから決定木を蒸留し、解釈の容易さを大幅に改善する。
我々は MuJoCo の6つのベンチマーク環境上で SMOSE を評価する:我々の手法は最近の解釈可能なベースラインを上回り、非解釈可能な最先端アルゴリズムとのギャップを狭める。
関連論文リスト
- Designing an Interpretable Interface for Contextual Bandits [0.0]
我々は,盗賊の根底にある振る舞いを説明するために,ドメインの専門家に新しいインターフェースを設計する。
技術的厳密さとアクセシブルなプレゼンテーションを慎重にバランスさせることで、非専門家に複雑な機械学習システムを管理する力を与えることが可能であることを示唆している。
論文 参考訳(メタデータ) (2024-09-23T15:47:44Z) - RILe: Reinforced Imitation Learning [60.63173816209543]
RILeは、学生のパフォーマンスと専門家によるデモンストレーションとの整合性に基づいて、動的報酬関数を学習する新しいトレーナー学生システムである。
RILeは、従来のメソッドがフェールする複雑な環境でのより良いパフォーマンスを実現し、複雑なシミュレートされたロボット移動タスクにおいて、既存のメソッドを2倍の性能で上回る。
論文 参考訳(メタデータ) (2024-06-12T17:56:31Z) - Model-Agnostic Interpretation Framework in Machine Learning: A
Comparative Study in NBA Sports [0.2937071029942259]
本稿では,モデル性能と解釈可能性のトレードオフを整理する,革新的な枠組みを提案する。
我々のアプローチは高次元データに対するモジュラー操作を中心とし、解釈可能性を維持しながらエンドツーエンドの処理を可能にする。
我々は、我々のフレームワークを広範囲にテストし、計算効率と解釈可能性のバランスをとる上で、その優れた効果を検証した。
論文 参考訳(メタデータ) (2024-01-05T04:25:21Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Imitation from Observation With Bootstrapped Contrastive Learning [12.048166025000976]
IfO(IfO)は、マルコフ決定プロセスにおいて自律エージェントを訓練する学習パラダイムである。
本稿では,OfOアルゴリズムであるBootIfOLについて紹介する。
我々は,限られた数の実証軌道を用いて効果的な政策を訓練できることを示す,様々な制御タスクに対するアプローチを評価する。
論文 参考訳(メタデータ) (2023-02-13T17:32:17Z) - Autonomous Reinforcement Learning: Formalism and Benchmarking [106.25788536376007]
人間や動物が行うような現実世界の具体的学習は、連続的で非エポゾディックな世界にある。
RLの一般的なベンチマークタスクはエピソジックであり、試行錯誤によってエージェントに複数の試行を行う環境がリセットされる。
この相違は、擬似環境向けに開発されたRLアルゴリズムを現実世界のプラットフォーム上で実行しようとする場合、大きな課題となる。
論文 参考訳(メタデータ) (2021-12-17T16:28:06Z) - Hierarchical Skills for Efficient Exploration [70.62309286348057]
強化学習において、事前訓練された低レベルスキルは、探索を大幅に促進する可能性がある。
下流タスクの以前の知識は、スキルデザインにおける一般性(きめ細かい制御)と特異性(より高速な学習)の適切なバランスをとるために必要である。
教師なしの方法で様々な複雑さのスキルを習得する階層的スキル学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T22:29:32Z) - Mixture of Robust Experts (MoRE): A Flexible Defense Against Multiple
Perturbations [33.868833849116044]
MoRE(Mixture of Robust Experts)アプローチは、幅広い堅牢な専門家と優れたパフォーマンスの柔軟な統合を可能にする。
本研究では,ゲーティング機構を用いて,特定の摂動タイプに対処するために,あるいは通常はクリーンデータの正確性を高めるために訓練された専門家ネットワークの組を組み立てる。
論文 参考訳(メタデータ) (2021-04-21T15:27:07Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z) - An Information Bottleneck Approach for Controlling Conciseness in
Rationale Extraction [84.49035467829819]
我々は,情報ボトルネック(IB)の目的を最適化することで,このトレードオフをよりよく管理できることを示す。
我々の完全教師なしのアプローチは、文上のスパース二項マスクを予測する説明器と、抽出された合理性のみを考慮したエンドタスク予測器を共同で学習する。
論文 参考訳(メタデータ) (2020-05-01T23:26:41Z) - Self-Supervised Discovering of Interpretable Features for Reinforcement
Learning [40.52278913726904]
深層強化学習のための自己教師付き解釈可能なフレームワークを提案する。
タスク関連情報を強調するための細かな注意マスクを作成するために、自己教師型解釈ネットワーク(SSINet)が使用される。
Atari 2600とDuckietownは、自動運転車のシミュレータ環境として難易度の高い環境である。
論文 参考訳(メタデータ) (2020-03-16T08:26:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。