Fugu-MT 論文翻訳(概要): SMOSE: Sparse Mixture of Shallow Experts for Interpretable Reinforcement Learning in Continuous Control Tasks

論文の概要: SMOSE: Sparse Mixture of Shallow Experts for Interpretable Reinforcement Learning in Continuous Control Tasks

arxiv url: http://arxiv.org/abs/2412.13053v1
Date: Tue, 17 Dec 2024 16:15:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-18 17:09:38.780775
Title: SMOSE: Sparse Mixture of Shallow Experts for Interpretable Reinforcement Learning in Continuous Control Tasks
Title（参考訳）: SMOSE: 連続制御タスクにおける解釈型強化学習のための浅部エキスパートの疎混合
Authors: Mátyás Vincze, Laura Ferrarotti, Leonardo Lucio Custode, Bruno Lepri, Giovanni Iacca,
Abstract要約: SMOSEは、疎活性化された解釈可能なコントローラを訓練する新しい方法である。さまざまな基本的なスキルのエキスパートになるように訓練された解釈可能な意思決定者と、専門家にタスクを割り当てる解釈可能なルータを組み合わせたものだ。次に、ルータの重みから決定木を蒸留し、解釈の容易さを大幅に改善する。
参考スコア（独自算出の注目度）: 6.408395876568997
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Continuous control tasks often involve high-dimensional, dynamic, and non-linear environments. State-of-the-art performance in these tasks is achieved through complex closed-box policies that are effective, but suffer from an inherent opacity. Interpretable policies, while generally underperforming compared to their closed-box counterparts, advantageously facilitate transparent decision-making within automated systems. Hence, their usage is often essential for diagnosing and mitigating errors, supporting ethical and legal accountability, and fostering trust among stakeholders. In this paper, we propose SMOSE, a novel method to train sparsely activated interpretable controllers, based on a top-1 Mixture-of-Experts architecture. SMOSE combines a set of interpretable decisionmakers, trained to be experts in different basic skills, and an interpretable router that assigns tasks among the experts. The training is carried out via state-of-the-art Reinforcement Learning algorithms, exploiting load-balancing techniques to ensure fair expert usage. We then distill decision trees from the weights of the router, significantly improving the ease of interpretation. We evaluate SMOSE on six benchmark environments from MuJoCo: our method outperforms recent interpretable baselines and narrows the gap with noninterpretable state-of-the-art algorithms
Abstract（参考訳）: 連続制御タスクは高次元、動的、非線形の環境を含むことが多い。これらのタスクにおける最先端のパフォーマンスは、複雑なクローズドボックスポリシーによって達成される。解釈可能なポリシは、一般的にクローズドボックスよりもパフォーマンスが低いが、自動化システム内の透過的な意思決定を有利に促進する。したがって、それらの使用はしばしば、エラーの診断と緩和、倫理的および法的説明責任のサポート、利害関係者間の信頼の促進に不可欠である。本稿では,SMOSEを提案する。SMOSEは,Top-1 Mixture-of-Expertsアーキテクチャをベースとした,疎活性化可能な解釈可能なコントローラの学習手法である。 SMOSEには、さまざまな基本的なスキルの専門家として訓練された解釈可能な意思決定者と、専門家にタスクを割り当てる解釈可能なルータが組み合わされている。トレーニングは最先端の強化学習アルゴリズムを通じて行われ、負荷分散技術を活用して、専門家の公正な使用を保証する。次に、ルータの重みから決定木を蒸留し、解釈の容易さを大幅に改善する。我々は MuJoCo の6つのベンチマーク環境上で SMOSE を評価する:我々の手法は最近の解釈可能なベースラインを上回り、非解釈可能な最先端アルゴリズムとのギャップを狭める。

関連論文リスト

MoRE-LLM: Mixture of Rule Experts Guided by a Large Language Model [54.14155564592936]
大規模言語モデル(MoRE-LLM)によるルールエキスパートの混合を提案する。 MoRE-LLMは、トレーニング中の局所的なルールベースのサロゲートの発見と、それらの分類タスクの利用を操縦する。 LLMはルールを修正・コンテキスト化することで、ルールのドメイン知識の整合性を高める役割を担います。
論文参考訳（メタデータ） (2025-03-26T11:09:21Z)
Interactive Agents to Overcome Ambiguity in Software Engineering [61.40183840499932]
AIエージェントは、あいまいで不明確なユーザー指示に基づいて、タスクを自動化するためにますますデプロイされている。不安定な仮定をし、明確な質問をしないことは、最適以下の結果につながる可能性がある。対話型コード生成設定において,LLMエージェントが不明瞭な命令を処理する能力について,プロプライエタリモデルとオープンウェイトモデルを評価して検討する。
論文参考訳（メタデータ） (2025-02-18T17:12:26Z)
On the effectiveness of discrete representations in sparse mixture of experts [33.809432499123275]
VQMoE(Vector-Quantized Mixture of Experts)と呼ばれる新しいアーキテクチャを提案する。 VQMoEは計算コストを増大させることなく、モデルキャパシティをスケールアップするための効果的なソリューションである。 VQMoEは,他のSMoEルーティング方式と比較して,ルータの28%の改善を実現している。
論文参考訳（メタデータ） (2024-11-28T22:32:01Z)
Complexity Experts are Task-Discriminative Learners for Any Image Restoration [80.46313715427928]
複雑性の専門家" - 様々な計算複雑性と受容的なフィールドを持つフレキシブルな専門家ブロックを紹介します。この選好は、タスク固有の割り当てを効果的に推進し、適切な複雑さを持つ専門家にタスクを割り当てる。提案したMoCE-IRモデルは最先端の手法より優れており、その効率性と実用性が確認されている。
論文参考訳（メタデータ） (2024-11-27T15:58:07Z)
Designing an Interpretable Interface for Contextual Bandits [0.0]
我々は,盗賊の根底にある振る舞いを説明するために,ドメインの専門家に新しいインターフェースを設計する。技術的厳密さとアクセシブルなプレゼンテーションを慎重にバランスさせることで、非専門家に複雑な機械学習システムを管理する力を与えることが可能であることを示唆している。
論文参考訳（メタデータ） (2024-09-23T15:47:44Z)
RILe: Reinforced Imitation Learning [60.63173816209543]
RILeは、学生のパフォーマンスと専門家によるデモンストレーションとの整合性に基づいて、動的報酬関数を学習する新しいトレーナー学生システムである。 RILeは、従来のメソッドがフェールする複雑な環境でのより良いパフォーマンスを実現し、複雑なシミュレートされたロボット移動タスクにおいて、既存のメソッドを2倍の性能で上回る。
論文参考訳（メタデータ） (2024-06-12T17:56:31Z)
Model-Agnostic Interpretation Framework in Machine Learning: A Comparative Study in NBA Sports [0.2937071029942259]
本稿では,モデル性能と解釈可能性のトレードオフを整理する,革新的な枠組みを提案する。我々のアプローチは高次元データに対するモジュラー操作を中心とし、解釈可能性を維持しながらエンドツーエンドの処理を可能にする。我々は、我々のフレームワークを広範囲にテストし、計算効率と解釈可能性のバランスをとる上で、その優れた効果を検証した。
論文参考訳（メタデータ） (2024-01-05T04:25:21Z)
RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文参考訳（メタデータ） (2023-11-21T21:05:21Z)
Imitation from Observation With Bootstrapped Contrastive Learning [12.048166025000976]
IfO(IfO)は、マルコフ決定プロセスにおいて自律エージェントを訓練する学習パラダイムである。本稿では,OfOアルゴリズムであるBootIfOLについて紹介する。我々は,限られた数の実証軌道を用いて効果的な政策を訓練できることを示す,様々な制御タスクに対するアプローチを評価する。
論文参考訳（メタデータ） (2023-02-13T17:32:17Z)
Mixture of Robust Experts (MoRE): A Flexible Defense Against Multiple Perturbations [33.868833849116044]
MoRE(Mixture of Robust Experts)アプローチは、幅広い堅牢な専門家と優れたパフォーマンスの柔軟な統合を可能にする。本研究では,ゲーティング機構を用いて,特定の摂動タイプに対処するために,あるいは通常はクリーンデータの正確性を高めるために訓練された専門家ネットワークの組を組み立てる。
論文参考訳（メタデータ） (2021-04-21T15:27:07Z)
Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文参考訳（メタデータ） (2021-02-18T05:11:41Z)
An Information Bottleneck Approach for Controlling Conciseness in Rationale Extraction [84.49035467829819]
我々は,情報ボトルネック(IB)の目的を最適化することで,このトレードオフをよりよく管理できることを示す。我々の完全教師なしのアプローチは、文上のスパース二項マスクを予測する説明器と、抽出された合理性のみを考慮したエンドタスク予測器を共同で学習する。
論文参考訳（メタデータ） (2020-05-01T23:26:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。