論文の概要: Surrogate Fitness Metrics for Interpretable Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2504.14645v1
- Date: Sun, 20 Apr 2025 15:01:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-29 21:06:47.107867
- Title: Surrogate Fitness Metrics for Interpretable Reinforcement Learning
- Title(参考訳): 解釈型強化学習のためのサロゲート適合度測定
- Authors: Philipp Altmann, Céline Davignon, Maximilian Zorn, Fabian Ritz, Claudia Linnhoff-Popien, Thomas Gabor,
- Abstract要約: 我々は、情報的かつ多様な政策実証を生成するために、初期状態を摂動させる進化的最適化フレームワークを採用している。
共同サロゲート適合度関数は、局所的な多様性、行動的確実性、グローバルな人口多様性を組み合わせることで最適化を導く。
本研究は、サロゲート適合関数の精製と系統解析により、RLモデルの解釈可能性を向上させる。
- 参考スコア(独自算出の注目度): 7.889696505137217
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We employ an evolutionary optimization framework that perturbs initial states to generate informative and diverse policy demonstrations. A joint surrogate fitness function guides the optimization by combining local diversity, behavioral certainty, and global population diversity. To assess demonstration quality, we apply a set of evaluation metrics, including the reward-based optimality gap, fidelity interquartile means (IQMs), fitness composition analysis, and trajectory visualizations. Hyperparameter sensitivity is also examined to better understand the dynamics of trajectory optimization. Our findings demonstrate that optimizing trajectory selection via surrogate fitness metrics significantly improves interpretability of RL policies in both discrete and continuous environments. In gridworld domains, evaluations reveal significantly enhanced demonstration fidelities compared to random and ablated baselines. In continuous control, the proposed framework offers valuable insights, particularly for early-stage policies, while fidelity-based optimization proves more effective for mature policies. By refining and systematically analyzing surrogate fitness functions, this study advances the interpretability of RL models. The proposed improvements provide deeper insights into RL decision-making, benefiting applications in safety-critical and explainability-focused domains.
- Abstract(参考訳): 我々は、情報的かつ多様な政策実証を生成するために、初期状態を摂動させる進化的最適化フレームワークを採用している。
共同サロゲート適合度関数は、局所的な多様性、行動的確実性、グローバルな人口多様性を組み合わせることで最適化を導く。
実演の質を評価するために,報酬に基づく最適性ギャップ,フィデリティ・インタークアタイル手段(IQM),フィットネス組成分析,軌跡可視化など,一連の評価指標を適用した。
また、軌道最適化の力学をより深く理解するために、ハイパーパラメータ感度についても検討した。
以上の結果から,サロゲート適合度測定による軌道選択の最適化は,離散環境と連続環境の両方におけるRLポリシーの解釈可能性を大幅に向上させることが示された。
グリッドワールドドメインでは、ランダムなベースラインやアブレーションされたベースラインと比較して、デモの忠実度が大幅に向上した。
継続的制御では、提案されたフレームワークは、特にアーリーステージのポリシーに対して貴重な洞察を提供するが、フィデリティベースの最適化は成熟したポリシーに対してより効果的である。
本研究は、サロゲート適合関数の精製と系統解析により、RLモデルの解釈可能性を向上させる。
提案された改善は、RL意思決定に関するより深い洞察を与え、安全クリティカルで説明可能性を重視したドメインにおけるアプリケーションに利益をもたらす。
関連論文リスト
- Review, Refine, Repeat: Understanding Iterative Decoding of AI Agents with Dynamic Evaluation and Selection [71.92083784393418]
Best-of-N (BON) サンプリングのような推論時間法は、パフォーマンスを改善するための単純で効果的な代替手段を提供する。
本稿では,反復的改良と動的候補評価,検証器による選択を併用した反復的エージェント復号(IAD)を提案する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - Preference-Guided Diffusion for Multi-Objective Offline Optimization [64.08326521234228]
オフライン多目的最適化のための優先誘導拡散モデルを提案する。
我々の指導は、ある設計が他の設計を支配する確率を予測するために訓練された選好モデルである。
本結果は,多種多様な高品質な解を生成する上での分類器誘導拡散モデルの有効性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-03-21T16:49:38Z) - A Survey of Direct Preference Optimization [103.59317151002693]
LLM(Large Language Models)は、前例のない生成能力を示す。
人的価値との整合性は、有用で無害なデプロイメントを保証する上で、依然として重要です。
直接優先度最適化(DPO)は、最近、合理化された代替案として注目されている。
論文 参考訳(メタデータ) (2025-03-12T08:45:15Z) - Self-Consistent Model-based Adaptation for Visual Reinforcement Learning [27.701421196547674]
視覚強化学習エージェントは、視覚障害による実世界のアプリケーションの性能低下に直面している。
既存の方法は、手作りの拡張でポリシーの表現を微調整することに依存している。
本稿では、ポリシーを変更することなくロバスト適応を促進する新しい手法である自己一貫性モデルベース適応(SCMA)を提案する。
論文 参考訳(メタデータ) (2025-02-14T05:23:56Z) - Learning Dynamic Representations via An Optimally-Weighted Maximum Mean Discrepancy Optimization Framework for Continual Learning [16.10753846850319]
継続的な学習は、モデルを永続的に取得し、保持することを可能にする。
悲惨な忘れ物は モデルパフォーマンスを著しく損なう
本稿では,表現変更に対する罰則を課す,OPMMD(Optimally-Weighted Mean Discrepancy)と呼ばれる新しいフレームワークを紹介する。
論文 参考訳(メタデータ) (2025-01-21T13:33:45Z) - REACT: Revealing Evolutionary Action Consequence Trajectories for Interpretable Reinforcement Learning [7.889696505137217]
強化学習の解釈可能性を高めるために,Revealing Evolutionary Action Consequence Trajectories (REACT)を提案する。
トレーニング中に学習した最適な振る舞いに基づくRLモデルの一般的な実践とは対照的に、エッジケースの軌跡の範囲を考慮すると、それらの固有の振る舞いをより包括的に理解することができると仮定する。
本研究は,RLモデルの動作の微妙な側面を最適性能を超えて明らかにし,解釈可能性の向上に寄与することを示す。
論文 参考訳(メタデータ) (2024-04-04T10:56:30Z) - Optimal Goal-Reaching Reinforcement Learning via Quasimetric Learning [73.80728148866906]
準メトリック強化学習(QRL)は、準メトリックモデルを用いて最適な値関数を学習する新しいRL法である。
オフラインおよびオンラインの目標達成ベンチマークでは、QRLはサンプル効率とパフォーマンスが改善されている。
論文 参考訳(メタデータ) (2023-04-03T17:59:58Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Lessons from AlphaZero for Optimal, Model Predictive, and Adaptive
Control [0.0]
値空間とロールアウトの近似に関するAlphaZero/TDGammonの原理が決定論的かつ最適制御問題に広く適用されていることを示す。
これらの考え方は、モデル制御、適応制御、分散制御、ニューラルネットワークに基づく値とポリシー近似など、他の重要な方法論と効果的に統合することができる。
論文 参考訳(メタデータ) (2021-08-20T19:17:35Z) - Efficient Empowerment Estimation for Unsupervised Stabilization [75.32013242448151]
エンパワーメント原理は 直立位置での 力学系の教師なし安定化を可能にする
本稿では,ガウスチャネルとして動的システムのトレーニング可能な表現に基づく代替解を提案する。
提案手法は, サンプルの複雑さが低く, 訓練時より安定であり, エンパワーメント機能の本質的特性を有し, 画像からエンパワーメントを推定できることを示す。
論文 参考訳(メタデータ) (2020-07-14T21:10:16Z) - Value Driven Representation for Human-in-the-Loop Reinforcement Learning [33.79501890330252]
我々は,システム設計者が,強化学習エージェントが使用する観測空間を定義するために,センサセットや特徴セットを選択する方法のアルゴリズム的基礎に焦点をあてる。
本稿では、強化学習エージェントの観測空間を反復的かつ適応的に拡張するアルゴリズム、値駆動表現(VDR)を提案する。
シミュレーションされた人間を用いた標準RLベンチマークによる手法の性能評価を行い、従来のベースラインよりも大幅に改善したことを示す。
論文 参考訳(メタデータ) (2020-04-02T18:45:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。