論文の概要: Principal Prototype Analysis on Manifold for Interpretable Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2603.27971v1
- Date: Mon, 30 Mar 2026 02:48:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.201548
- Title: Principal Prototype Analysis on Manifold for Interpretable Reinforcement Learning
- Title(参考訳): 解釈可能な強化学習のためのマニフォールドの主プロトタイプ解析
- Authors: Bodla Krishna Vamshi, Haizhao Yang,
- Abstract要約: プロトタイプ・ラッパーネットワーク(PW-Nets)は近年,強化学習領域における説明可能性の向上を約束している。
利用可能なデータから最適なプロトタイプを自動的に選択することで,この依存関係を除去する手法を提案する。
標準Gym環境における予備実験により,提案手法が既存のPW-Netの性能と一致することを示した。
- 参考スコア(独自算出の注目度): 5.8296917468117835
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent years have witnessed the widespread adoption of reinforcement learning (RL), from solving real-time games to fine-tuning large language models using human preference data significantly improving alignment with user expectations. However, as model complexity grows exponentially, the interpretability of these systems becomes increasingly challenging. While numerous explainability methods have been developed for computer vision and natural language processing to elucidate both local and global reasoning patterns, their application to RL remains limited. Direct extensions of these methods often struggle to maintain the delicate balance between interpretability and performance within RL settings. Prototype-Wrapper Networks (PW-Nets) have recently shown promise in bridging this gap by enhancing explainability in RL domains without sacrificing the efficiency of the original black-box models. However, these methods typically require manually defined reference prototypes, which often necessitate expert domain knowledge. In this work, we propose a method that removes this dependency by automatically selecting optimal prototypes from the available data. Preliminary experiments on standard Gym environments demonstrate that our approach matches the performance of existing PW-Nets, while remaining competitive with the original black-box models.
- Abstract(参考訳): 近年、強化学習(RL)が広範に普及し、リアルタイムゲームから人間の嗜好データを用いた微調整された大規模言語モデルまで、ユーザの期待との整合性が著しく向上している。
しかし、モデル複雑性が指数関数的に増加するにつれて、これらのシステムの解釈可能性はますます困難になる。
コンピュータビジョンと自然言語処理のための多くの説明可能性手法が開発され、局所的およびグローバルな推論パターンの両方が解明されているが、RLへの応用は限られている。
これらの手法の直接拡張は、しばしばRL設定内での解釈可能性と性能の微妙なバランスを維持するのに苦労する。
原型Wrapper Networks (PW-Nets) は、原型ブラックボックスモデルの効率を犠牲にすることなく、RLドメインの説明可能性を高めることで、このギャップを埋める可能性を最近示した。
しかし、これらのメソッドは通常手動で定義された参照プロトタイプを必要とし、しばしば専門家のドメイン知識を必要とします。
本研究では,利用可能なデータから最適なプロトタイプを自動的に選択することで,依存関係を除去する手法を提案する。
標準Gym環境における予備実験により,提案手法は既存のPW-Netの性能に匹敵するが,元のブラックボックスモデルと競合することを示す。
関連論文リスト
- In-Context Reinforcement Learning for Tool Use in Large Language Models [68.66653829365187]
大規模言語モデル(LLM)は強力な推論能力を示すが、複雑なタスクにおける性能は内部知識によって制約されることが多い。
In-Context Reinforcement Learning (ICRL) を提案する。
ICRLは最先端のパフォーマンスを実現し、従来のSFTベースのパイプラインに代わるスケーラブルでデータ効率の高い代替手段としての有効性を示す。
論文 参考訳(メタデータ) (2026-03-09T08:06:18Z) - Nemotron-Cascade: Scaling Cascaded Reinforcement Learning for General-Purpose Reasoning Models [71.9060068259379]
汎用推論モデルを構築するために,ケースド・ドメインワイド強化学習を提案する。
私たちの14Bモデルは、RLの後、LiveCodeBench v5/v6 ProでSFTの教師であるDeepSeek-R1-0528を上回り、インフォマティクスにおける2025 International Olympiad in Informatics (IOI)における銀の医療性能を上回りました。
論文 参考訳(メタデータ) (2025-12-15T18:02:35Z) - Tool Zero: Training Tool-Augmented LLMs via Pure RL from Scratch [63.40752011615843]
ツール強化言語モデルのトレーニングは、複雑なタスクの能力を高めるための有望なアプローチとして登場した。
規則に基づく強化学習のための動的一般化誘導型報酬設計を提案する。
本研究では,SFTモデルとRL-with-SFTモデルと比較して7%以上の性能向上を実現していることを示す。
論文 参考訳(メタデータ) (2025-11-02T16:33:45Z) - Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining [74.83412846804977]
強化学習(RL)に基づく微調整は、訓練後の言語モデルにおいて重要なステップとなっている。
数理推論のためのRLファインタニングを、スクラッチから完全にトレーニングモデルを用いて体系的にエンドツーエンドに研究する。
論文 参考訳(メタデータ) (2025-04-10T17:15:53Z) - A Survey of Direct Preference Optimization [103.59317151002693]
LLM(Large Language Models)は、前例のない生成能力を示す。
人的価値との整合性は、有用で無害なデプロイメントを保証する上で、依然として重要です。
直接優先度最適化(DPO)は、最近、合理化された代替案として注目されている。
論文 参考訳(メタデータ) (2025-03-12T08:45:15Z) - Transfer Learning with Foundational Models for Time Series Forecasting using Low-Rank Adaptations [0.0]
本研究は,時系列予測タスクに対するFM,Large Language Modelsの直接的な適応手法であるLLIAMを提案する。
LLIAMとRecurrent Neural NetworksやTemporal Convolutional Networks、LLMベースのTimeLLMなど、さまざまな最先端DLアルゴリズムのパフォーマンスの比較を行った。
本研究の結果はLLIAMの有効性を実証し, この単純かつ汎用的なアプローチは, 複雑な修正を加える必要がなくなることなく, 有能な結果が得られることを示した。
論文 参考訳(メタデータ) (2024-10-15T12:14:01Z) - Bellman: A Toolbox for Model-Based Reinforcement Learning in TensorFlow [14.422129911404472]
Bellmanはこのギャップを埋めることを目指しており、モデルベースのRLツールボックスを初めて完全に設計し、テストした。
我々のモジュラーアプローチは、幅広い環境モデルと、最先端アルゴリズムを復元する汎用モデルベースのエージェントクラスを組み合わせることができる。
論文 参考訳(メタデータ) (2021-03-26T11:32:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。