論文の概要: Re-understanding Finite-State Representations of Recurrent Policy
Networks
- arxiv url: http://arxiv.org/abs/2006.03745v3
- Date: Sun, 11 Jul 2021 07:03:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 20:56:47.162093
- Title: Re-understanding Finite-State Representations of Recurrent Policy
Networks
- Title(参考訳): 再帰的政策ネットワークの有限状態表現の再理解
- Authors: Mohamad H. Danesh, Anurag Koul, Alan Fern, Saeed Khorram
- Abstract要約: 本稿では、リカレントニューラルネットワークとして表現される制御ポリシーを理解するためのアプローチを提案する。
7つのAtariゲームと3つの制御ベンチマークのケーススタディは、これまで気付かれていなかった洞察を明らかにすることができることを示している。
- 参考スコア(独自算出の注目度): 33.55863354248047
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce an approach for understanding control policies represented as
recurrent neural networks. Recent work has approached this problem by
transforming such recurrent policy networks into finite-state machines (FSM)
and then analyzing the equivalent minimized FSM. While this led to interesting
insights, the minimization process can obscure a deeper understanding of a
machine's operation by merging states that are semantically distinct. To
address this issue, we introduce an analysis approach that starts with an
unminimized FSM and applies more-interpretable reductions that preserve the key
decision points of the policy. We also contribute an attention tool to attain a
deeper understanding of the role of observations in the decisions. Our case
studies on 7 Atari games and 3 control benchmarks demonstrate that the approach
can reveal insights that have not been previously noticed.
- Abstract(参考訳): 本稿では、リカレントニューラルネットワークとして表現される制御ポリシーを理解するためのアプローチを提案する。
最近の研究は、このようなリカレントポリシーネットワークを有限状態マシン(FSM)に変換し、等価最小化FSMを分析することでこの問題にアプローチしている。
これは興味深い洞察につながったが、最小化プロセスは、意味的に異なる状態をマージすることで、マシンの動作をより深く理解することができない。
この問題に対処するため,我々は,fsmの最小化から始まって,政策の重要な決定点を保存するより解釈可能な削減を適用する分析手法を提案する。
また、意思決定における観察の役割をより深く理解するための注意ツールも提供します。
7つのAtariゲームと3つの制御ベンチマークのケーススタディは、これまで気付かれていなかった洞察を明らかにすることができることを示した。
関連論文リスト
- Rethinking State Disentanglement in Causal Reinforcement Learning [78.12976579620165]
因果性は、根底にある状態が識別可能性によって一意に回復できることを保証するための厳密な理論的支援を提供する。
我々はこの研究ラインを再考し、RL固有のコンテキストを取り入れることで、潜在状態に対する以前の識別可能性分析における不要な仮定を低減できることを示した。
本稿では, 従来手法の複雑な構造制約を, 遷移と報酬保存の2つの簡単な制約に置き換えることにより, 一般に部分的に観測可能なマルコフ決定過程(POMDP)を提案する。
論文 参考訳(メタデータ) (2024-08-24T06:49:13Z) - Decentralized Learning Strategies for Estimation Error Minimization with Graph Neural Networks [94.2860766709971]
統計的に同一性を持つ無線ネットワークにおける自己回帰的マルコフ過程のサンプリングとリモート推定の課題に対処する。
我々のゴールは、分散化されたスケーラブルサンプリングおよび送信ポリシーを用いて、時間平均推定誤差と/または情報の年齢を最小化することである。
論文 参考訳(メタデータ) (2024-04-04T06:24:11Z) - Sparsity-Guided Holistic Explanation for LLMs with Interpretable
Inference-Time Intervention [53.896974148579346]
大規模言語モデル(LLM)は、様々な自然言語処理領域において前例のないブレークスルーを達成した。
LLMの謎的なブラックボックスの性質は、透過的で説明可能なアプリケーションを妨げる、解釈可能性にとって重要な課題である。
本稿では,LLMの全体的解釈を提供することを目的として,スポーシティ誘導技術に係わる新しい方法論を提案する。
論文 参考訳(メタデータ) (2023-12-22T19:55:58Z) - Context Shift Reduction for Offline Meta-Reinforcement Learning [28.616141112916374]
コンテキストシフト問題は、トレーニングとテストに使用されるコンテキスト間の分散の相違によって生じる。
既存のOMRLメソッドはこの問題を無視するか、追加情報で軽減しようとする。
OMRL (Context Shift Reduction for OMRL) と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-07T03:50:01Z) - Unified Risk Analysis for Weakly Supervised Learning [65.75775694815172]
弱教師付き学習のための包括的理解と統一的方法論を提供する枠組みを導入する。
フレームワークの定式化コンポーネントは、汚染の観点から、どのように弱い監督が形成されるかの統一的な解釈を提供する。
フレームワークの分析コンポーネントは、汚染除去プロセスと見なされ、リスクの書き直しを行う体系的な方法を提供する。
論文 参考訳(メタデータ) (2023-09-15T07:30:15Z) - Dynamic deep-reinforcement-learning algorithm in Partially Observed
Markov Decision Processes [6.729108277517129]
本研究は、部分的に観測可能なマルコフ決定過程を解くために、アクションシーケンス包含の利点を示す。
開発したアルゴリズムは、異なる種類の外部乱れに対して、コントローラ性能の強化されたロバスト性を示した。
論文 参考訳(メタデータ) (2023-07-29T08:52:35Z) - On Finite-Sample Analysis of Offline Reinforcement Learning with Deep
ReLU Networks [46.067702683141356]
深層RELUネットワークを用いたオフライン強化学習の統計理論について検討する。
我々は,オフラインデータの分布変化,入力空間の次元,システムの正則性がOPE推定誤差を制御する方法の定量化を行う。
論文 参考訳(メタデータ) (2021-03-11T14:01:14Z) - Developing Constrained Neural Units Over Time [81.19349325749037]
本稿では,既存のアプローチと異なるニューラルネットワークの定義方法に焦点をあてる。
ニューラルネットワークの構造は、データとの相互作用にも拡張される制約の特別なクラスによって定義される。
提案した理論は時間領域にキャストされ, データを順序づけられた方法でネットワークに提示する。
論文 参考訳(メタデータ) (2020-09-01T09:07:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。