論文の概要: Effective Exploration Based on the Structural Information Principles
- arxiv url: http://arxiv.org/abs/2410.06621v1
- Date: Wed, 9 Oct 2024 07:19:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 04:39:35.506575
- Title: Effective Exploration Based on the Structural Information Principles
- Title(参考訳): 構造情報原理に基づく効果的な探索
- Authors: Xianghua Zeng, Hao Peng, Angsheng Li,
- Abstract要約: 本稿では,新しい構造情報原則に基づく有効探索フレームワーク,すなわちSI2Eを提案する。
SI2Eは, 最終性能と試料効率に関して, 最先端の探査基準を著しく上回ることを示す。
- 参考スコア(独自算出の注目度): 21.656199029188056
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional information theory provides a valuable foundation for Reinforcement Learning, particularly through representation learning and entropy maximization for agent exploration. However, existing methods primarily concentrate on modeling the uncertainty associated with RL's random variables, neglecting the inherent structure within the state and action spaces. In this paper, we propose a novel Structural Information principles-based Effective Exploration framework, namely SI2E. Structural mutual information between two variables is defined to address the single-variable limitation in structural information, and an innovative embedding principle is presented to capture dynamics-relevant state-action representations. The SI2E analyzes value differences in the agent's policy between state-action pairs and minimizes structural entropy to derive the hierarchical state-action structure, referred to as the encoding tree. Under this tree structure, value-conditional structural entropy is defined and maximized to design an intrinsic reward mechanism that avoids redundant transitions and promotes enhanced coverage in the state-action space. Theoretical connections are established between SI2E and classical information-theoretic methodologies, highlighting our framework's rationality and advantage. Comprehensive evaluations in the MiniGrid, MetaWorld, and DeepMind Control Suite benchmarks demonstrate that SI2E significantly outperforms state-of-the-art exploration baselines regarding final performance and sample efficiency, with maximum improvements of 37.63% and 60.25%, respectively.
- Abstract(参考訳): 伝統的な情報理論は、特にエージェント探索のための表現学習とエントロピーの最大化を通じて、強化学習の貴重な基盤を提供する。
しかし、既存の手法は主にRLの確率変数に関連する不確かさをモデル化することに集中しており、状態と作用空間内の固有の構造を無視している。
本稿では,新しい構造情報原則に基づく有効探索フレームワーク,すなわちSI2Eを提案する。
2変数間の構造的相互情報は、構造情報の単一変数制限に対処するために定義され、動的関連状態-動作表現をキャプチャするための革新的な埋め込み原理が提示される。
SI2Eは、状態-作用対間のエージェントのポリシーの値差を分析し、構造的エントロピーを最小化し、エンコーディングツリーと呼ばれる階層的状態-作用構造を導出する。
この木構造の下では、値条件構造エントロピーが定義され、冗長な遷移を回避し、状態-作用空間のカバレッジを向上する本質的な報酬機構を設計するために最大化される。
SI2Eと古典情報理論の方法論の間には理論的な関係が確立されており、フレームワークの合理性と優位性を強調している。
MiniGrid、MetaWorld、DeepMind Control Suiteのベンチマークの総合的な評価では、SI2Eは最終性能とサンプル効率に関して、それぞれ37.63%と60.25%の最大改善で最先端の探査ベースラインを大幅に上回っている。
関連論文リスト
- Structural Entropy Guided Probabilistic Coding [52.01765333755793]
構造エントロピー誘導型確率的符号化モデルSEPCを提案する。
我々は、構造エントロピー正規化損失を提案することにより、潜在変数間の関係を最適化に組み込む。
分類タスクと回帰タスクの両方を含む12の自然言語理解タスクに対する実験結果は、SEPCの優れた性能を示す。
論文 参考訳(メタデータ) (2024-12-12T00:37:53Z) - Simultaneous Identification of Sparse Structures and Communities in Heterogeneous Graphical Models [8.54401530955314]
基礎となるグラフィカルな構造を疎部分と低ランクの斜めブロックに分解する。
スパース構造とコミュニティの同定のための高速かつ効率的なアルゴリズムを用いた3段階推定手法を提案する。
論文 参考訳(メタデータ) (2024-05-16T06:38:28Z) - Effective Reinforcement Learning Based on Structural Information Principles [19.82391136775341]
本稿では, 効率的な意思決定・意思決定のための, 新規で汎用的な構造情報原則に基づくフレームワーク,すなわちSIDMを提案する。
SIDMは、様々な単一エージェントおよびマルチエージェントRLアルゴリズムに柔軟に組み込むことができ、その性能を向上させることができる。
論文 参考訳(メタデータ) (2024-04-15T13:02:00Z) - Identifying Semantic Component for Robust Molecular Property Prediction [29.806394745142267]
そこで本研究では,SCIという意味成分識別能力を持つ生成モデルを提案する。
この生成モデルにおける潜伏変数は、意味関連(SR)と意味非関連(SI)に明確に識別できることを実証する。
実験により、21のデータセットを3つの主要なベンチマークで総合的に改善した。
論文 参考訳(メタデータ) (2023-11-08T17:01:35Z) - Hierarchical State Abstraction Based on Structural Information
Principles [70.24495170921075]
本稿では、情報理論の観点から、新しい数学的構造情報原理に基づく状態抽象化フレームワーク、すなわちSISAを提案する。
SISAは、様々な表現学習目標と柔軟に統合され、パフォーマンスをさらに向上する一般的なフレームワークである。
論文 参考訳(メタデータ) (2023-04-24T11:06:52Z) - ASR: Attention-alike Structural Re-parameterization [53.019657810468026]
本稿では,アテンション機構の有効性を享受しながら,与えられたネットワークに対してSRPを実現するための,シンプルなアテンション型構造的再パラメータ化(ASR)を提案する。
本稿では,統計的観点から広範囲にわたる実験を行い,Stripe Observationという興味深い現象を発見し,チャネル注意値が訓練中に一定のベクトルに素早く接近することを明らかにする。
論文 参考訳(メタデータ) (2023-04-13T08:52:34Z) - Understanding and Constructing Latent Modality Structures in Multi-modal
Representation Learning [53.68371566336254]
優れたパフォーマンスの鍵は、完全なモダリティアライメントではなく、有意義な潜在モダリティ構造にある、と我々は主張する。
具体的には,1)モダリティ内正規化のための深い特徴分離損失,2)モダリティ間正規化のためのブラウン橋損失,3)モダリティ内正規化およびモダリティ間正規化のための幾何学的整合損失を設計する。
論文 参考訳(メタデータ) (2023-03-10T14:38:49Z) - DR-Label: Improving GNN Models for Catalysis Systems by Label
Deconstruction and Reconstruction [72.20024514713633]
本稿では,新しいグラフニューラルネットワーク(GNN)と予測戦略DR-Labelを提案する。
この戦略は、監視信号を強化し、エッジ表現における解の多重度を低減し、ノード予測を堅牢にすることを促す。
DR-Labelは3つの根本的に異なるモデルに適用され、それぞれが一貫した性能向上を示した。
論文 参考訳(メタデータ) (2023-03-06T04:01:28Z) - Unveiling the Potential of Structure-Preserving for Weakly Supervised
Object Localization [71.79436685992128]
本稿では,WSOLの畳み込み機能に組み込まれた構造情報を完全に活用するための2段階構造保存アクティベーション(SPA)を提案する。
第1段階では、分類ネットワークによって引き起こされる構造ミス問題を軽減するために制限アクティベーションモジュール(ram)が設計されている。
第2段階では, 自己相関マップ生成(SCG)モジュールと呼ばれるプロセス後アプローチを提案し, 構造保存ローカライゼーションマップを得る。
論文 参考訳(メタデータ) (2021-03-08T03:04:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。