論文の概要: Effective Reinforcement Learning Based on Structural Information Principles
- arxiv url: http://arxiv.org/abs/2404.09760v1
- Date: Mon, 15 Apr 2024 13:02:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-17 04:29:54.431750
- Title: Effective Reinforcement Learning Based on Structural Information Principles
- Title(参考訳): 構造情報原理に基づく効果的な強化学習
- Authors: Xianghua Zeng, Hao Peng, Dingli Su, Angsheng Li,
- Abstract要約: 本稿では, 効率的な意思決定・意思決定のための, 新規で汎用的な構造情報原則に基づくフレームワーク,すなわちSIDMを提案する。
SIDMは、様々な単一エージェントおよびマルチエージェントRLアルゴリズムに柔軟に組み込むことができ、その性能を向上させることができる。
- 参考スコア(独自算出の注目度): 19.82391136775341
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although Reinforcement Learning (RL) algorithms acquire sequential behavioral patterns through interactions with the environment, their effectiveness in noisy and high-dimensional scenarios typically relies on specific structural priors. In this paper, we propose a novel and general Structural Information principles-based framework for effective Decision-Making, namely SIDM, approached from an information-theoretic perspective. This paper presents a specific unsupervised partitioning method that forms vertex communities in the state and action spaces based on their feature similarities. An aggregation function, which utilizes structural entropy as the vertex weight, is devised within each community to obtain its embedding, thereby facilitating hierarchical state and action abstractions. By extracting abstract elements from historical trajectories, a directed, weighted, homogeneous transition graph is constructed. The minimization of this graph's high-dimensional entropy leads to the generation of an optimal encoding tree. An innovative two-layer skill-based learning mechanism is introduced to compute the common path entropy of each state transition as its identified probability, thereby obviating the requirement for expert knowledge. Moreover, SIDM can be flexibly incorporated into various single-agent and multi-agent RL algorithms, enhancing their performance. Finally, extensive evaluations on challenging benchmarks demonstrate that, compared with SOTA baselines, our framework significantly and consistently improves the policy's quality, stability, and efficiency up to 32.70%, 88.26%, and 64.86%, respectively.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)アルゴリズムは環境との相互作用を通じて逐次的な行動パターンを取得するが、ノイズや高次元シナリオにおけるそれらの効果は通常、特定の構造的前提に依存している。
本稿では,情報理論の観点からアプローチした,効果的な意思決定(SIDM)のための,新規で汎用的な構造情報原則に基づくフレームワークを提案する。
本稿では,その特徴的類似性に基づいて,状態と行動空間における頂点コミュニティを形成する,特定の教師なし分割手法を提案する。
構造エントロピーを頂点重みとして利用するアグリゲーション関数を各コミュニティ内に考案し,その埋め込みを図り,階層的状態や行動抽象化を容易にする。
歴史的軌跡から抽象的要素を抽出することにより、有向、重み付き、均質な遷移グラフを構築する。
このグラフの高次元エントロピーの最小化により、最適な符号化木が生成される。
各状態遷移の共通経路エントロピーをその確率として計算し、専門家の知識の要求を回避するために、革新的な2層スキルベースの学習機構を導入する。
さらに、SIDMは、様々なシングルエージェントおよびマルチエージェントRLアルゴリズムに柔軟に組み込むことができ、その性能を向上させることができる。
最後に、挑戦的なベンチマークに関する広範な評価は、SOTAベースラインと比較して、我々のフレームワークはポリシーの品質、安定性、効率をそれぞれ32.70%、88.26%、64.86%まで大幅に改善していることを示している。
関連論文リスト
- Reinforcement Learning under Latent Dynamics: Toward Statistical and Algorithmic Modularity [51.40558987254471]
強化学習の現実的な応用は、エージェントが複雑な高次元の観察を行う環境を含むことが多い。
本稿では,統計的・アルゴリズム的な観点から,textit General$ latent dynamicsの下での強化学習の課題に対処する。
論文 参考訳(メタデータ) (2024-10-23T14:22:49Z) - Effective Exploration Based on the Structural Information Principles [21.656199029188056]
本稿では,新しい構造情報原則に基づく有効探索フレームワーク,すなわちSI2Eを提案する。
SI2Eは, 最終性能と試料効率に関して, 最先端の探査基準を著しく上回ることを示す。
論文 参考訳(メタデータ) (2024-10-09T07:19:16Z) - A Clustering Method with Graph Maximum Decoding Information [6.11503045313947]
本稿では,CMDIと呼ばれるグラフベースモデルにおけるデコード情報の最大化のための新しいクラスタリング手法を提案する。
CMDIは2次元構造情報理論を、グラフ構造抽出とグラフ分割という2つのフェーズからなるクラスタリングプロセスに組み込んでいる。
3つの実世界のデータセットに対する実証的な評価は、CMDIが古典的ベースライン法より優れており、より優れた復号化情報比(DI-R)を示すことを示している。
これらの結果から,デコード情報の品質と計算効率を向上させるCMDIの有効性が示され,グラフベースのクラスタリング解析において有用なツールとして位置づけられた。
論文 参考訳(メタデータ) (2024-03-18T05:18:19Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Hierarchical Ensemble-Based Feature Selection for Time Series Forecasting [0.0]
非定常性のための階層的積み重ねに基づく特徴選択のための新しいアンサンブルアプローチを導入する。
当社のアプローチでは,階層構造を用いた機能間の共依存を利用しています。
このアプローチの有効性は、合成およびよく知られた実生活データセット上で実証される。
論文 参考訳(メタデータ) (2023-10-26T16:40:09Z) - Hierarchical State Abstraction Based on Structural Information
Principles [70.24495170921075]
本稿では、情報理論の観点から、新しい数学的構造情報原理に基づく状態抽象化フレームワーク、すなわちSISAを提案する。
SISAは、様々な表現学習目標と柔軟に統合され、パフォーマンスをさらに向上する一般的なフレームワークである。
論文 参考訳(メタデータ) (2023-04-24T11:06:52Z) - Understanding and Constructing Latent Modality Structures in Multi-modal
Representation Learning [53.68371566336254]
優れたパフォーマンスの鍵は、完全なモダリティアライメントではなく、有意義な潜在モダリティ構造にある、と我々は主張する。
具体的には,1)モダリティ内正規化のための深い特徴分離損失,2)モダリティ間正規化のためのブラウン橋損失,3)モダリティ内正規化およびモダリティ間正規化のための幾何学的整合損失を設計する。
論文 参考訳(メタデータ) (2023-03-10T14:38:49Z) - A General Framework for Sample-Efficient Function Approximation in
Reinforcement Learning [132.45959478064736]
モデルベースとモデルフリー強化学習を統合した汎用フレームワークを提案する。
最適化に基づく探索のための分解可能な構造特性を持つ新しい推定関数を提案する。
本フレームワークでは,OPERA (Optimization-based Exploration with Approximation) という新しいサンプル効率アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-30T17:59:16Z) - Weakly Supervised Semantic Segmentation via Alternative Self-Dual
Teaching [82.71578668091914]
本稿では,分類とマスク・リファインメント・コンポーネントを統合された深層モデルに組み込む,コンパクトな学習フレームワークを確立する。
本稿では,高品質な知識相互作用を促進するために,新たな自己双対学習(ASDT)機構を提案する。
論文 参考訳(メタデータ) (2021-12-17T11:56:56Z) - The Gradient Convergence Bound of Federated Multi-Agent Reinforcement
Learning with Efficient Communication [20.891460617583302]
連立学習パラダイムにおける協調的意思決定のための独立強化学習(IRL)の検討
FLはエージェントとリモート中央サーバ間の過剰な通信オーバーヘッドを生成する。
本稿では,システムの実用性向上のための2つの高度な最適化手法を提案する。
論文 参考訳(メタデータ) (2021-03-24T07:21:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。