Fugu-MT 論文翻訳(概要): Effective Reinforcement Learning Based on Structural Information Principles

論文の概要: Effective Reinforcement Learning Based on Structural Information Principles

arxiv url: http://arxiv.org/abs/2404.09760v1
Date: Mon, 15 Apr 2024 13:02:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-17 04:29:54.431750
Title: Effective Reinforcement Learning Based on Structural Information Principles
Title（参考訳）: 構造情報原理に基づく効果的な強化学習
Authors: Xianghua Zeng, Hao Peng, Dingli Su, Angsheng Li,
Abstract要約: 本稿では, 効率的な意思決定・意思決定のための, 新規で汎用的な構造情報原則に基づくフレームワーク,すなわちSIDMを提案する。 SIDMは、様々な単一エージェントおよびマルチエージェントRLアルゴリズムに柔軟に組み込むことができ、その性能を向上させることができる。
参考スコア（独自算出の注目度）: 19.82391136775341
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Although Reinforcement Learning (RL) algorithms acquire sequential behavioral patterns through interactions with the environment, their effectiveness in noisy and high-dimensional scenarios typically relies on specific structural priors. In this paper, we propose a novel and general Structural Information principles-based framework for effective Decision-Making, namely SIDM, approached from an information-theoretic perspective. This paper presents a specific unsupervised partitioning method that forms vertex communities in the state and action spaces based on their feature similarities. An aggregation function, which utilizes structural entropy as the vertex weight, is devised within each community to obtain its embedding, thereby facilitating hierarchical state and action abstractions. By extracting abstract elements from historical trajectories, a directed, weighted, homogeneous transition graph is constructed. The minimization of this graph's high-dimensional entropy leads to the generation of an optimal encoding tree. An innovative two-layer skill-based learning mechanism is introduced to compute the common path entropy of each state transition as its identified probability, thereby obviating the requirement for expert knowledge. Moreover, SIDM can be flexibly incorporated into various single-agent and multi-agent RL algorithms, enhancing their performance. Finally, extensive evaluations on challenging benchmarks demonstrate that, compared with SOTA baselines, our framework significantly and consistently improves the policy's quality, stability, and efficiency up to 32.70%, 88.26%, and 64.86%, respectively.
Abstract（参考訳）: 強化学習(Reinforcement Learning, RL)アルゴリズムは環境との相互作用を通じて逐次的な行動パターンを取得するが、ノイズや高次元シナリオにおけるそれらの効果は通常、特定の構造的前提に依存している。本稿では,情報理論の観点からアプローチした,効果的な意思決定(SIDM)のための,新規で汎用的な構造情報原則に基づくフレームワークを提案する。本稿では,その特徴的類似性に基づいて,状態と行動空間における頂点コミュニティを形成する,特定の教師なし分割手法を提案する。構造エントロピーを頂点重みとして利用するアグリゲーション関数を各コミュニティ内に考案し,その埋め込みを図り,階層的状態や行動抽象化を容易にする。歴史的軌跡から抽象的要素を抽出することにより、有向、重み付き、均質な遷移グラフを構築する。このグラフの高次元エントロピーの最小化により、最適な符号化木が生成される。各状態遷移の共通経路エントロピーをその確率として計算し、専門家の知識の要求を回避するために、革新的な2層スキルベースの学習機構を導入する。さらに、SIDMは、様々なシングルエージェントおよびマルチエージェントRLアルゴリズムに柔軟に組み込むことができ、その性能を向上させることができる。最後に、挑戦的なベンチマークに関する広範な評価は、SOTAベースラインと比較して、我々のフレームワークはポリシーの品質、安定性、効率をそれぞれ32.70%、88.26%、64.86%まで大幅に改善していることを示している。

関連論文リスト

Hierarchical Reinforcement Learning with Low-Level MPC for Multi-Agent Control [1.5856188608650232]
強化学習(RL)による戦術的意思決定とモデル予測制御(MPC)による低レベル実行を組み合わせた階層的枠組みを提案する。プレデター・プリーベンチマークでテストしたところ、我々のアプローチは報酬、安全性、一貫性の点でエンドツーエンドとシールドベースのRLベースラインよりも優れています。
論文参考訳（メタデータ） (2025-09-19T09:27:15Z)
The Landscape of Agentic Reinforcement Learning for LLMs: A Survey [103.32591749156416]
エージェント強化学習(Agentic RL)の出現は、大規模言語モデル(LLM RL)に適用された従来の強化学習からパラダイムシフトを示している。本研究では, LLM-RLの縮退した単段階マルコフ決定過程(MDPs)と, エージェントRLを定義する部分可観測マルコフ決定過程(POMDPs)とを対比することにより, この概念シフトを定式化する。
論文参考訳（メタデータ） (2025-09-02T17:46:26Z)
Feature-Based vs. GAN-Based Learning from Demonstrations: When and Why [50.191655141020505]
この調査は、デモから学ぶ機能ベースのアプローチとGANベースのアプローチの比較分析を提供する。特徴に基づく手法とGANに基づく手法の2分法はますます曖昧になっていると我々は主張する。
論文参考訳（メタデータ） (2025-07-08T11:45:51Z)
Beyond Frameworks: Unpacking Collaboration Strategies in Multi-Agent Systems [29.924868489451327]
本研究では,協力戦略の4つの側面を体系的に検討する。我々はこれらの戦略がタスク精度と計算効率の両方に与える影響を定量化する。この研究は適応的でスケーラブルなマルチエージェントシステムを設計するための基盤を確立する。
論文参考訳（メタデータ） (2025-05-18T15:46:14Z)
A Survey of Frontiers in LLM Reasoning: Inference Scaling, Learning to Reason, and Agentic Systems [93.8285345915925]
推論(Reasoning)は、論理的推論、問題解決、意思決定を可能にする基本的な認知プロセスである。大規模言語モデル(LLM)の急速な進歩により、推論は高度なAIシステムを区別する重要な能力として浮上した。我々は,(1)推論が達成される段階を定義するレジーム,(2)推論プロセスに関与するコンポーネントを決定するアーキテクチャの2つの側面に沿って既存の手法を分類する。
論文参考訳（メタデータ） (2025-04-12T01:27:49Z)
FORCE: Feature-Oriented Representation with Clustering and Explanation [0.0]
SHAPに基づく教師付きディープラーニングフレームワークForceを提案する。ニューラルネットワークアーキテクチャにおけるSHAP値の2段階の使用に依存している。我々はForceが潜在機能とアテンションフレームワークを組み込まないネットワークと比較して、全体的なパフォーマンスを劇的に改善したことを示す。
論文参考訳（メタデータ） (2025-04-07T22:05:50Z)
Structural Entropy Guided Probabilistic Coding [52.01765333755793]
構造エントロピー誘導型確率的符号化モデルSEPCを提案する。我々は、構造エントロピー正規化損失を提案することにより、潜在変数間の関係を最適化に組み込む。分類タスクと回帰タスクの両方を含む12の自然言語理解タスクに対する実験結果は、SEPCの優れた性能を示す。
論文参考訳（メタデータ） (2024-12-12T00:37:53Z)
From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文参考訳（メタデータ） (2024-11-06T10:35:11Z)
Reinforcement Learning under Latent Dynamics: Toward Statistical and Algorithmic Modularity [51.40558987254471]
強化学習の現実的な応用は、エージェントが複雑な高次元の観察を行う環境を含むことが多い。本稿では,統計的・アルゴリズム的な観点から,textit General$ latent dynamicsの下での強化学習の課題に対処する。
論文参考訳（メタデータ） (2024-10-23T14:22:49Z)
Effective Exploration Based on the Structural Information Principles [21.656199029188056]
本稿では,新しい構造情報原則に基づく有効探索フレームワーク,すなわちSI2Eを提案する。 SI2Eは, 最終性能と試料効率に関して, 最先端の探査基準を著しく上回ることを示す。
論文参考訳（メタデータ） (2024-10-09T07:19:16Z)
ROMA-iQSS: An Objective Alignment Approach via State-Based Value Learning and ROund-Robin Multi-Agent Scheduling [44.276285521929424]
本稿では,エージェントが独立して最適な状態を発見できる分散状態ベース価値学習アルゴリズムを提案する。我々の理論分析は、我々のアプローチが分散化されたエージェントを最適な集団政策へと導くことを示している。さらに実験により,本手法が既存の分散状態ベースおよび行動ベース価値学習戦略より優れていることを示す。
論文参考訳（メタデータ） (2024-04-05T09:39:47Z)
A Clustering Method with Graph Maximum Decoding Information [6.11503045313947]
本稿では,CMDIと呼ばれるグラフベースモデルにおけるデコード情報の最大化のための新しいクラスタリング手法を提案する。 CMDIは2次元構造情報理論を、グラフ構造抽出とグラフ分割という2つのフェーズからなるクラスタリングプロセスに組み込んでいる。 3つの実世界のデータセットに対する実証的な評価は、CMDIが古典的ベースライン法より優れており、より優れた復号化情報比(DI-R)を示すことを示している。これらの結果から,デコード情報の品質と計算効率を向上させるCMDIの有効性が示され,グラフベースのクラスタリング解析において有用なツールとして位置づけられた。
論文参考訳（メタデータ） (2024-03-18T05:18:19Z)
Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文参考訳（メタデータ） (2024-02-09T07:45:26Z)
Building Minimal and Reusable Causal State Abstractions for Reinforcement Learning [63.58935783293342]
Causal Bisimulation Modeling (CBM) は、各タスクのダイナミクスと報酬関数の因果関係を学習し、最小限のタスク固有の抽象化を導出する手法である。 CBMの学習された暗黙的ダイナミクスモデルは、明確なものよりも根底にある因果関係と状態抽象化を正確に識別する。
論文参考訳（メタデータ） (2024-01-23T05:43:15Z)
Hierarchical Ensemble-Based Feature Selection for Time Series Forecasting [0.0]
非定常性のための階層的積み重ねに基づく特徴選択のための新しいアンサンブルアプローチを導入する。当社のアプローチでは,階層構造を用いた機能間の共依存を利用しています。このアプローチの有効性は、合成およびよく知られた実生活データセット上で実証される。
論文参考訳（メタデータ） (2023-10-26T16:40:09Z)
Hierarchical State Abstraction Based on Structural Information Principles [70.24495170921075]
本稿では、情報理論の観点から、新しい数学的構造情報原理に基づく状態抽象化フレームワーク、すなわちSISAを提案する。 SISAは、様々な表現学習目標と柔軟に統合され、パフォーマンスをさらに向上する一般的なフレームワークである。
論文参考訳（メタデータ） (2023-04-24T11:06:52Z)
Understanding and Constructing Latent Modality Structures in Multi-modal Representation Learning [53.68371566336254]
優れたパフォーマンスの鍵は、完全なモダリティアライメントではなく、有意義な潜在モダリティ構造にある、と我々は主張する。具体的には,1)モダリティ内正規化のための深い特徴分離損失,2)モダリティ間正規化のためのブラウン橋損失,3)モダリティ内正規化およびモダリティ間正規化のための幾何学的整合損失を設計する。
論文参考訳（メタデータ） (2023-03-10T14:38:49Z)
A General Framework for Sample-Efficient Function Approximation in Reinforcement Learning [132.45959478064736]
モデルベースとモデルフリー強化学習を統合した汎用フレームワークを提案する。最適化に基づく探索のための分解可能な構造特性を持つ新しい推定関数を提案する。本フレームワークでは,OPERA (Optimization-based Exploration with Approximation) という新しいサンプル効率アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-09-30T17:59:16Z)
Macro-Action-Based Multi-Agent/Robot Deep Reinforcement Learning under Partial Observability [4.111899441919164]
最先端のマルチエージェント強化学習(MARL)手法は、様々な複雑な問題に対して有望な解決策を提供してきた。まず,MacDec-POMDPに対する値に基づくRL手法を提案する。 3つの訓練パラダイムの下でマクロアクションに基づくポリシー勾配アルゴリズムを定式化する。
論文参考訳（メタデータ） (2022-09-20T21:13:51Z)
Inference and dynamic decision-making for deteriorating systems with probabilistic dependencies through Bayesian networks and deep reinforcement learning [0.0]
劣化する環境に露呈するエンジニアリングシステムに対して,不確実性を考慮した推論と意思決定のための効率的なアルゴリズムフレームワークを提案する。政策最適化の観点では、深層分散型マルチエージェントアクター・クリティカル(DDMAC)強化学習アプローチを採用する。その結果、DDMACポリシーは最先端のアプローチと比較して大きな利点をもたらすことが示された。
論文参考訳（メタデータ） (2022-09-02T14:45:40Z)
Weakly Supervised Semantic Segmentation via Alternative Self-Dual Teaching [82.71578668091914]
本稿では,分類とマスク・リファインメント・コンポーネントを統合された深層モデルに組み込む,コンパクトな学習フレームワークを確立する。本稿では,高品質な知識相互作用を促進するために,新たな自己双対学習(ASDT)機構を提案する。
論文参考訳（メタデータ） (2021-12-17T11:56:56Z)
The Gradient Convergence Bound of Federated Multi-Agent Reinforcement Learning with Efficient Communication [20.891460617583302]
連立学習パラダイムにおける協調的意思決定のための独立強化学習(IRL)の検討 FLはエージェントとリモート中央サーバ間の過剰な通信オーバーヘッドを生成する。本稿では,システムの実用性向上のための2つの高度な最適化手法を提案する。
論文参考訳（メタデータ） (2021-03-24T07:21:43Z)
Learning Robust State Abstractions for Hidden-Parameter Block MDPs [55.31018404591743]
我々は、ブロックMDPにインスパイアされた堅牢な状態抽象化を実現するために、HiP-MDP設定からの共通構造の概念を活用する。マルチタスク強化学習 (MTRL) とメタ強化学習 (Meta-RL) の両方のための新しいフレームワークのインスタンス化を導出する。
論文参考訳（メタデータ） (2020-07-14T17:25:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。