論文の概要: LacaDM: A Latent Causal Diffusion Model for Multiobjective Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2512.19516v1
- Date: Mon, 22 Dec 2025 16:08:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.823104
- Title: LacaDM: A Latent Causal Diffusion Model for Multiobjective Reinforcement Learning
- Title(参考訳): LacaDM:多目的強化学習のための潜在因果拡散モデル
- Authors: Xueming Yan, Bo Yin, Yaochu Jin,
- Abstract要約: 多目的強化学習(MORL)は、目的と動的環境への適応の難しさの相違により、大きな課題を生んでいる。
伝統的な手法は、特に大規模で複雑な状態作用空間において、効果的に一般化するのに苦労することが多い。
離散的かつ連続的な環境におけるMORLの適応性を高めるために設計された新しいアプローチであるLacaDM(Latent Causal Diffusion Model)を導入する。
- 参考スコア(独自算出の注目度): 26.68981028489201
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multiobjective reinforcement learning (MORL) poses significant challenges due to the inherent conflicts between objectives and the difficulty of adapting to dynamic environments. Traditional methods often struggle to generalize effectively, particularly in large and complex state-action spaces. To address these limitations, we introduce the Latent Causal Diffusion Model (LacaDM), a novel approach designed to enhance the adaptability of MORL in discrete and continuous environments. Unlike existing methods that primarily address conflicts between objectives, LacaDM learns latent temporal causal relationships between environmental states and policies, enabling efficient knowledge transfer across diverse MORL scenarios. By embedding these causal structures within a diffusion model-based framework, LacaDM achieves a balance between conflicting objectives while maintaining strong generalization capabilities in previously unseen environments. Empirical evaluations on various tasks from the MOGymnasium framework demonstrate that LacaDM consistently outperforms the state-of-art baselines in terms of hypervolume, sparsity, and expected utility maximization, showcasing its effectiveness in complex multiobjective tasks.
- Abstract(参考訳): 多目的強化学習(MORL)は、目的と動的環境への適応の難しさの相違により、大きな課題を生んでいる。
伝統的な手法は、特に大規模で複雑な状態作用空間において、効果的に一般化するのに苦労することが多い。
これらの制約に対処するために、離散的かつ連続的な環境におけるMORLの適応性を高めるために設計された新しいアプローチであるLacaDM(Latent Causal Diffusion Model)を導入する。
目的間の対立に主に対処する既存の方法とは異なり、LacaDMは環境状態と政策の間の時間的因果関係を学習し、多様なMORLシナリオ間で効率的な知識伝達を可能にする。
拡散モデルに基づくフレームワークにこれらの因果構造を埋め込むことで、LacaDMは相反する目的間のバランスを達成し、以前は目に見えない環境において強力な一般化能力を維持する。
MOGymnasiumフレームワークの様々なタスクに関する実証的な評価は、LacaDMが高体積、スパーシティ、期待されるユーティリティ最大化の点において、最先端のベースラインを一貫して上回り、複雑な多目的タスクにおいてその効果を示すことを示している。
関連論文リスト
- Thinking by Doing: Building Efficient World Model Reasoning in LLMs via Multi-turn Interaction [53.745458605360675]
効率的な相互作用とアクティブ推論(WMAct)による世界モデル内在化を探求する。
WMActは、モデルを構造化推論から解放し、モデルがその実行を通じて思考を直接形作ることを可能にする。
ソコバン, 迷路, タクシーの実験から, WMActは一つのターンでタスクを解決できる効果的な世界モデル推論を導出することを示した。
論文 参考訳(メタデータ) (2025-11-28T18:59:47Z) - VL-Cogito: Progressive Curriculum Reinforcement Learning for Advanced Multimodal Reasoning [69.44871115752055]
本稿では,PCuRL(Progressive Curriculum Reinforcement Learning)フレームワークを用いて学習した高度なマルチモーダル推論モデルを提案する。
PCuRLは、難易度が徐々に増大するタスクを通じてモデルを体系的にガイドし、多様なマルチモーダルコンテキストにおける推論能力を大幅に向上させる。
本フレームワークは,(1)連続するRLトレーニング段階におけるトレーニング難度を動的に調整するオンライン難易度重み付け機構,(2)タスク複雑度に応じて推論経路長を適応的に調整する動的長報奨機構,の2つの重要なイノベーションを紹介する。
論文 参考訳(メタデータ) (2025-07-30T12:23:21Z) - Learning Time-Aware Causal Representation for Model Generalization in Evolving Domains [50.66049136093248]
動的因果要因と因果機構のドリフトを組み込んだ時間認識型構造因果モデル(SCM)を開発した。
本研究では,時間領域毎に最適な因果予測値が得られることを示す。
合成と実世界の両方のデータセットの結果から,SynCは時間的一般化性能に優れることが示された。
論文 参考訳(メタデータ) (2025-06-21T14:05:37Z) - On Generalization Across Environments In Multi-Objective Reinforcement Learning [6.686583184622338]
我々は,多目的強化学習(MORL)における一般化の概念を定式化し,その評価方法について述べる。
パラメータ化された環境構成を持つ多目的ドメインを特徴とする新しいベンチマークを提案。
このベンチマークにおける最先端のMORLアルゴリズムのベースライン評価は、限定的な一般化能力を示し、改善の余地があることを示唆している。
論文 参考訳(メタデータ) (2025-03-02T08:50:14Z) - FlickerFusion: Intra-trajectory Domain Generalizing Multi-Agent RL [19.236153474365747]
既存のMARLアプローチは、トレーニングと推論の間に実体の数が一定であるという制限的な仮定に依存することが多い。
本稿では、ゼロショット・アウト・オブ・ドメイン(OOD)一般化の下での軌道内動的実体合成の課題に取り組む。
本稿では,MARLのバックボーン法に普遍的に適用可能な拡張手法として機能する新しいOOD一般化手法であるFlickerFusionを提案する。
論文 参考訳(メタデータ) (2024-10-21T10:57:45Z) - Invariant Causal Prediction for Block MDPs [106.63346115341862]
環境全体にわたる一般化は、実世界の課題への強化学習アルゴリズムの適用の成功に不可欠である。
本稿では,多環境環境における新しい観測を一般化するモデル不適合状態抽象化(MISA)を学習するための不変予測法を提案する。
論文 参考訳(メタデータ) (2020-03-12T21:03:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。