論文の概要: Modeling Unseen Environments with Language-guided Composable Causal Components in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.08361v1
- Date: Tue, 13 May 2025 09:08:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-14 20:57:54.495049
- Title: Modeling Unseen Environments with Language-guided Composable Causal Components in Reinforcement Learning
- Title(参考訳): 強化学習における言語誘導型構成可能な因果成分を用いた未知環境のモデル化
- Authors: Xinyue Wang, Biwei Huang,
- Abstract要約: 構成因果成分を用いた世界モデリング(WM3C)について紹介する。
このフレームワークは、因果成分の学習と活用による強化学習を強化する。
我々のアプローチは、潜在空間を意味のある構成要素に分解するために、言語を構成モダリティとして統合する。
- 参考スコア(独自算出の注目度): 15.594198876509628
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generalization in reinforcement learning (RL) remains a significant challenge, especially when agents encounter novel environments with unseen dynamics. Drawing inspiration from human compositional reasoning -- where known components are reconfigured to handle new situations -- we introduce World Modeling with Compositional Causal Components (WM3C). This novel framework enhances RL generalization by learning and leveraging compositional causal components. Unlike previous approaches focusing on invariant representation learning or meta-learning, WM3C identifies and utilizes causal dynamics among composable elements, facilitating robust adaptation to new tasks. Our approach integrates language as a compositional modality to decompose the latent space into meaningful components and provides theoretical guarantees for their unique identification under mild assumptions. Our practical implementation uses a masked autoencoder with mutual information constraints and adaptive sparsity regularization to capture high-level semantic information and effectively disentangle transition dynamics. Experiments on numerical simulations and real-world robotic manipulation tasks demonstrate that WM3C significantly outperforms existing methods in identifying latent processes, improving policy learning, and generalizing to unseen tasks.
- Abstract(参考訳): 強化学習(RL)の一般化は、特にエージェントが未知のダイナミックスを持つ新しい環境に遭遇する場合において重要な課題である。
既知のコンポーネントが新しい状況に対処するように再構成された、人間の構成的推論からインスピレーションを得るため、私たちはWM3C(World Modeling with compositional Causal Components)を紹介します。
このフレームワークは、構成因果成分の学習と活用によりRLの一般化を促進する。
不変表現学習やメタラーニングに焦点を当てた従来のアプローチとは異なり、WM3Cは構成可能な要素間の因果ダイナミクスを特定し、利用し、新しいタスクへの堅牢な適応を促進する。
提案手法は言語を構成モダリティとして統合し、潜在空間を意味のある構成要素に分解し、軽度な仮定の下で独自の識別を理論的に保証する。
本実装では、相互情報制約と適応空間規則化を備えたマスク付きオートエンコーダを用いて、ハイレベルなセマンティクス情報をキャプチャし、遷移ダイナミクスを効果的に歪めている。
数値シミュレーションと実世界のロボット操作タスクの実験は、WM3Cが潜在プロセスの同定、ポリシー学習の改善、そして目に見えないタスクへの一般化において、既存の方法よりも大幅に優れていることを示した。
関連論文リスト
- Enabling Systematic Generalization in Abstract Spatial Reasoning through Meta-Learning for Compositionality [20.958479821810762]
構成性のためのメタラーニングのアプローチを抽象空間推論の領域に拡張する。
この結果から,メタラーニングにより学習したトランスフォーマーを用いたエンコーダ・デコーダモデルにより,既往の変換合成を体系的に一般化できることが示唆された。
論文 参考訳(メタデータ) (2025-04-02T07:56:39Z) - ArtGS: Building Interactable Replicas of Complex Articulated Objects via Gaussian Splatting [66.29782808719301]
コンピュータビジョンにおいて、音声で表現されたオブジェクトを構築することが重要な課題である。
既存のメソッドは、しばしば異なるオブジェクト状態間で効果的に情報を統合できない。
3次元ガウスを柔軟かつ効率的な表現として活用する新しいアプローチであるArtGSを紹介する。
論文 参考訳(メタデータ) (2025-02-26T10:25:32Z) - Active Inference for Self-Organizing Multi-LLM Systems: A Bayesian Thermodynamic Approach to Adaptation [0.0]
本稿では,大規模言語モデル(LLM)とアクティブ推論を統合し,適応型言語エージェントを作成するための新しいアプローチを提案する。
本フレームワークは,3つの状態要因(確率,探索,情報状態)を用いて環境をモデル化する。
実験により、エージェントが環境力学の正確なモデルを開発することにより、このアプローチの有効性が示された。
論文 参考訳(メタデータ) (2024-12-10T16:34:47Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Decomposed Mutual Information Optimization for Generalized Context in
Meta-Reinforcement Learning [35.87062321504049]
複数の共同創設者がトランジションのダイナミクスに影響を与える可能性があるため、意思決定の正確なコンテキストを推測することは難しい。
本稿では、文脈学習におけるDOMINO(Decomposed Mutual Information Optimization)の課題に対処する。
理論的分析により,DOMINOは,多元的課題による相互情報の過小評価を克服できることが示された。
論文 参考訳(メタデータ) (2022-10-09T09:44:23Z) - Meta-learning using privileged information for dynamics [66.32254395574994]
Neural ODE Processモデルを拡張して、Learning Using Privileged Information設定内の追加情報を使用します。
シミュレーション動的タスクの精度とキャリブレーションを向上した実験により拡張性を検証する。
論文 参考訳(メタデータ) (2021-04-29T12:18:02Z) - Context-aware Dynamics Model for Generalization in Model-Based
Reinforcement Learning [124.9856253431878]
グローバルなダイナミクスモデルを学習するタスクを,(a)ローカルなダイナミクスをキャプチャするコンテキスト潜在ベクトルを学習し,(b)次に条件付き状態を予測するという2つの段階に分割する。
本研究では,コンテキスト潜在ベクトルに動的情報をエンコードするために,コンテキスト潜在ベクトルを前方と後方の両方のダイナミクスを予測するのに役立つような新しい損失関数を導入する。
提案手法は,既存のRL方式と比較して,様々なシミュレーションロボットや制御タスクの一般化能力に優れる。
論文 参考訳(メタデータ) (2020-05-14T08:10:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。