論文の概要: Continual learning and refinement of causal models through dynamic predicate invention
- arxiv url: http://arxiv.org/abs/2602.17217v1
- Date: Thu, 19 Feb 2026 10:08:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.909446
- Title: Continual learning and refinement of causal models through dynamic predicate invention
- Title(参考訳): 動的述語による因果モデルの継続的な学習と洗練
- Authors: Enrique Crespo-Fernandez, Oliver Ray, Telmo de Menezes e Silva Filho, Peter Flach,
- Abstract要約: 本稿では,オンライン上での象徴的因果世界モデル構築のためのフレームワークを提案する。
我々はメタ解釈学習の力を活用し、意味論的で再利用可能な抽象化を見つけるために発明を述語する。
- 参考スコア(独自算出の注目度): 0.6198237241838559
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Efficiently navigating complex environments requires agents to internalize the underlying logic of their world, yet standard world modelling methods often struggle with sample inefficiency, lack of transparency, and poor scalability. We propose a framework for constructing symbolic causal world models entirely online by integrating continuous model learning and repair into the agent's decision loop, by leveraging the power of Meta-Interpretive Learning and predicate invention to find semantically meaningful and reusable abstractions, allowing an agent to construct a hierarchy of disentangled, high-quality concepts from its observations. We demonstrate that our lifted inference approach scales to domains with complex relational dynamics, where propositional methods suffer from combinatorial explosion, while achieving sample-efficiency orders of magnitude higher than the established PPO neural-network-based baseline.
- Abstract(参考訳): 複雑な環境を効率的にナビゲートするには、エージェントが彼らの世界の基盤となるロジックを内部化する必要があるが、標準的な世界モデリング手法は、しばしばサンプルの非効率性、透明性の欠如、スケーラビリティの低下に苦しむ。
本稿では,メタ解釈学習と述語発明の力を活用して,意味論的かつ再利用可能な抽象概念を見つけることによって,連続的なモデル学習と修復をエージェントの判断ループに統合することにより,オンラインの象徴的因果世界モデルを構築するための枠組みを提案する。
提案手法は組合せ的爆発に悩まされるが,提案手法は確立されたPPOニューラルネットワークベースのベースラインよりも格段に高い精度のサンプル効率を達成できる。
関連論文リスト
- Object-Centric World Models for Causality-Aware Reinforcement Learning [13.063093054280946]
カルーサリティ対応強化学習(ASTICA)を用いたEmph Transformer Imaginationを提案する。
オブジェクト中心のトランスフォーマーが世界モデルおよび因果対応ポリシーおよびバリューネットワークとして機能する統合フレームワーク。
オブジェクトリッチベンチマークの実験では、STICAはサンプル効率と最終性能の両方において、最先端のエージェントよりも一貫して優れていた。
論文 参考訳(メタデータ) (2025-11-18T08:53:09Z) - Step-Aware Policy Optimization for Reasoning in Diffusion Large Language Models [57.42778606399764]
拡散言語モデル(dLLM)は、テキスト生成に有望で非自己回帰的なパラダイムを提供する。
現在の強化学習アプローチは、しばしばスパースで結果に基づく報酬に頼っている。
これは推論の自然な構造との根本的なミスマッチに由来すると我々は主張する。
論文 参考訳(メタデータ) (2025-10-02T00:34:15Z) - World Models for Cognitive Agents: Transforming Edge Intelligence in Future Networks [55.90051810762702]
本稿では,世界モデルを概観し,そのアーキテクチャ,トレーニングパラダイム,予測,生成,計画,因果推論といった応用を概観する。
ワイヤレスエッジインテリジェンス最適化に適した,新しい世界モデルに基づく強化学習フレームワークであるWireless Dreamerを提案する。
論文 参考訳(メタデータ) (2025-05-31T06:43:00Z) - Verbalized Probabilistic Graphical Modeling [8.524824578426962]
本稿では,自然言語における確率的グラフモデル (PGM) の重要な原理をシミュレートするために,動詞型確率的グラフィカルモデリング (vPGM) を提案する。
vPGMは専門家主導のモデル設計をバイパスし、仮定やデータ不足のシナリオに適している。
以上の結果から,本モデルは信頼性校正とテキスト生成品質を効果的に向上させることが示唆された。
論文 参考訳(メタデータ) (2024-06-08T16:35:31Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - VDFD: Multi-Agent Value Decomposition Framework with Disentangled World Model [10.36125908359289]
本稿では,Distangled World Modelを用いた新しいモデルベースマルチエージェント強化学習手法であるValue Decomposition Frameworkを提案する。
提案手法は, サンプル効率が高く, 多様なマルチエージェント学習タスクにおいて, 他のベースラインと比較して優れた性能を示す。
論文 参考訳(メタデータ) (2023-09-08T22:12:43Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - Learning Deep-Latent Hierarchies by Stacking Wasserstein Autoencoders [22.54887526392739]
本稿では, 最適輸送に基づくディープラーニング階層を用いたモデル学習手法を提案する。
提案手法は, VAEの「潜伏変数崩壊」問題を回避することで, 生成モデルをその深部潜伏階層を完全に活用することを可能にした。
論文 参考訳(メタデータ) (2020-10-07T15:04:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。