論文の概要: Self-Improving World Modelling with Latent Actions
- arxiv url: http://arxiv.org/abs/2602.06130v1
- Date: Thu, 05 Feb 2026 19:04:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.067192
- Title: Self-Improving World Modelling with Latent Actions
- Title(参考訳): 潜在行動を用いた自己改善型世界モデリング
- Authors: Yifu Qiu, Zheng Zhao, Waylon Li, Yftah Ziser, Anna Korhonen, Shay B. Cohen, Edoardo M. Ponti,
- Abstract要約: 世界の内部モデリングは推論と計画に不可欠である。
状態のみのシーケンスから学習する自己改善フレームワークSWIRLを提案する。
- 参考スコア(独自算出の注目度): 53.93276450137471
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Internal modelling of the world -- predicting transitions between previous states $X$ and next states $Y$ under actions $Z$ -- is essential to reasoning and planning for LLMs and VLMs. Learning such models typically requires costly action-labelled trajectories. We propose SWIRL, a self-improvement framework that learns from state-only sequences by treating actions as a latent variable and alternating between Forward World Modelling (FWM) $P_θ(Y|X,Z)$ and an Inverse Dynamics Modelling (IDM) $Q_φ(Z|X,Y)$. SWIRL iterates two phases: (1) Variational Information Maximisation, which updates the FWM to generate next states that maximise conditional mutual information with latent actions given prior states, encouraging identifiable consistency; and (2) ELBO Maximisation, which updates the IDM to explain observed transitions, effectively performing coordinate ascent. Both models are trained with reinforcement learning (specifically, GRPO) with the opposite frozen model's log-probability as a reward signal. We provide theoretical learnability guarantees for both updates, and evaluate SWIRL on LLMs and VLMs across multiple environments: single-turn and multi-turn open-world visual dynamics and synthetic textual environments for physics, web, and tool calling. SWIRL achieves gains of 16% on AURORABench, 28% on ByteMorph, 16% on WorldPredictionBench, and 14% on StableToolBench.
- Abstract(参考訳): 世界の内部モデリング -- 以前の状態の$X$と次の状態の$Y$をアクションとして予測する $Z$ -- は、LLMとVLMの推論と計画に不可欠である。
このようなモデルを学ぶには、通常、コストのかかる行動ラベル付き軌跡が必要となる。
動作を潜在変数として扱い、フォワードワールドモデリング(FWM)$P_θ(Y|X,Z)$と逆ダイナミクスモデリング(IDM)$Q_φ(Z|X,Y)$の交互化によって、状態のみのシーケンスから学習する自己改善フレームワークSWIRLを提案する。
SWIRLは,(1) FWMを更新して次の状態を生成する変分情報最大化,(2) IDMを更新して観測された遷移を説明するELBO最大化,の2段階を繰り返す。
どちらのモデルも強化学習(特にGRPO)で訓練され、対向する凍結モデルの対数確率は報奨信号である。
両更新の理論的学習性保証を提供し,LLMとVLMのSWIRLを複数環境で評価する: シングルターンおよびマルチターンオープンワールドの視覚力学と,物理,Web,ツール呼び出しのための合成テキスト環境。
SWIRLはAURORABenchで16%、ByteMorphで28%、WorldPredictionBenchで16%、StableToolBenchで14%の上昇を達成した。
関連論文リスト
- Reinforcement World Model Learning for LLM-based Agents [60.65003139516272]
強化世界モデル学習(Reinforcement World Model Learning, RWML)は、LDMをベースとしたエージェントのための行動教師付き世界モデルを学ぶ自己条件付き手法である。
本手法は, モデルが生成したシミュレーションされた次の状態と, 環境から観測された次の状態とを一致させる。
本手法をALFWorldと2ドルのBenchで評価し,完全に自己管理されているにもかかわらず,ベースモデルに対する大幅な利得を観測した。
論文 参考訳(メタデータ) (2026-02-05T16:30:08Z) - Internalizing World Models via Self-Play Finetuning for Agentic RL [65.96875390986655]
エージェントとしての大規模言語モデル(LLM)は、しばしばアウト・オブ・ディストリビューション(OOD)のシナリオで苦労する。
状態表現と遷移モデリングという2つのコンポーネントに分解することで、この世界モデルをエンコードする方法を示す。
SPAは,世界モデルを学習するために,セルフプレイ指導による微調整段階を通じてポリシーを冷やし始める,シンプルな強化学習フレームワークである。
論文 参考訳(メタデータ) (2025-10-16T18:03:39Z) - OptMerge: Unifying Multimodal LLM Capabilities and Modalities via Model Merging [124.91183814854126]
モデルマージは、複数のエキスパートモデルをひとつのモデルに組み合わせようとしている。
本稿ではMLLMのトレーニングと評価のタスクを明確に分割したモデルマージ研究のベンチマークを紹介する。
モデルマージは、トレーニングデータを必要とせずに改善されたMLLMを構築するための有望な方法であることがわかった。
論文 参考訳(メタデータ) (2025-05-26T12:23:14Z) - FLARE: Robot Learning with Implicit World Modeling [87.81846091038676]
$textbfFLARE$は、予測潜在世界モデリングをロボットポリシー学習に統合する。
$textbfFLARE$は最先端のパフォーマンスを実現し、これまでのポリシー学習のベースラインを最大26%上回っている。
この結果は、暗黙の世界モデリングと高周波ロボット制御を組み合わせた汎用的でスケーラブルなアプローチとして$textbfFLARE$を確立した。
論文 参考訳(メタデータ) (2025-05-21T15:33:27Z) - Uncovering Untapped Potential in Sample-Efficient World Model Agents [51.65485693709418]
Simulusは高度にモジュール化されたTBWMエージェントで、マルチモーダルトークン化フレームワーク、本質的なモチベーション、優先順位付けされたWMリプレイ、レグレッション・アズ・クラス化を統合している。
Simulusは3つの異なるベンチマークで、計画自由なWMに対して最先端のサンプル効率を達成する。
論文 参考訳(メタデータ) (2025-02-17T08:06:10Z) - Towards Coupling Full-disk and Active Region-based Flare Prediction for
Operational Space Weather Forecasting [0.5872014229110215]
本稿では, 太陽フレア予測システムの訓練と展開を行うための新しい手法を提案する。
フルディスクモードでは、深層学習モデルを用いて全ディスクラインオブサイト磁気グラム上で予測を行う。
アクティブなリージョンベースモデルでは、各アクティブなリージョンに対して個別に予測が発行される。
論文 参考訳(メタデータ) (2022-08-11T22:34:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。