論文の概要: Better World Models Can Lead to Better Post-Training Performance
- arxiv url: http://arxiv.org/abs/2512.03400v1
- Date: Wed, 03 Dec 2025 03:13:20 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:17:24.251496
- Title: Better World Models Can Lead to Better Post-Training Performance
- Title(参考訳): より良い世界モデルがトレーニング後のパフォーマンス向上につながる
- Authors: Prakhar Gupta, Henry Conklin, Sarah-Jane Leslie, Andrew Lee,
- Abstract要約: 本研究では,トランスフォーマーの内部表現と下流能力に,世界モデリングの目的がどう影響するかを考察する。
我々は、標準的な次世代予測と2つの明示的な世界モデリング戦略を比較した。
明示的な世界モデリングは、より線形にデオード可能で、因果的にステアブルな状態表現をもたらす。
- 参考スコア(独自算出の注目度): 9.713688760042544
- License:
- Abstract: In this work we study how explicit world-modeling objectives affect the internal representations and downstream capability of Transformers across different training stages. We use a controlled 2x2x2 Rubik's Cube and ask: (1) how does explicitly pretraining a world model affect the model's latent representations, and (2) how does world-model quality affect the model's performance after reinforcement learning post-training? We compare standard next-token prediction to two explicit world-modeling strategies -- (i) state-prediction pretraining and (ii) a joint state-prediction + next-token objective -- and assess task performance after Group Relative Policy Optimization (GRPO) is applied as post-training. We evaluate the representation quality with linear probes and causal interventions. We find that explicit world-modeling yields more linearly decodable and causally steerable state representations. More importantly, we find that improved state representations lead to higher gains for GRPO, especially on harder cube states. Our results indicate that sharpening state representations can improve the effectiveness of post-training for sequence-planning tasks.
- Abstract(参考訳): 本研究では,異なる学習段階におけるトランスフォーマーの内部表現と下流能力に,明示的な世界モデリングの目的がどのような影響を及ぼすかを検討する。
制御された2x2x2ルービックキューブを用いて、(1)世界モデルを明示的に事前学習することはモデルの潜在表現にどのように影響するか、(2)強化学習後のモデルの性能にどのように影響するかを問う。
我々は、標準的な次世代予測を2つの明示的な世界モデリング戦略と比較する。
一 予知事前訓練及び
(二)グループ相対政策最適化(GRPO)後のタスクパフォーマンスの評価をポストトレーニングとして適用する。
線形プローブと因果介入による表現品質の評価を行った。
明示的な世界モデリングは、より線形にデオード可能で、因果的にステアブルな状態表現をもたらす。
さらに重要なことは、改良された状態表現がGRPO、特に硬い立方体状態のより高いゲインをもたらすことである。
この結果から, 状態表現の高速化が, 逐次計画タスクにおけるポストトレーニングの有効性を向上させることが示唆された。
関連論文リスト
- VAGEN: Reinforcing World Model Reasoning for Multi-Turn VLM Agents [130.70999337445468]
言語モデル(LLM)エージェントと比較して、視覚言語モデル(VLM)エージェントを訓練する際の重要な課題は、テキスト状態から複雑な視覚観察に移行することである。
VLMエージェントは、明示的な視覚状態推論によって内部世界モデルを構築することができるか?
我々は、強化学習(RL)を通して、エージェントの推論プロセスを建築的に実施し、報奨する。
エージェントの状態推定と遷移モデリングへの推論が成功に不可欠であることが分かりました。
論文 参考訳(メタデータ) (2025-10-19T16:05:07Z) - Internalizing World Models via Self-Play Finetuning for Agentic RL [65.96875390986655]
エージェントとしての大規模言語モデル(LLM)は、しばしばアウト・オブ・ディストリビューション(OOD)のシナリオで苦労する。
状態表現と遷移モデリングという2つのコンポーネントに分解することで、この世界モデルをエンコードする方法を示す。
SPAは,世界モデルを学習するために,セルフプレイ指導による微調整段階を通じてポリシーを冷やし始める,シンプルな強化学習フレームワークである。
論文 参考訳(メタデータ) (2025-10-16T18:03:39Z) - Enhancing Training Data Attribution with Representational Optimization [57.61977909113113]
トレーニングデータ属性法は、トレーニングデータがモデルの予測にどのように影響するかを測定することを目的としている。
本稿では,タスク固有表現とモデル整合表現をTDAで明示的に学習することで,このギャップを埋める表現ベースアプローチであるAirRepを提案する。
AirRepは、属性品質に合わせて調整されたトレーニング可能なエンコーダと、グループワイドの影響を正確に見積もるアテンションベースのプール機構の2つの重要なイノベーションを紹介している。
論文 参考訳(メタデータ) (2025-05-24T05:17:53Z) - ACT-JEPA: Novel Joint-Embedding Predictive Architecture for Efficient Policy Representation Learning [90.41852663775086]
ACT-JEPAは模倣学習と自己教師型学習を統合する新しいアーキテクチャである。
我々はアクションシーケンスと抽象的な観察シーケンスを予測するポリシーを訓練する。
実験の結果,ACT-JEPAは時間環境の動的学習によって表現の質を向上させることがわかった。
論文 参考訳(メタデータ) (2025-01-24T16:41:41Z) - ReCoRe: Regularized Contrastive Representation Learning of World Model [21.29132219042405]
対照的な教師なし学習と介入不変正規化器を用いて不変特徴を学習する世界モデルを提案する。
提案手法は,現状のモデルベースおよびモデルフリーのRL法より優れ,iGibsonベンチマークで評価された分布外ナビゲーションタスクを大幅に改善する。
論文 参考訳(メタデータ) (2023-12-14T15:53:07Z) - Bi-Drop: Enhancing Fine-tuning Generalization via Synchronous sub-net
Estimation and Optimization [58.90989478049686]
Bi-Dropは、様々なサブネットからの勾配を使ってモデルパラメータを選択的に更新する微調整戦略である。
GLUEベンチマークの実験は、Bi-Dropが従来の微調整方法よりも一貫して優れていることを示した。
論文 参考訳(メタデータ) (2023-05-24T06:09:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。