論文の概要: What Do World Models Learn in RL? Probing Latent Representations in Learned Environment Simulators
- arxiv url: http://arxiv.org/abs/2603.21546v1
- Date: Mon, 23 Mar 2026 04:00:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.475287
- Title: What Do World Models Learn in RL? Probing Latent Representations in Learned Environment Simulators
- Title(参考訳): 世界モデルはRLで何を学ぶか : 学習環境シミュレータにおける潜在表現の提案
- Authors: Xinyu Zhang,
- Abstract要約: アーキテクチャ的に異なる2つの世界モデル(IRISとDIAMOND)に解釈可能性技術を適用した。
両モデルともゲーム状態変数の線形デオード可能な表現を開発する。
IRISアテンションヘッドの分析は空間的特殊化を明らかにし、特定のヘッドはゲームオブジェクトと重複するトークンに優先的に出席する。
- 参考スコア(独自算出の注目度): 6.400424118459376
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: World models learn to simulate environment dynamics from experience, enabling sample-efficient reinforcement learning. But what do these models actually represent internally? We apply interpretability techniques--including linear and nonlinear probing, causal interventions, and attention analysis--to two architecturally distinct world models: IRIS (discrete token transformer) and DIAMOND (continuous diffusion UNet), trained on Atari Breakout and Pong. Using linear probes, we find that both models develop linearly decodable representations of game state variables (object positions, scores), with MLP probes yielding only marginally higher R^2, confirming that these representations are approximately linear. Causal interventions--shifting hidden states along probe-derived directions--produce correlated changes in model predictions, providing evidence that representations are functionally used rather than merely correlated. Analysis of IRIS attention heads reveals spatial specialization: specific heads attend preferentially to tokens overlapping with game objects. Multi-baseline token ablation experiments consistently identify object-containing tokens as disproportionately important. Our findings provide interpretability evidence that learned world models develop structured, approximately linear internal representations of environment state across two games and two architectures.
- Abstract(参考訳): 世界モデルは、経験から環境力学をシミュレートし、サンプル効率の強化学習を可能にする。
しかし、これらのモデルは実際に内部で何を表現しているのか?
我々は,Atari Breakout と Pong で訓練された IRIS (discrete token transformer) と DIAMOND (continuous diffusion UNet) という2つのアーキテクチャ上の異なる世界モデルに対して,線形および非線形探索,因果介入,注意分析を含む解釈可能性技術を適用した。
線形プローブを用いて、両モデルがゲーム状態変数(対象位置、スコア)の線形デオード可能な表現を発達させ、MLPプローブはR^2を極端に高め、これらの表現がほぼ線形であることを確認する。
因果介入(Causal interventions) - プローブ由来の方向に沿って隠れた状態をシフトする - モデル予測の相関した変化を生じさせ、単に相関ではなく、表現が機能的に使用されることを示す。
IRISアテンションヘッドの分析は空間的特殊化を明らかにし、特定のヘッドはゲームオブジェクトと重複するトークンに優先的に出席する。
マルチベースライントークンアブレーション実験は、オブジェクトを含むトークンを不均等に重要なものとして一貫して識別する。
本研究は,学習した世界モデルが2つのゲームと2つのアーキテクチャにまたがる環境状態のほぼ線形な内部表現を構築できることを示す。
関連論文リスト
- Emergence of Linear Truth Encodings in Language Models [64.86571541830598]
大規模言語モデルは偽文と真を区別する線形部分空間を示すが、それらの出現のメカニズムは不明確である。
このような真理部分空間をエンドツーエンドに再現する,透明な一層トランスフォーマー玩具モデルを導入する。
本研究では,真理エンコーディングが実現可能な単純な設定について検討し,将来のトークンにおけるLM損失を減らすために,この区別を学習するようモデルに促す。
論文 参考訳(メタデータ) (2025-10-17T16:30:07Z) - Linear Spatial World Models Emerge in Large Language Models [4.9185678564997355]
線形空間世界モデルに対して,大規模言語モデルが暗黙的に符号化されているかを検討する。
本研究では,空間空間モデルのための形式的枠組みを導入し,そのような構造が文脈埋め込みに現れるかどうかを評価する。
この結果から,LLMが線形空間世界モデルを符号化する証拠が得られた。
論文 参考訳(メタデータ) (2025-06-03T15:31:00Z) - ExPLAIND: Unifying Model, Data, and Training Attribution to Study Model Behavior [39.590138981646696]
ポストホックの解釈可能性のメソッドは、通常、モデルの振る舞いをそのコンポーネント、データ、または独立した訓練軌跡に関連付ける。
これらの観点をすべて統合した統合フレームワークであるExPLAINDを紹介します。
論文 参考訳(メタデータ) (2025-05-26T14:53:11Z) - SPARTAN: A Sparse Transformer Learning Local Causation [63.29645501232935]
因果構造は、環境の変化に柔軟に適応する世界モデルにおいて中心的な役割を果たす。
本研究では,SPARse TrANsformer World Model(SPARTAN)を提案する。
オブジェクト指向トークン間の注意パターンに空間規則を適用することで、SPARTANは、将来のオブジェクト状態を正確に予測するスパース局所因果モデルを特定する。
論文 参考訳(メタデータ) (2024-11-11T11:42:48Z) - A Theoretical Analysis of Self-Supervised Learning for Vision Transformers [66.08606211686339]
マスク付きオートエンコーダ(MAE)とコントラスト学習(CL)は異なる種類の表現をキャプチャする。
我々は,MAEとCLの両目的に対して,一層ソフトマックス型視覚変換器(ViT)のトレーニングダイナミクスについて検討した。
論文 参考訳(メタデータ) (2024-03-04T17:24:03Z) - Beyond DAGs: A Latent Partial Causal Model for Multimodal Learning [80.44084021062105]
本稿では,非方向エッジで連結された2つの潜在結合変数を特徴とする,多モーダルデータに対する新しい潜在部分因果モデルを提案する。
特定の統計的仮定の下では、多モーダル・コントラッシブ・ラーニングによって学習された表現が、自明な変換までの潜在結合変数に対応することを示す。
事前トレーニングされたCLIPモデルの実験は、非絡み合った表現を具現化し、数ショットの学習を可能にし、さまざまな現実世界のデータセットにわたるドメインの一般化を改善する。
論文 参考訳(メタデータ) (2024-02-09T07:18:06Z) - Intriguing Equivalence Structures of the Embedding Space of Vision
Transformers [1.7418480517632609]
事前訓練された大規模な基盤モデルは、最近の人工知能の急増において中心的な役割を果たす。
それら固有の複雑さのため、これらのモデルはよく理解されていない。
解析および系統的な実験により、表現空間は大きな片方向線型部分空間からなることを示す。
論文 参考訳(メタデータ) (2024-01-28T04:59:51Z) - Dynamic Latent Separation for Deep Learning [67.62190501599176]
機械学習の中核的な問題は、複雑なデータに対するモデル予測のための表現力のある潜在変数を学習することである。
本稿では,表現性を向上し,部分的解釈を提供し,特定のアプリケーションに限定されないアプローチを開発する。
論文 参考訳(メタデータ) (2022-10-07T17:56:53Z) - Bridging the Gap to Real-World Object-Centric Learning [66.55867830853803]
自己教師付き方法で訓練されたモデルから特徴を再構成することは、完全に教師なしの方法でオブジェクト中心表現が生じるための十分な訓練信号であることを示す。
我々のアプローチであるDINOSAURは、シミュレーションデータ上で既存のオブジェクト中心学習モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2022-09-29T15:24:47Z) - On the Transfer of Disentangled Representations in Realistic Settings [44.367245337475445]
1Mのシミュレーション画像と1,800以上の注釈付き実世界の画像を備えた新しい高解像度データセットを導入する。
本研究では,非交叉表現学習を現実的な高解像度設定に拡張するために,新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-10-27T16:15:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。