論文の概要: World Modeling with Probabilistic Structure Integration
- arxiv url: http://arxiv.org/abs/2509.09737v1
- Date: Wed, 10 Sep 2025 18:01:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 16:03:07.870367
- Title: World Modeling with Probabilistic Structure Integration
- Title(参考訳): 確率的構造統合を用いた世界モデリング
- Authors: Klemen Kotar, Wanhee Lee, Rahul Venkatesh, Honglin Chen, Daniel Bear, Jared Watrous, Simon Kim, Khai Loong Aw, Lilian Naing Chen, Stefan Stojanov, Kevin Feigelis, Imran Thobani, Alex Durango, Khaled Jedoui, Atlas Kazemian, Dan Yamins,
- Abstract要約: 確率的構造統合(PSI)は、データからリッチに制御可能で柔軟に制御可能な世界モデルを学ぶためのシステムである。
PSIは、確率予測、構造抽出、統合という3段階のサイクルで構成されている。
私たちは、インターネットビデオデータの1.4兆トークンでPsiのインスタンスをトレーニングします。
- 参考スコア(独自算出の注目度): 10.960907851465983
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Probabilistic Structure Integration (PSI), a system for learning richly controllable and flexibly promptable world models from data. PSI consists of a three-step cycle. The first step, Probabilistic prediction, involves building a probabilistic graphical model Psi of the data, in the form of a random-access autoregressive sequence model. Psi supports a complete set of learned conditional distributions describing the dependence of any variables in the data on any other set of variables. In step 2, Structure extraction, we show how to extract underlying low-dimensional properties in the data, corresponding to a diverse set of meaningful "intermediate structures", in a zero-shot fashion via causal inference on Psi. Step 3, Integration, completes the cycle by converting these structures into new token types that are then continually mixed back into the training diet as conditioning signals and prediction targets. Each such cycle augments the capabilities of Psi, both allowing it to model the underlying data better, and creating new control handles -- akin to an LLM-like universal prompting language. We train an instance of Psi on 1.4 trillion tokens of internet video data; we use it to perform a variety of useful video prediction and understanding inferences; we extract state-of-the-art optical flow, self-supervised depth and object segmentation; and we use these structures to support a full cycle of predictive improvements.
- Abstract(参考訳): データからリッチで柔軟に制御可能な世界モデルを学習するシステムである確率構造統合(PSI)を提案する。
PSIは3段階のサイクルで構成される。
確率論的予測の第1ステップは、確率論的グラフィカルモデルPsiをランダムアクセス自己回帰シーケンスモデルとして構築することである。
Psiは学習された条件分布の完全なセットをサポートし、データ内の任意の変数の依存を他の変数の集合に記述する。
ステップ2では、Psiの因果推論を用いて、多種多様な意味のある「中間構造」に対応するデータ中の下層の低次元特性をゼロショットで抽出する方法を示す。
ステップ3 統合は、これらの構造を新しいトークンタイプに変換してサイクルを完了し、コンディショニング信号と予測ターゲットとしてトレーニングダイエットに継続的に混合する。
各サイクルはPsiの機能を強化し、基盤となるデータをモデル化し、LLMのようなユニバーサルプロンプト言語に似た新しいコントロールハンドルを作成することができる。
我々は、Psiのインスタンスを11.4兆のインターネットビデオデータのトークンでトレーニングし、それを使って様々な有用なビデオ予測と理解の推論を行い、最先端の光学フロー、自己監督深度、オブジェクトセグメンテーションを抽出し、これらの構造を用いて予測改善の全サイクルをサポートする。
関連論文リスト
- Grokking ExPLAIND: Unifying Model, Data, and Training Attribution to Study Model Behavior [25.975757048963413]
ポストホックの解釈可能性のメソッドは、通常、モデルの振る舞いをそのコンポーネント、データ、または独立した訓練軌跡に関連付ける。
3つの視点をすべて統合した統合フレームワークであるExPLAINDを紹介します。
論文 参考訳(メタデータ) (2025-05-26T14:53:11Z) - RigAnything: Template-Free Autoregressive Rigging for Diverse 3D Assets [47.81216915952291]
本稿では,新しい自己回帰変換モデルであるRigAnythingを紹介する。
関節や骨格のトポロジを確率的に生成し、スキンの重量をテンプレートのない方法で割り当てることで、3Dアセットを準備できる。
RigAnythingは、ヒューマノイド、四足動物、海洋生物、昆虫など、さまざまな種類の物体で最先端のパフォーマンスを実証している。
論文 参考訳(メタデータ) (2025-02-13T18:59:13Z) - Structural Entropy Guided Probabilistic Coding [52.01765333755793]
構造エントロピー誘導型確率的符号化モデルSEPCを提案する。
我々は、構造エントロピー正規化損失を提案することにより、潜在変数間の関係を最適化に組み込む。
分類タスクと回帰タスクの両方を含む12の自然言語理解タスクに対する実験結果は、SEPCの優れた性能を示す。
論文 参考訳(メタデータ) (2024-12-12T00:37:53Z) - Amortized Inference of Causal Models via Conditional Fixed-Point Iterations [17.427722515310606]
本研究では,異なるSCMからサンプリングした複数のデータセットに対して,単一モデルをトレーニングすることにより,構造因果モデル(SCM)の補正推定を提案する。
まず、まず、データセット埋め込みのアモータイズ学習にトランスフォーマーベースのアーキテクチャを使用し、次にFixed-Point Approach(FiP)を拡張して、データセット埋め込みに条件付きSCMを推論する。
副産物として,本手法はパラメータを更新することなく,新しいSCMから観測データや介入データを生成することができる。
論文 参考訳(メタデータ) (2024-10-08T15:31:33Z) - T1: Scaling Diffusion Probabilistic Fields to High-Resolution on Unified
Visual Modalities [69.16656086708291]
拡散確率場(DPF)は、距離空間上で定義された連続関数の分布をモデル化する。
本稿では,局所構造学習に着目したビューワイズサンプリングアルゴリズムによる新しいモデルを提案する。
モデルは、複数のモダリティを統一しながら、高解像度のデータを生成するためにスケールすることができる。
論文 参考訳(メタデータ) (2023-05-24T03:32:03Z) - DINOv2: Learning Robust Visual Features without Supervision [75.42921276202522]
この研究は、既存の事前学習手法、特に自己教師付き手法が、多様なソースから十分なキュレートされたデータで訓練すれば、そのような特徴を生み出すことができることを示している。
技術的な貢献の多くは、大規模なトレーニングを加速し、安定化することを目的としています。
データの観点からは、自己組織化されていないデータではなく、専用で多様でキュレートされた画像データセットを構築するための自動パイプラインを提案する。
論文 参考訳(メタデータ) (2023-04-14T15:12:19Z) - Towards Robust Unsupervised Disentanglement of Sequential Data -- A Case
Study Using Music Audio [17.214062755082065]
Disentangled Sequence Autoencoder (DSAE) は確率的グラフィカルモデルのクラスを表す。
バニラDSAEはモデルアーキテクチャの選択や動的潜伏変数の容量に敏感であることを示す。
本稿では,まずシーケンスレベルの事前分布を学習する2段階のトレーニングフレームワークTS-DSAEを提案する。
論文 参考訳(メタデータ) (2022-05-12T04:11:25Z) - Merging Two Cultures: Deep and Statistical Learning [3.15863303008255]
深層学習と統計的学習の2つの文化を組み合わせることで、構造化された高次元データに対する洞察が得られる。
モデルの出力層における確率的手法を用いて予測,最適化,不確実性を実現できることを示す。
論文 参考訳(メタデータ) (2021-10-22T02:57:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。