論文の概要: Identifiable Token Correspondence for World Models
- arxiv url: http://arxiv.org/abs/2605.16457v2
- Date: Thu, 21 May 2026 00:53:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:41.862874
- Title: Identifiable Token Correspondence for World Models
- Title(参考訳): 世界モデルのための識別可能なトークン対応
- Authors: Youngin Kim, Ray Sun, Inho Kim, Bumsoo Park, Hyun Oh Song,
- Abstract要約: Identible Token Correspondence (ITC) は、トークンベースのトランスフォーマー世界モデルのステップであり、構造化代入問題として次のフレーム予測を定式化する。
Craftax-classicベンチマークでは,ITCが72.5%,35.6%のリターンを達成した。
- 参考スコア(独自算出の注目度): 13.514849821598832
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Token-based transformer world models have shown strong performance in visual reinforcement learning, but often suffer from temporal inconsistency in long-horizon rollouts, including object duplication, disappearance, and transmutation. A key reason is that most existing approaches treat next-frame prediction purely as a token generation problem, without considering the persistence of tokens across time. We introduce Identifiable Token Correspondence (ITC), a decoding step for token-based transformer world models that formulates next-frame prediction as a structured assignment problem with latent token correspondence variables: each next-frame token is explained either by copying a token from the previous frame or by generating a new one. ITC leaves the transformer architecture and training procedure unchanged and can be added on top of existing backbones. Our experiments show state-of-the-art performance on 4 challenging benchmarks. The proposed method achieves a return of 72.5% and a score of 35.6% on the Craftax-classic benchmark, significantly surpassing the previous best of 67.4% and 27.9%. We release our source code on https://github.com/snu-mllab/Identifiable-Token-Correspondence.
- Abstract(参考訳): トークンベースのトランスフォーマー世界モデルは、視覚的強化学習において強い性能を示してきたが、オブジェクト重複、消失、トランスフォーメーションなど、長期にわたるロールアウトにおいて時間的不整合に悩まされることが多い。
主要な理由は、ほとんどの既存のアプローチが、トークンの持続性を考慮せずに、次世代の予測を純粋にトークン生成問題として扱うためである。
Identible Token Corssociatedence (ITC) は、トークンベースのトランスフォーマーワールドモデルのデコードステップで、遅延トークン対応変数を持つ構造化代入問題として、次のフレーム予測を定式化する。
ITCはトランスフォーマーアーキテクチャとトレーニング手順をそのままにして、既存のバックボーン上に追加することができる。
実験では、4つの挑戦的なベンチマークで最先端のパフォーマンスを示す。
提案手法は72.5%と35.6%のスコアをCraftax-classicベンチマークで達成し、前回の最高値である67.4%と27.9%を大きく上回った。
ソースコードはhttps://github.com/snu-mllab/Identible-Token-Cor correspondingenceで公開しています。
関連論文リスト
- BIGFix: Bidirectional Image Generation with Token Fixing [21.40682276355247]
サンプルトークンを反復精製することで画像生成を自己補正する手法を提案する。
我々は,ランダムトークンを文脈に注入し,ロバスト性を向上し,サンプリング中のトークンの固定を可能にする,新しいトレーニング手法によりこれを実現する。
我々は、ImageNet-256とCIFAR-10データセットを用いた画像生成と、UCF-101とNuScenesによるビデオ生成のアプローチを評価し、両モード間で大幅に改善した。
論文 参考訳(メタデータ) (2025-10-14T07:34:44Z) - REAR: Rethinking Visual Autoregressive Models via Generator-Tokenizer Consistency Regularization [130.46612643194973]
reARはトークン単位の正規化目標を導入する単純なトレーニング戦略です。
ImageNetでは、gFIDを3.02から1.86に削減し、標準化ベースのトークンーザを使用してISを316.9に改善している。
高度なトークン化器に適用すると、177Mパラメータしか持たない1.42のgFIDが達成され、その性能はより大きな最先端拡散モデル(675M)と一致する。
論文 参考訳(メタデータ) (2025-10-06T02:48:13Z) - TrimTokenator: Towards Adaptive Visual Token Pruning for Large Multimodal Models [4.779482139419908]
テキストトークンと意味的に視覚トークンを除去する相互情報に基づくトークンプルーニング戦略を導入する。
LLaVA-15-7BやLLaVA-7Bといったモデルでは,テキストトークンを88.9%削減しながら高い性能を維持している。
論文 参考訳(メタデータ) (2025-08-30T02:43:50Z) - Broken Tokens? Your Language Model can Secretly Handle Non-Canonical Tokenizations [83.93566096400723]
ランダムにサンプリングされたトークン化が与えられた場合、命令調整されたモデルは元の性能の最大93.4%を維持している。
文字レベルのセグメンテーションは文字列操作とコード理解タスクを最大+14%改善する。
右列桁のグルーピングは、大数の算術を+33%向上させる。
論文 参考訳(メタデータ) (2025-06-23T18:02:26Z) - Understanding and Mitigating Tokenization Bias in Language Models [6.418593476658017]
State-of-the-art言語モデルは自己回帰型であり、トークンとして知られるサブワード単位で動作する。
一般的な符号化方式は、より多くのトレーニングやデータで緩和できないサンプリングバイアスを引き起こすことを示す。
トークン化データに基づいて訓練された任意の言語モデルからバイアスのない推定値を得るための新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-24T17:38:02Z) - Object Recognition as Next Token Prediction [99.40793702627396]
オブジェクト認識を次のトークン予測として提案する。
その考え方は、画像埋め込みからフォームラベルへのテキストトークンの自動回帰予測を行う言語デコーダを適用することである。
論文 参考訳(メタデータ) (2023-12-04T18:58:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。