論文の概要: OAT: Ordered Action Tokenization
- arxiv url: http://arxiv.org/abs/2602.04215v1
- Date: Wed, 04 Feb 2026 05:01:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.377166
- Title: OAT: Ordered Action Tokenization
- Title(参考訳): OAT: 命令されたアクショントークン化
- Authors: Chaoqi Liu, Xiaoshen Han, Jiawei Gao, Yue Zhao, Haonan Chen, Yilun Du,
- Abstract要約: 自己回帰ポリシーは、離散的な抽象化、トークンレベルの推論、柔軟な推論を可能にすることで、スケーラブルなロボット学習のための魅力的な基盤を提供する。
既存のアプローチは、極端に長いトークン配列を生成する分析的な離散化法や、構造を持たない学習された潜在トークン化器に依存する。
本研究では,アクショントークン化のための3つのデシラタ(高圧縮,全復調性,左から右への因果的に順序付けられたトークン空間)を特定し,オーダードアクショントークン化(OAT)を導入する。
OATはレジスタを持つ変圧器、有限スカラー量子を用いて、アクションチャンクを順序付けられたトークン列に識別する
- 参考スコア(独自算出の注目度): 44.20363344414952
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autoregressive policies offer a compelling foundation for scalable robot learning by enabling discrete abstraction, token-level reasoning, and flexible inference. However, applying autoregressive modeling to continuous robot actions requires an effective action tokenization scheme. Existing approaches either rely on analytical discretization methods that produce prohibitively long token sequences, or learned latent tokenizers that lack structure, limiting their compatibility with next-token prediction. In this work, we identify three desiderata for action tokenization - high compression, total decodability, and a left-to-right causally ordered token space - and introduce Ordered Action Tokenization (OAT), a learned action tokenizer that satisfies all three. OAT discretizes action chunks into an ordered sequence of tokens using transformer with registers, finite scalar quantization, and ordering-inducing training mechanisms. The resulting token space aligns naturally with autoregressive generation and enables prefix-based detokenization, yielding an anytime trade-off between inference cost and action fidelity. Across more than 20 tasks spanning four simulation benchmarks and real-world settings, autoregressive policies equipped with OAT consistently outperform prior tokenization schemes and diffusion-based baselines, while offering significantly greater flexibility at inference time.
- Abstract(参考訳): 自己回帰ポリシーは、離散的な抽象化、トークンレベルの推論、柔軟な推論を可能にすることで、スケーラブルなロボット学習のための魅力的な基盤を提供する。
しかし、連続ロボット動作に自己回帰モデリングを適用するには、効果的なアクショントークン化スキームが必要である。
既存のアプローチでは、極端に長いトークン列を生成する分析的離散化法や、構造を欠いた学習された潜在トークン化器に依存し、次の予測との互換性を制限している。
本研究では,アクショントークン化のための3つのデシラタ(高圧縮,全復調性,左から右への因果的に順序付けられたトークン空間)を特定し,これら3つをすべて満足する学習アクショントークン化であるOrdered Action Tokenization(OAT)を導入する。
OATは、アクションチャンクをレジスタ付きトランスフォーマー、有限スカラー量子化、順序付け誘導学習機構を使用して、順序付けられたトークン列に識別する。
結果として生じるトークン空間は、自然に自己回帰生成と整合し、プレフィックスベースのデトケン化を可能にし、推論コストとアクションフィティリティの間にいつでもトレードオフをもたらす。
4つのシミュレーションベンチマークと実世界の設定にまたがる20以上のタスクにおいて、OATを備えた自動回帰ポリシーは、推論時の柔軟性を著しく向上しつつ、事前トークン化スキームと拡散ベースのベースラインを一貫して上回っている。
関連論文リスト
- BEAST: Efficient Tokenization of B-Splines Encoded Action Sequences for Imitation Learning [24.858548048614878]
B-spline Encoded Action Sequence Tokenizer (BEAST)について述べる。
BEAST は B-splines を用いて、アクションシーケンスをコンパクトな離散トークンまたは連続トークンにエンコードする。
BEASTは166のシミュレーションタスクと8つの実世界のタスクからなる3つの異なるロボット設定からなる3つの確立されたベンチマークで評価した。
論文 参考訳(メタデータ) (2025-06-06T13:26:16Z) - Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling [90.86991492288487]
トークンの制約を評価するのは 違法にコストがかかる
LCDは文字列上のグローバル分布を歪め、ローカル情報のみに基づいてトークンをサンプリングすることができる。
我々のアプローチは最先端のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-04-07T18:30:18Z) - Bridging Continuous and Discrete Tokens for Autoregressive Visual Generation [85.82112629564942]
本稿では,離散トークンのモデリングをシンプルに保ちながら,連続トークンの強力な表現能力を維持するTokenBridgeを提案する。
本稿では,各特徴次元を独立に離散化し,軽量な自己回帰予測機構と組み合わせた次元ワイド量子化戦略を提案する。
提案手法は,標準的なカテゴリー予測を用いて,連続的手法と同等に再現および生成品質を実現する。
論文 参考訳(メタデータ) (2025-03-20T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。