論文の概要: (1D) Ordered Tokens Enable Efficient Test-Time Search
- arxiv url: http://arxiv.org/abs/2604.15453v1
- Date: Thu, 16 Apr 2026 18:13:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 22:00:19.61553
- Title: (1D) Ordered Tokens Enable Efficient Test-Time Search
- Title(参考訳): (1D) 効率的なテストタイム検索を可能にする注文トークン
- Authors: Zhitong Gao, Parham Rezaei, Ali Cy, Mingqiao Ye, Nataša Jovanović, Jesse Allardice, Afshin Dehghan, Amir Zamir, Roman Bachmann, Oğuzhan Fatih Kar,
- Abstract要約: トークン化は自己回帰(AR)生成モデルの鍵となる要素である。
トークン構造がテストタイムサーチによって生成を操る能力に影響を及ぼすかどうかを検討する。
- 参考スコア(独自算出の注目度): 17.29070569167214
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tokenization is a key component of autoregressive (AR) generative models, converting raw data into more manageable units for modeling. Commonly, tokens describe local information, such as regions of pixels in images or word pieces in text, and AR generation predicts these tokens in a fixed order. A worthwhile question is whether token structures affect the ability to steer the generation through test-time search, where multiple candidate generations are explored and evaluated by a verifier. Using image generation as our testbed, we hypothesize that recent 1D ordered tokenizers with coarse-to-fine structure can be more amenable to search than classical 2D grid structures. This is rooted in the fact that the intermediate states in coarse-to-fine sequences carry semantic meaning that verifiers can reliably evaluate, enabling effective steering during generation. Through controlled experiments, we find that AR models trained on coarse-to-fine ordered tokens exhibit improved test-time scaling behavior compared to grid-based counterparts. Moreover, we demonstrate that, thanks to the ordered structure, pure test-time search over token sequences (i.e., without training an AR model) can perform training-free text-to-image generation when guided by an image-text verifier. Beyond this, we systematically study how classical search algorithms (best-of-N, beam search, lookahead search) interact with different token structures, as well as the role of different verifiers and AR priors. Our results highlight the impact of token structure on inference-time scalability and provide practical guidance for test-time scaling in AR models.
- Abstract(参考訳): トークン化は自己回帰(AR)生成モデルの鍵となる要素であり、生データをより管理しやすい単位に変換してモデリングする。
一般的に、トークンは画像中のピクセルの領域やテキスト内のワードピースなどのローカル情報を記述し、AR生成はこれらのトークンを一定の順序で予測する。
有意義な疑問は、トークン構造が、複数の候補世代を検証器で探索し評価するテストタイムサーチによって、生成を操る能力に影響を及ぼすかどうかである。
画像生成をテストベッドとして使用することにより,近年の1次元秩序付きトークン化器は従来の2次元グリッド構造よりも検索しやすくなっている,という仮説を立てる。
これは、粗い列から細い列の中間状態が意味を持ち、検証者が確実に評価でき、生成時に効果的な操舵を可能にするという事実に根ざしている。
制御された実験により、粗大な順序付きトークンで訓練されたARモデルは、グリッドベースのトークンと比較してテスト時間スケーリングの挙動が改善されていることがわかった。
さらに、順序付き構造のおかげで、画像テキスト検証器によってガイドされた場合、純粋なテストタイムのトークンシーケンス(つまりARモデルをトレーニングせずに)が、トレーニング不要のテキスト・ツー・イメージ生成を実行可能であることを示す。
さらに,従来の検索アルゴリズム(Best-of-N, beam search, lookahead search)が異なるトークン構造とどのように相互作用するか,また異なる検証器やARプリエントの役割を体系的に検討する。
本結果は,トークン構造が推論時スケーラビリティに与える影響を強調し,ARモデルにおけるテスト時スケーリングの実践的ガイダンスを提供する。
関連論文リスト
- Single-pass Adaptive Image Tokenization for Minimum Program Search [75.59409288259151]
本稿では,単一前方通過における画像に対する適切なトークン数を予測する単一パス適応型トークン化器KARLを提案する。
KARLは、1回のパスで動作しながら、最近の適応トークン化器の性能と一致する。
論文 参考訳(メタデータ) (2025-07-10T17:59:53Z) - Self-Supervised Representation Learning from Temporal Ordering of
Automated Driving Sequences [49.91741677556553]
本研究では、認識タスクのための地域レベルの特徴表現を事前学習するための時間順述前文タスクであるTempOを提案する。
我々は各フレームを、オブジェクト検出やトラッキングシステムにとって自然な表現である、未順序な特徴ベクトルのセットで埋め込む。
BDD100K、nu Images、MOT17データセットの大規模な評価は、私たちのTempO事前学習アプローチがシングルフレームの自己教師型学習方法よりも優れていることを示している。
論文 参考訳(メタデータ) (2023-02-17T18:18:27Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - AttentionHTR: Handwritten Text Recognition Based on Attention
Encoder-Decoder Networks [0.0]
本研究は,手書き単語認識のための注目に基づくシーケンス・ツー・シーケンス・モデルを提案する。
シーンテキストイメージに事前トレーニングされたモデルを、手書き認識モデルのカスタマイズに向けた出発点として活用する。
提案したエンドツーエンドHTRシステムの有効性は、新しいマルチライターデータセットで実証的に評価されている。
論文 参考訳(メタデータ) (2022-01-23T22:48:36Z) - Evaluation and Comparison of Deep Learning Methods for Pavement Crack
Identification with Visual Images [0.0]
ディープラーニングアルゴリズムによる視覚画像による舗装き裂の識別は、検出対象の材料によって制限されないという利点がある。
パッチサンプル分類の面では、細調整されたTLモデルはEDモデルと精度で同等またはわずかに良い。
正確なクラック位置の面では、EDアルゴリズムとGANアルゴリズムの両方がピクセルレベルのセグメンテーションを達成でき、低演算パワープラットフォーム上でリアルタイムに検出されることが期待できる。
論文 参考訳(メタデータ) (2021-12-20T08:23:43Z) - PSEUDo: Interactive Pattern Search in Multivariate Time Series with
Locality-Sensitive Hashing and Relevance Feedback [3.347485580830609]
PSEUDoは、マルチトラックシーケンシャルデータにおける視覚パターンを探索するための適応的機能学習技術である。
提案アルゴリズムは,サブ線形学習と推論時間を特徴とする。
我々は,PSEUDoの効率,精度,操縦性において優位性を示す。
論文 参考訳(メタデータ) (2021-04-30T13:00:44Z) - AutoSTR: Efficient Backbone Search for Scene Text Recognition [80.7290173000068]
テキストインスタンスの多様性とシーンの複雑さのため、シーンテキスト認識(STR)は非常に難しい。
テキスト認識性能を向上させるために,データ依存のバックボーンを検索するための自動STR(AutoSTR)を提案する。
実験によると、データ依存のバックボーンを検索することで、AutoSTRは標準ベンチマークにおける最先端のアプローチより優れている。
論文 参考訳(メタデータ) (2020-03-14T06:51:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。