論文の概要: Soft Tail-dropping for Adaptive Visual Tokenization
- arxiv url: http://arxiv.org/abs/2601.14246v1
- Date: Tue, 20 Jan 2026 18:57:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.461046
- Title: Soft Tail-dropping for Adaptive Visual Tokenization
- Title(参考訳): アダプティブ・ビジュアル・トケナイズのためのソフト・タイル・ドロップ
- Authors: Zeyuan Chen, Kai Zhang, Zhuowen Tu, Yuanjun Xiong,
- Abstract要約: STATは、イメージを個別のコード列にエンコードし、トークン単位の保留確率を同時に保持する。
これらの確率は、シーケンスに沿って単調に減少し、その分布を画像レベルの複雑性尺度と整合させるように正規化します。
結果としてSTATは、因果1D自己回帰(AR)視覚生成モデルと自然に互換性のある長さ適応型1D視覚トークンを生成する。
- 参考スコア(独自算出の注目度): 41.45348994139248
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Soft Tail-dropping Adaptive Tokenizer (STAT), a 1D discrete visual tokenizer that adaptively chooses the number of output tokens per image according to its structural complexity and level of detail. STAT encodes an image into a sequence of discrete codes together with per-token keep probabilities. Beyond standard autoencoder objectives, we regularize these keep probabilities to be monotonically decreasing along the sequence and explicitly align their distribution with an image-level complexity measure. As a result, STAT produces length-adaptive 1D visual tokens that are naturally compatible with causal 1D autoregressive (AR) visual generative models. On ImageNet-1k, equipping vanilla causal AR models with STAT yields competitive or superior visual generation quality compared to other probabilistic model families, while also exhibiting favorable scaling behavior that has been elusive in prior vanilla AR visual generation attempts.
- Abstract(参考訳): 本稿では,その構造的複雑さと詳細度に応じて,画像毎の出力トークン数を適応的に選択する1次元離散的視覚トークン化器であるソフトタイルドロップング適応トークン化器(STAT)を提案する。
STATは、イメージを個別のコード列にエンコードし、トークン単位の保留確率を同時に保持する。
通常のオートエンコーダの目的を超えて、これらの確率はシーケンスに沿って単調に減少し、その分布を画像レベルの複雑性尺度と明示的に一致させるように規則化します。
結果としてSTATは、因果1D自己回帰(AR)視覚生成モデルと自然に互換性のある長さ適応型1D視覚トークンを生成する。
ImageNet-1kでは、バニラ因果ARモデルにSTATを装着すると、他の確率モデルファミリと比較して、競合的または優れた視覚生成品質が得られる一方で、以前のバニラARビジュアル生成の試みで解決された好ましいスケーリング挙動を示す。
関連論文リスト
- Spanning Tree Autoregressive Visual Generation [51.7635842702602]
本稿では,Spanning Tree Autoregressive (STAR) モデリングについて述べる。
論文 参考訳(メタデータ) (2025-11-21T09:45:17Z) - $\bf{D^3}$QE: Learning Discrete Distribution Discrepancy-aware Quantization Error for Autoregressive-Generated Image Detection [85.9202830503973]
視覚的自己回帰(AR)モデルは、離散トークン予測を通じて画像を生成する。
本稿では,離散分布離散性を考慮した量子化誤差(D$3$QE)を自己回帰画像検出に活用することを提案する。
論文 参考訳(メタデータ) (2025-10-07T13:02:27Z) - Go with Your Gut: Scaling Confidence for Autoregressive Image Generation [33.35362030320443]
テストタイムスケーリング(TTS)は、大規模言語モデルの拡張において顕著な成功を収めているが、NTP(Next-token Prediction)自動回帰(AR)画像生成への応用は、まだほとんど達成されていない。
これはNTPベースのAR画像生成用に特別に設計された最初のTSフレームワークで、早期復号化や補助的な報酬の不要なScalingARを紹介する。
一般的なベンチマークと構成ベンチマークの両方の実験では、ScalingAR(1)はGenEvalで12.5%、TIIF-Benchで15.2%改善し、(2)ベースラインを上回りながら視覚トークンの消費量を62.0%削減し、(3)堅牢性の向上に成功している。
論文 参考訳(メタデータ) (2025-09-30T15:08:25Z) - Towards Generalizable AI-Generated Image Detection via Image-Adaptive Prompt Learning [33.269644831847636]
画像適応型プロンプト学習(IAPL)は、学習後に修正するのではなく、各入力画像に応じてプロンプトを調整する新しいパラダイムである。
IAPLは、広く使われているUniversalFakeDetectとGenImageデータセットで95.61%と96.7%の精度で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-08-03T05:41:24Z) - Learning-Order Autoregressive Models with Application to Molecular Graph Generation [52.44913282062524]
本稿では,データから逐次推定される確率的順序付けを用いて高次元データを生成するARMの変種を紹介する。
提案手法は,画像およびグラフ生成において有意義な自己回帰順序を学習できることを実験的に実証した。
論文 参考訳(メタデータ) (2025-03-07T23:24:24Z) - Frequency Autoregressive Image Generation with Continuous Tokens [31.833852108014312]
本稿では、周波数プログレッシブ自己回帰(textbfFAR)パラダイムを導入し、連続トークン化器を用いてFARをインスタンス化する。
我々は、ImageNetデータセットの総合的な実験を通して、FARの有効性を実証する。
論文 参考訳(メタデータ) (2025-03-07T10:34:04Z) - Fluid: Scaling Autoregressive Text-to-image Generative Models with Continuous Tokens [53.99177152562075]
視覚における自己回帰モデルのスケールアップは、大きな言語モデルほど有益でないことが証明されている。
モデルが離散トークンを使用するか、連続トークンを使用するか、BERTやGPTのようなトランスフォーマーアーキテクチャを用いてランダムまたは固定順序でトークンを生成するか、という2つの重要な要素に焦点を当てる。
その結果,すべてのモデルが検証損失の点で効果的にスケールしているのに対して,評価性能はFID,GenEvalスコア,視覚的品質などによって異なる傾向を呈することがわかった。
論文 参考訳(メタデータ) (2024-10-17T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。