論文の概要: Composable Visual Tokenizers with Generator-Free Diagnostics of Learnability
- arxiv url: http://arxiv.org/abs/2602.03339v1
- Date: Tue, 03 Feb 2026 10:02:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.382278
- Title: Composable Visual Tokenizers with Generator-Free Diagnostics of Learnability
- Title(参考訳): 発電機不要な学習性診断機能を備えた構成型ビジュアルトケナイザ
- Authors: Bingchen Zhao, Qiushan Guo, Ye Wang, Yixuan Huang, Zhonghua Zhai, Yu Tian,
- Abstract要約: CompTokは、トークンを合成性のために強化した視覚的トークン化者を学ぶためのトレーニングフレームワークである。
InfoGANスタイルの目的を用いて認識モデルを訓練し,拡散復号器の条件に使用するトークンを予測する。
実験では、CompTokが両方のメトリクスを改善するとともに、クラス条件付き生成のための最先端のジェネレータをサポートできることが示されている。
- 参考スコア(独自算出の注目度): 30.139325285692568
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce CompTok, a training framework for learning visual tokenizers whose tokens are enhanced for compositionality. CompTok uses a token-conditioned diffusion decoder. By employing an InfoGAN-style objective, where we train a recognition model to predict the tokens used to condition the diffusion decoder using the decoded images, we enforce the decoder to not ignore any of the tokens. To promote compositional control, besides the original images, CompTok also trains on tokens formed by swapping token subsets between images, enabling more compositional control of the token over the decoder. As the swapped tokens between images do not have ground truth image targets, we apply a manifold constraint via an adversarial flow regularizer to keep unpaired swap generations on the natural-image distribution. The resulting tokenizer not only achieves state-of-the-art performance on image class-conditioned generation, but also demonstrates properties such as swapping tokens between images to achieve high level semantic editing of an image. Additionally, we propose two metrics that measures the landscape of the token space that can be useful to describe not only the compositionality of the tokens, but also how easy to learn the landscape is for a generator to be trained on this space. We show in experiments that CompTok can improve on both of the metrics as well as supporting state-of-the-art generators for class conditioned generation.
- Abstract(参考訳): CompTokは、トークンを合成性のために強化した視覚的トークン化者を学ぶためのトレーニングフレームワークである。
CompTokはトークン条件の拡散デコーダを使用する。
InfoGANスタイルの目的を用いて、デコードされた画像を用いて拡散デコーダを条件付けるために使用されるトークンを予測するために認識モデルを訓練することにより、デコーダはトークンを無視しないように強制する。
CompTokは、オリジナルの画像以外の構成制御を促進するため、画像間でトークンサブセットをスワップすることで形成されたトークンをトレーニングし、デコーダ上のトークンのよりコンポジション制御を可能にする。
画像間のスワップされたトークンは、真理画像のターゲットを持たないため、逆フロー正規化器を介して多様体制約を適用し、自然画像のスワップ生成を継続する。
結果として得られたトークンライザは、画像のクラス条件生成における最先端のパフォーマンスを達成するだけでなく、画像間のトークン交換などの特性も示し、画像の高レベルなセマンティックな編集を実現する。
さらに,トークン空間の景観を計測する2つの指標を提案し,トークンの構成性だけでなく,生成者がこの空間で学習する上で,ランドスケープの学習がいかに容易かを説明する。
実験では、CompTokが両方のメトリクスを改善するとともに、クラス条件付き生成のための最先端のジェネレータをサポートできることが示されている。
関連論文リスト
- Improving Flexible Image Tokenizers for Autoregressive Image Generation [53.238708824055664]
textbfReToKは、アンダーライン冗長なアンダーラインToken Paddingと階層的セマンティック正規化を備えたフレキシブルなトークンライザである。
本手法は, フレキシブルかつ固定長のトークン化器と比較して, 優れた生成性能を実現する。
論文 参考訳(メタデータ) (2026-01-04T14:11:45Z) - Switchable Token-Specific Codebook Quantization For Face Image Compression [72.44596412563503]
顔画像圧縮のための切り換え可能なToken-Specific Codebook Quantizationを提案する。
トークンが少量のビットを持つコードブックグループを記録することで,コードブックグループのサイズを小さくする場合に発生する損失を低減することができる。
提案手法は顔認識データに対して有効性を示し,0.05bppの再構成画像に対して平均93.51%の精度を実現した。
論文 参考訳(メタデータ) (2025-10-27T02:56:17Z) - Hita: Holistic Tokenizer for Autoregressive Image Generation [56.81871174745175]
自己回帰(AR)画像生成のための新しい画像トークンであるtextitHita を紹介する。
学習可能な全体的クエリとローカルパッチトークンを備えた、全体論的から局所的なトークン化スキームを導入している。
論文 参考訳(メタデータ) (2025-07-03T06:44:26Z) - Highly Compressed Tokenizer Can Generate Without Training [0.5033155053523042]
1D画像トークン化器は、画像を32個の離散トークンの高度に圧縮された1次元シーケンスとして表現する。
ベクトル量子化による1次元トークン化器によって達成される高い圧縮により,画像の編集と生成が可能であることがわかった。
本手法は, 画像編集における画像の塗り絵やテキストガイドに応用でき, 生成モデルの訓練を必要とせず, 多様な実例を生成できる。
論文 参考訳(メタデータ) (2025-06-09T21:45:03Z) - Don't Look into the Dark: Latent Codes for Pluralistic Image Inpainting [8.572133295533643]
本稿では,離散潜在符号の生成枠組みに基づく大規模マスク多元画像の描画手法を提案する。
本手法は,画像の可視な場所でのみ計算を行うことで,トークンとして識別された遅延先行を学習する。
論文 参考訳(メタデータ) (2024-03-27T01:28:36Z) - TokenCompose: Text-to-Image Diffusion with Token-level Supervision [43.307556249485366]
TokenComposeはテキスト・画像生成のための遅延拡散モデルである。
ユーザが指定したテキストプロンプトとモデル生成画像との間の一貫性の向上を実現する。
論文 参考訳(メタデータ) (2023-12-06T17:13:15Z) - Improving Visual Quality of Image Synthesis by A Token-based Generator
with Transformers [51.581926074686535]
本稿では,このタスクを視覚的トークン生成問題とみなして,画像合成の新たな視点を示す。
提案したTokenGANは、広く使われている画像合成ベンチマークで最先端の結果を得た。
論文 参考訳(メタデータ) (2021-11-05T12:57:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。