論文の概要: Highly Compressed Tokenizer Can Generate Without Training
- arxiv url: http://arxiv.org/abs/2506.08257v1
- Date: Mon, 09 Jun 2025 21:45:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:40.850944
- Title: Highly Compressed Tokenizer Can Generate Without Training
- Title(参考訳): 高圧縮型トケナイザーはトレーニングなしで生成できる
- Authors: L. Lao Beyer, T. Li, X. Chen, S. Karaman, K. He,
- Abstract要約: 1D画像トークン化器は、画像を32個の離散トークンの高度に圧縮された1次元シーケンスとして表現する。
ベクトル量子化による1次元トークン化器によって達成される高い圧縮により,画像の編集と生成が可能であることがわかった。
本手法は, 画像編集における画像の塗り絵やテキストガイドに応用でき, 生成モデルの訓練を必要とせず, 多様な実例を生成できる。
- 参考スコア(独自算出の注目度): 0.5033155053523042
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Commonly used image tokenizers produce a 2D grid of spatially arranged tokens. In contrast, so-called 1D image tokenizers represent images as highly compressed one-dimensional sequences of as few as 32 discrete tokens. We find that the high degree of compression achieved by a 1D tokenizer with vector quantization enables image editing and generative capabilities through heuristic manipulation of tokens, demonstrating that even very crude manipulations -- such as copying and replacing tokens between latent representations of images -- enable fine-grained image editing by transferring appearance and semantic attributes. Motivated by the expressivity of the 1D tokenizer's latent space, we construct an image generation pipeline leveraging gradient-based test-time optimization of tokens with plug-and-play loss functions such as reconstruction or CLIP similarity. Our approach is demonstrated for inpainting and text-guided image editing use cases, and can generate diverse and realistic samples without requiring training of any generative model.
- Abstract(参考訳): 一般的に使用される画像トークン化器は、空間的に配置されたトークンの2Dグリッドを生成する。
対照的に、いわゆる1D画像トークン化器は、画像を32個の離散トークンの高度に圧縮された1次元のシーケンスとして表現する。
ベクトル量子化による1Dトークン化によって達成される高い圧縮により、トークンのヒューリスティックな操作による画像の編集と生成が可能となり、画像の潜在表現間のトークンのコピーや置換といった非常に粗い操作であっても、外観やセマンティック属性の転送によるきめ細かい画像の編集が可能であることを示す。
1Dトークンライザの潜在空間の表現性により、再構成やCLIP類似性などのプラグ・アンド・プレイ損失関数を用いたトークンの勾配に基づくテスト時間最適化を利用した画像生成パイプラインを構築する。
提案手法は, 画像編集用ケースの塗り絵やテキストガイドに応用でき, 生成モデルの訓練を必要とせずに, 多様なリアルなサンプルを作成できる。
関連論文リスト
- Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models [92.18057318458528]
Token-ShuffleはTransformerにおける画像トークンの数を減らす新しい方法である。
我々の戦略は、事前訓練されたテキストエンコーダを必要とせず、MLLMが超高解像度画像合成をサポートできるようにする。
GenAIベンチマークでは、2.7Bモデルがハードプロンプトで0.77点、ARモデルLlamaGenが0.18点、拡散モデルLDMが0.15点である。
論文 参考訳(メタデータ) (2025-04-24T17:59:56Z) - FlexTok: Resampling Images into 1D Token Sequences of Flexible Length [16.76602756308683]
可変長の1Dトークンシーケンスに2D画像を投影するトークンライザであるFlexTokを紹介する。
簡単なGPT型変換器を用いて, 自己回帰生成設定によるアプローチの評価を行った。
論文 参考訳(メタデータ) (2025-02-19T18:59:44Z) - Spectral Image Tokenizer [21.84385276311364]
Image tokenizersは、画像を個別のトークンのシーケンスにマップする。
離散ウェーブレット変換(DWT)から得られる画像スペクトルのトークン化を提案する。
我々はトークン化のメトリクスをマルチスケール画像生成、テキスト誘導画像アップサンプリング、編集として評価する。
論文 参考訳(メタデータ) (2024-12-12T18:59:31Z) - Adaptive Length Image Tokenization via Recurrent Allocation [81.10081670396956]
現在の視覚システムは、情報内容に関わらず、画像に一定長の表現を割り当てている。
そこで本研究では,2次元画像に対する可変長トークン表現の学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-04T18:58:01Z) - Image-GS: Content-Adaptive Image Representation via 2D Gaussians [52.598772767324036]
本稿では,2次元ガウス放射率に基づくコンテンツ適応型画像表現であるImage-GSを紹介する。
リアルタイム使用のためにハードウェアフレンドリーな高速アクセスをサポートし、ピクセルをデコードするためには0.3KのMACしか必要としない。
テクスチャ圧縮、セマンティクス対応圧縮、共同画像圧縮と復元など、いくつかのアプリケーションでその汎用性を実証する。
論文 参考訳(メタデータ) (2024-07-02T00:45:21Z) - StrokeNUWA: Tokenizing Strokes for Vector Graphic Synthesis [112.25071764647683]
StrokeNUWAはベクターグラフィックスにおけるより良い視覚表現'ストロークトークン'を探求する先駆的な研究である。
ストロークトークンを備えたStrokeNUWAは、従来のLCMベースの最適化ベースのメソッドを大幅に上回ることができる。
StrokeNUWAは、SVGコード圧縮比が6.9%の従来の手法よりも94倍のスピードアップを達成している。
論文 参考訳(メタデータ) (2024-01-30T15:20:26Z) - Hierarchical Text-Conditional Image Generation with CLIP Latents [20.476720970770128]
画像表現を明示的に生成することで、フォトリアリズムとキャプションの類似性が最小限に抑えられ、画像の多様性が向上することを示す。
画像表現に条件付けされたデコーダは、その意味とスタイルの両方を保存した画像のバリエーションを生成できる。
論文 参考訳(メタデータ) (2022-04-13T01:10:33Z) - Improving Visual Quality of Image Synthesis by A Token-based Generator
with Transformers [51.581926074686535]
本稿では,このタスクを視覚的トークン生成問題とみなして,画像合成の新たな視点を示す。
提案したTokenGANは、広く使われている画像合成ベンチマークで最先端の結果を得た。
論文 参考訳(メタデータ) (2021-11-05T12:57:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。