論文の概要: FlexTok: Resampling Images into 1D Token Sequences of Flexible Length
- arxiv url: http://arxiv.org/abs/2502.13967v1
- Date: Wed, 19 Feb 2025 18:59:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-20 14:00:52.052738
- Title: FlexTok: Resampling Images into 1D Token Sequences of Flexible Length
- Title(参考訳): FlexTok:画像をフレキシブルな長さの1DTokenシーケンスにまとめる
- Authors: Roman Bachmann, Jesse Allardice, David Mizrahi, Enrico Fini, Oğuzhan Fatih Kar, Elmira Amirloo, Alaaeldin El-Nouby, Amir Zamir, Afshin Dehghan,
- Abstract要約: 可変長の1Dトークンシーケンスに2D画像を投影するトークンライザであるFlexTokを紹介する。
簡単なGPT型変換器を用いて, 自己回帰生成設定によるアプローチの評価を行った。
- 参考スコア(独自算出の注目度): 16.76602756308683
- License:
- Abstract: Image tokenization has enabled major advances in autoregressive image generation by providing compressed, discrete representations that are more efficient to process than raw pixels. While traditional approaches use 2D grid tokenization, recent methods like TiTok have shown that 1D tokenization can achieve high generation quality by eliminating grid redundancies. However, these methods typically use a fixed number of tokens and thus cannot adapt to an image's inherent complexity. We introduce FlexTok, a tokenizer that projects 2D images into variable-length, ordered 1D token sequences. For example, a 256x256 image can be resampled into anywhere from 1 to 256 discrete tokens, hierarchically and semantically compressing its information. By training a rectified flow model as the decoder and using nested dropout, FlexTok produces plausible reconstructions regardless of the chosen token sequence length. We evaluate our approach in an autoregressive generation setting using a simple GPT-style Transformer. On ImageNet, this approach achieves an FID<2 across 8 to 128 tokens, outperforming TiTok and matching state-of-the-art methods with far fewer tokens. We further extend the model to support to text-conditioned image generation and examine how FlexTok relates to traditional 2D tokenization. A key finding is that FlexTok enables next-token prediction to describe images in a coarse-to-fine "visual vocabulary", and that the number of tokens to generate depends on the complexity of the generation task.
- Abstract(参考訳): 画像トークン化は、圧縮された離散表現を提供することで、生のピクセルよりも処理が効率的である自動回帰画像生成の大きな進歩を可能にした。
従来の手法では2Dグリッドトークン化が用いられてきたが,TiTokのような最近の手法では,グリッド冗長性を排除して1Dトークン化が高品質に実現可能であることが示されている。
しかし、これらの手法は一般に一定数のトークンを使用するため、画像固有の複雑さに適応できない。
可変長の1Dトークンシーケンスに2D画像を投影するトークンライザであるFlexTokを紹介する。
例えば、256x256画像は1から256個の離散トークンから任意の場所に再サンプリングされ、階層的に、意味的にその情報を圧縮することができる。
正規化フローモデルをデコーダとしてトレーニングし、ネストしたドロップアウトを使用することで、選択されたトークンシーケンスの長さに関わらず、FlexTokはもっともらしい再構築を生成する。
簡単なGPT型変換器を用いて, 自己回帰生成設定によるアプローチの評価を行った。
ImageNetでは,8~128個のトークンにまたがるFID<2が達成され,TiTokよりも優れ,さらに少ないトークンで最先端のメソッドにマッチする。
さらに、テキスト条件付き画像生成のサポートにモデルを拡張し、FlexTokが従来の2Dトークン化とどのように関係しているかを検討する。
重要な発見は、FlexTokが、粗い"視覚語彙"でイメージを記述するために、次から次までの予測を可能にし、生成するトークンの数は、生成タスクの複雑さに依存することである。
関連論文リスト
- Spectral Image Tokenizer [21.84385276311364]
Image tokenizersは、画像を個別のトークンのシーケンスにマップする。
離散ウェーブレット変換(DWT)から得られる画像スペクトルのトークン化を提案する。
我々はトークン化のメトリクスをマルチスケール画像生成、テキスト誘導画像アップサンプリング、編集として評価する。
論文 参考訳(メタデータ) (2024-12-12T18:59:31Z) - Language-Guided Image Tokenization for Generation [63.0859685332583]
TexTokは、言語を活用して高度なセマンティクスを提供する、シンプルだが効果的なトークン化フレームワークである。
記述的なテキストキャプションにトークン化プロセスを条件付けすることで、TexTokはトークン化プロセスが詳細な視覚的詳細を潜在トークンにエンコードすることに集中できるようにする。
バニラ DiT ジェネレータを備えた TexTok は、ImageNet-256 と -512 でそれぞれ 1.46 と 1.62 の最先端 FID スコアを達成している。
論文 参考訳(メタデータ) (2024-12-08T03:18:17Z) - Adaptive Length Image Tokenization via Recurrent Allocation [81.10081670396956]
現在の視覚システムは、情報内容に関わらず、画像に一定長の表現を割り当てている。
そこで本研究では,2次元画像に対する可変長トークン表現の学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-04T18:58:01Z) - ElasticTok: Adaptive Tokenization for Image and Video [109.75935878130582]
我々は、フレームを可変数のトークンに適応的にエンコードする、事前のフレームを条件付けするElasticTokを紹介する。
推論中、ElasticTokは必要に応じてトークンを動的に割り当てる。
画像とビデオに対する評価は,トークンの有効利用におけるアプローチの有効性を示すものである。
論文 参考訳(メタデータ) (2024-10-10T20:54:15Z) - ImageFolder: Autoregressive Image Generation with Folded Tokens [51.815319504939396]
トークン長の増大は、画像再構成の品質を改善するための一般的なアプローチである。
トークン長に関する復元と生成品質の間にはトレードオフがある。
本稿では,自己回帰モデルにおいて折り畳み可能な空間整列型画像トークンを提供するセマンティック・トークンライザであるイメージを提案する。
論文 参考訳(メタデータ) (2024-10-02T17:06:39Z) - An Image is Worth 32 Tokens for Reconstruction and Generation [54.24414696392026]
Transformer-based 1-dimensional Tokenizer (TiTok) は、画像を1D潜在シーケンスにトークン化する革新的なアプローチである。
TiTokは最先端のアプローチと競合するパフォーマンスを実現している。
我々の最高性能の変種は、DiT-XL/2 (gFID 2.13 vs. 3.04) をはるかに上回りながら、高品質なサンプルを74倍高速に生成できる。
論文 参考訳(メタデータ) (2024-06-11T17:59:56Z) - A Layer-Wise Tokens-to-Token Transformer Network for Improved Historical
Document Image Enhancement [13.27528507177775]
Tokens-to-token Vision Transformer に基づく新しい文書バイナライゼーション・エンコーダ・デコーダアーキテクチャである textbfT2T-BinFormer を提案する。
様々なDIBCOおよびH-DIBCOベンチマークの実験により、提案モデルは既存のCNNおよびViTベースの最先端手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-12-06T23:01:11Z) - Improving Visual Quality of Image Synthesis by A Token-based Generator
with Transformers [51.581926074686535]
本稿では,このタスクを視覚的トークン生成問題とみなして,画像合成の新たな視点を示す。
提案したTokenGANは、広く使われている画像合成ベンチマークで最先端の結果を得た。
論文 参考訳(メタデータ) (2021-11-05T12:57:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。