論文の概要: Adaptive Length Image Tokenization via Recurrent Allocation
- arxiv url: http://arxiv.org/abs/2411.02393v1
- Date: Mon, 04 Nov 2024 18:58:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:51:03.769528
- Title: Adaptive Length Image Tokenization via Recurrent Allocation
- Title(参考訳): リカレントアロケーションによる適応長画像トークン化
- Authors: Shivam Duggal, Phillip Isola, Antonio Torralba, William T. Freeman,
- Abstract要約: 現在の視覚システムは、情報内容に関わらず、画像に一定長の表現を割り当てている。
そこで本研究では,2次元画像に対する可変長トークン表現の学習手法を提案する。
- 参考スコア(独自算出の注目度): 81.10081670396956
- License:
- Abstract: Current vision systems typically assign fixed-length representations to images, regardless of the information content. This contrasts with human intelligence - and even large language models - which allocate varying representational capacities based on entropy, context and familiarity. Inspired by this, we propose an approach to learn variable-length token representations for 2D images. Our encoder-decoder architecture recursively processes 2D image tokens, distilling them into 1D latent tokens over multiple iterations of recurrent rollouts. Each iteration refines the 2D tokens, updates the existing 1D latent tokens, and adaptively increases representational capacity by adding new tokens. This enables compression of images into a variable number of tokens, ranging from 32 to 256. We validate our tokenizer using reconstruction loss and FID metrics, demonstrating that token count aligns with image entropy, familiarity and downstream task requirements. Recurrent token processing with increasing representational capacity in each iteration shows signs of token specialization, revealing potential for object / part discovery.
- Abstract(参考訳): 現在の視覚システムは、情報の内容に関わらず、画像に固定長の表現を割り当てるのが一般的である。
これは、エントロピー、文脈、親しみに基づく様々な表現能力を割り当てる人間の知性(および大きな言語モデル)とは対照的である。
そこで本研究では,2次元画像に対する可変長トークン表現の学習手法を提案する。
エンコーダ・デコーダアーキテクチャは、2D画像トークンを再帰的に処理し、繰り返しロールアウトを繰り返して1D潜在トークンに蒸留する。
各イテレーションは2Dトークンを洗練し、既存の1D潜在トークンを更新し、新しいトークンを追加することで表現能力を適応的に向上する。
これにより、32から256までの可変数のトークンに画像を圧縮することができる。
我々は、再構成損失とFIDメトリクスを用いてトークン化を検証し、トークン数と画像エントロピー、親しみやすさ、下流タスク要求が一致していることを示す。
各イテレーションにおける表現能力の増大を伴う反復トークン処理は、トークンの特殊化の兆候を示し、オブジェクト/部分発見の可能性を明らかにします。
関連論文リスト
- FlexTok: Resampling Images into 1D Token Sequences of Flexible Length [16.76602756308683]
可変長の1Dトークンシーケンスに2D画像を投影するトークンライザであるFlexTokを紹介する。
簡単なGPT型変換器を用いて, 自己回帰生成設定によるアプローチの評価を行った。
論文 参考訳(メタデータ) (2025-02-19T18:59:44Z) - CAT: Content-Adaptive Image Tokenization [92.2116487267877]
本稿では,CAT(Content-Adaptive Tokenizer)を導入し,画像の内容に基づいて表現能力を調整し,より単純な画像をより少ないトークンにエンコードする。
本研究では,大容量言語モデル(LLM)を利用したキャプションベース評価システムの設計を行い,コンテントの複雑さを予測し,与えられた画像に対する最適な圧縮比を決定する。
トークン割り当てを最適化することで、CATは同じフロップでトレーニングされた固定比率ベースラインよりもFIDスコアを改善し、推論スループットを18.5%向上させる。
論文 参考訳(メタデータ) (2025-01-06T16:28:47Z) - Spectral Image Tokenizer [21.84385276311364]
Image tokenizersは、画像を個別のトークンのシーケンスにマップする。
離散ウェーブレット変換(DWT)から得られる画像スペクトルのトークン化を提案する。
我々はトークン化のメトリクスをマルチスケール画像生成、テキスト誘導画像アップサンプリング、編集として評価する。
論文 参考訳(メタデータ) (2024-12-12T18:59:31Z) - ImageFolder: Autoregressive Image Generation with Folded Tokens [51.815319504939396]
トークン長の増大は、画像再構成の品質を改善するための一般的なアプローチである。
トークン長に関する復元と生成品質の間にはトレードオフがある。
本稿では,自己回帰モデルにおいて折り畳み可能な空間整列型画像トークンを提供するセマンティック・トークンライザであるイメージを提案する。
論文 参考訳(メタデータ) (2024-10-02T17:06:39Z) - SA$^2$VP: Spatially Aligned-and-Adapted Visual Prompt [59.280491260635266]
視覚的プロンプトチューニングの方法は、NLPから派生した逐次モデリングパラダイムに従う。
マイモデルモデルは、画像トークンマップに等しい大きさ(またはスケールした)の2次元プロンプトトークンマップを学習する。
我々のモデルは、個々の画像トークンをきめ細かな方法でプロンプトすることができる。
論文 参考訳(メタデータ) (2023-12-16T08:23:43Z) - ADDP: Learning General Representations for Image Recognition and Generation with Alternating Denoising Diffusion Process [94.41510903676837]
本稿では,2つの空間を1つの表現学習フレームワークに統合した交互デノナイジング拡散プロセス(ADDP)を提案する。
復号化の各ステップでは、まず以前のVQトークンから画素をデコードし、次にデコードされたピクセルから新しいVQトークンを生成する。
学習した表現は、多彩な高忠実度画像の生成や、認識タスクにおける優れた転送性能を示すために使用することができる。
論文 参考訳(メタデータ) (2023-06-08T17:59:32Z) - Improving Visual Quality of Image Synthesis by A Token-based Generator
with Transformers [51.581926074686535]
本稿では,このタスクを視覚的トークン生成問題とみなして,画像合成の新たな視点を示す。
提案したTokenGANは、広く使われている画像合成ベンチマークで最先端の結果を得た。
論文 参考訳(メタデータ) (2021-11-05T12:57:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。