Fugu-MT 論文翻訳(概要): Adaptive Length Image Tokenization via Recurrent Allocation

論文の概要: Adaptive Length Image Tokenization via Recurrent Allocation

arxiv url: http://arxiv.org/abs/2411.02393v1
Date: Mon, 04 Nov 2024 18:58:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:44.238678
Title: Adaptive Length Image Tokenization via Recurrent Allocation
Title（参考訳）: リカレントアロケーションによる適応長画像トークン化
Authors: Shivam Duggal, Phillip Isola, Antonio Torralba, William T. Freeman,
Abstract要約: 現在の視覚システムは、情報内容に関わらず、画像に一定長の表現を割り当てている。そこで本研究では,2次元画像に対する可変長トークン表現の学習手法を提案する。
参考スコア（独自算出の注目度）: 81.10081670396956
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Current vision systems typically assign fixed-length representations to images, regardless of the information content. This contrasts with human intelligence - and even large language models - which allocate varying representational capacities based on entropy, context and familiarity. Inspired by this, we propose an approach to learn variable-length token representations for 2D images. Our encoder-decoder architecture recursively processes 2D image tokens, distilling them into 1D latent tokens over multiple iterations of recurrent rollouts. Each iteration refines the 2D tokens, updates the existing 1D latent tokens, and adaptively increases representational capacity by adding new tokens. This enables compression of images into a variable number of tokens, ranging from 32 to 256. We validate our tokenizer using reconstruction loss and FID metrics, demonstrating that token count aligns with image entropy, familiarity and downstream task requirements. Recurrent token processing with increasing representational capacity in each iteration shows signs of token specialization, revealing potential for object / part discovery.
Abstract（参考訳）: 現在の視覚システムは、情報の内容に関わらず、画像に固定長の表現を割り当てるのが一般的である。これは、エントロピー、文脈、親しみに基づく様々な表現能力を割り当てる人間の知性(および大きな言語モデル)とは対照的である。そこで本研究では,2次元画像に対する可変長トークン表現の学習手法を提案する。エンコーダ・デコーダアーキテクチャは、2D画像トークンを再帰的に処理し、繰り返しロールアウトを繰り返して1D潜在トークンに蒸留する。各イテレーションは2Dトークンを洗練し、既存の1D潜在トークンを更新し、新しいトークンを追加することで表現能力を適応的に向上する。これにより、32から256までの可変数のトークンに画像を圧縮することができる。我々は、再構成損失とFIDメトリクスを用いてトークン化を検証し、トークン数と画像エントロピー、親しみやすさ、下流タスク要求が一致していることを示す。各イテレーションにおける表現能力の増大を伴う反復トークン処理は、トークンの特殊化の兆候を示し、オブジェクト/部分発見の可能性を明らかにします。

関連論文リスト

Highly Compressed Tokenizer Can Generate Without Training [0.5033155053523042]
1D画像トークン化器は、画像を32個の離散トークンの高度に圧縮された1次元シーケンスとして表現する。ベクトル量子化による1次元トークン化器によって達成される高い圧縮により,画像の編集と生成が可能であることがわかった。本手法は, 画像編集における画像の塗り絵やテキストガイドに応用でき, 生成モデルの訓練を必要とせず, 多様な実例を生成できる。
論文参考訳（メタデータ） (2025-06-09T21:45:03Z)
Images are Worth Variable Length of Representations [13.136831256070343]
ほとんどの視覚エンコーダは、画像を固定長のトークン列にマッピングし、異なる画像が様々な量の情報を含んでいるという事実を見渡す。本稿では,動的視覚エンコーダであるDOVEを提案する。その結果,DOVEは高い復元品質を維持しつつ,平均トークン数を大幅に削減できることがわかった。
論文参考訳（メタデータ） (2025-06-04T07:40:33Z)
Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models [92.18057318458528]
Token-ShuffleはTransformerにおける画像トークンの数を減らす新しい方法である。我々の戦略は、事前訓練されたテキストエンコーダを必要とせず、MLLMが超高解像度画像合成をサポートできるようにする。 GenAIベンチマークでは、2.7Bモデルがハードプロンプトで0.77点、ARモデルLlamaGenが0.18点、拡散モデルLDMが0.15点である。
論文参考訳（メタデータ） (2025-04-24T17:59:56Z)
FlexTok: Resampling Images into 1D Token Sequences of Flexible Length [16.76602756308683]
可変長の1Dトークンシーケンスに2D画像を投影するトークンライザであるFlexTokを紹介する。簡単なGPT型変換器を用いて, 自己回帰生成設定によるアプローチの評価を行った。
論文参考訳（メタデータ） (2025-02-19T18:59:44Z)
Spectral Image Tokenizer [21.84385276311364]
Image tokenizersは、画像を個別のトークンのシーケンスにマップする。離散ウェーブレット変換(DWT)から得られる画像スペクトルのトークン化を提案する。我々はトークン化のメトリクスをマルチスケール画像生成、テキスト誘導画像アップサンプリング、編集として評価する。
論文参考訳（メタデータ） (2024-12-12T18:59:31Z)
ImageFolder: Autoregressive Image Generation with Folded Tokens [51.815319504939396]
トークン長の増大は、画像再構成の品質を改善するための一般的なアプローチである。トークン長に関する復元と生成品質の間にはトレードオフがある。本稿では,自己回帰モデルにおいて折り畳み可能な空間整列型画像トークンを提供するセマンティック・トークンライザであるイメージを提案する。
論文参考訳（メタデータ） (2024-10-02T17:06:39Z)
TCFormer: Visual Recognition via Token Clustering Transformer [79.24723479088097]
本稿では,意味に基づく動的視覚トークンを生成するToken Clustering Transformer (TCFormer)を提案する。ダイナミックトークンには2つの重要な特徴がある:(1)同じ視覚トークンを用いて類似の意味を持つ画像領域を表現し、(2)それらの領域が隣接していない場合でも、(2)貴重な詳細を持つ領域に集中し、細かなトークンを用いてそれらを表現する。
論文参考訳（メタデータ） (2024-07-16T02:26:18Z)
LeMeViT: Efficient Vision Transformer with Learnable Meta Tokens for Remote Sensing Image Interpretation [37.72775203647514]
本稿では,学習可能なメタトークンを用いてスパーストークンを定式化し,キー情報を効果的に学習し,推論速度を向上させることを提案する。視覚トークンが密集した早期にデュアル・クロス・アテンション(DCA)を用いることで,様々な大きさの階層型アーキテクチャLeMeViTが得られる。分類と密接な予測タスクの実験結果は、LeMeViTがベースラインモデルと比較して1.7倍のスピードアップ、少ないパラメータ、競争性能を持っていることを示している。
論文参考訳（メタデータ） (2024-05-16T03:26:06Z)
SA$^2$VP: Spatially Aligned-and-Adapted Visual Prompt [59.280491260635266]
視覚的プロンプトチューニングの方法は、NLPから派生した逐次モデリングパラダイムに従う。マイモデルモデルは、画像トークンマップに等しい大きさ(またはスケールした)の2次元プロンプトトークンマップを学習する。我々のモデルは、個々の画像トークンをきめ細かな方法でプロンプトすることができる。
論文参考訳（メタデータ） (2023-12-16T08:23:43Z)
ADDP: Learning General Representations for Image Recognition and Generation with Alternating Denoising Diffusion Process [94.41510903676837]
本稿では,2つの空間を1つの表現学習フレームワークに統合した交互デノナイジング拡散プロセス(ADDP)を提案する。復号化の各ステップでは、まず以前のVQトークンから画素をデコードし、次にデコードされたピクセルから新しいVQトークンを生成する。学習した表現は、多彩な高忠実度画像の生成や、認識タスクにおける優れた転送性能を示すために使用することができる。
論文参考訳（メタデータ） (2023-06-08T17:59:32Z)
Improving Visual Quality of Image Synthesis by A Token-based Generator with Transformers [51.581926074686535]
本稿では,このタスクを視覚的トークン生成問題とみなして,画像合成の新たな視点を示す。提案したTokenGANは、広く使われている画像合成ベンチマークで最先端の結果を得た。
論文参考訳（メタデータ） (2021-11-05T12:57:50Z)
ResT: An Efficient Transformer for Visual Recognition [5.807423409327807]
本稿では、画像認識のための汎用バックボーンとして機能する、ResTと呼ばれる効率的なマルチスケール視覚変換器を提案する。提案したResTは、最近の最先端のバックボーンよりも大きなマージンで、ResTの強力なバックボーンとしての可能性を示している。
論文参考訳（メタデータ） (2021-05-28T08:53:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。