論文の概要: Images are Worth Variable Length of Representations
- arxiv url: http://arxiv.org/abs/2506.03643v2
- Date: Thu, 05 Jun 2025 10:20:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 14:14:43.185112
- Title: Images are Worth Variable Length of Representations
- Title(参考訳): 画像は表現の可変長である
- Authors: Lingjun Mao, Rodolfo Corona, Xin Liang, Wenhao Yan, Zineng Tang,
- Abstract要約: ほとんどの視覚エンコーダは、画像を固定長のトークン列にマッピングし、異なる画像が様々な量の情報を含んでいるという事実を見渡す。
本稿では,動的視覚エンコーダであるDOVEを提案する。
その結果,DOVEは高い復元品質を維持しつつ,平均トークン数を大幅に削減できることがわかった。
- 参考スコア(独自算出の注目度): 13.136831256070343
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most existing vision encoders map images into a fixed-length sequence of tokens, overlooking the fact that different images contain varying amounts of information. For example, a visually complex image (e.g., a cluttered room) inherently carries more information and thus deserves more tokens than a simple image (e.g., a blank wall). To address this inefficiency, we propose DOVE, a dynamic vision encoder that produces a variable number of visual tokens (i.e., continuous representation vectors) to reconstruct each image. Our results show that DOVE significantly reduces the average number of tokens while maintaining high reconstruction quality. In several linear probing and downstream multimodal tasks, it outperforms existing autoencoder-based tokenization methods when using far fewer tokens, capturing more expressive semantic features compared to fixed-length encoding. We further extend DOVE with query-conditioned tokenization. By guiding the model to focus on query-relevant regions, it achieves more efficient and targeted semantic extraction. Our code and checkpoints are available at https://dove-encoder.github.io/dove-encoder.
- Abstract(参考訳): 既存の視覚エンコーダのほとんどは、画像を固定長のトークン列にマッピングし、異なる画像が様々な量の情報を含んでいるという事実を見渡している。
例えば、視覚的に複雑な画像(例えば、散らばった部屋)は本質的により多くの情報を持ち、単純な画像(例えば、空白の壁)よりも多くのトークンを必要とする。
この非効率性に対処するために,動的視覚エンコーダであるDOVEを提案する。
その結果,DOVEは高い復元品質を維持しつつ,平均トークン数を大幅に削減できることがわかった。
複数の線形探索および下流マルチモーダルタスクにおいて、より少ないトークンを使用する場合、既存のオートエンコーダベースのトークン化手法よりも優れ、固定長符号化よりも表現力のあるセマンティック特徴をキャプチャする。
さらに、クエリ条件付きトークン化でDOVEを拡張します。
クエリ関連領域にフォーカスするようにモデルを導くことで、より効率的でターゲットのセマンティック抽出を実現する。
私たちのコードとチェックポイントはhttps://dove-encoder.github.io/dove-encoder.ioで公開されています。
関連論文リスト
- Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models [92.18057318458528]
Token-ShuffleはTransformerにおける画像トークンの数を減らす新しい方法である。
我々の戦略は、事前訓練されたテキストエンコーダを必要とせず、MLLMが超高解像度画像合成をサポートできるようにする。
GenAIベンチマークでは、2.7Bモデルがハードプロンプトで0.77点、ARモデルLlamaGenが0.18点、拡散モデルLDMが0.15点である。
論文 参考訳(メタデータ) (2025-04-24T17:59:56Z) - Adaptive Length Image Tokenization via Recurrent Allocation [81.10081670396956]
現在の視覚システムは、情報内容に関わらず、画像に一定長の表現を割り当てている。
そこで本研究では,2次元画像に対する可変長トークン表現の学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-04T18:58:01Z) - ElasticTok: Adaptive Tokenization for Image and Video [109.75935878130582]
我々は、フレームを可変数のトークンに適応的にエンコードする、事前のフレームを条件付けするElasticTokを紹介する。
推論中、ElasticTokは必要に応じてトークンを動的に割り当てる。
画像とビデオに対する評価は,トークンの有効利用におけるアプローチの有効性を示すものである。
論文 参考訳(メタデータ) (2024-10-10T20:54:15Z) - ImageFolder: Autoregressive Image Generation with Folded Tokens [51.815319504939396]
トークン長の増大は、画像再構成の品質を改善するための一般的なアプローチである。
トークン長に関する復元と生成品質の間にはトレードオフがある。
本稿では,自己回帰モデルにおいて折り畳み可能な空間整列型画像トークンを提供するセマンティック・トークンライザであるイメージを提案する。
論文 参考訳(メタデータ) (2024-10-02T17:06:39Z) - TCFormer: Visual Recognition via Token Clustering Transformer [79.24723479088097]
本稿では,意味に基づく動的視覚トークンを生成するToken Clustering Transformer (TCFormer)を提案する。
ダイナミックトークンには2つの重要な特徴がある:(1)同じ視覚トークンを用いて類似の意味を持つ画像領域を表現し、(2)それらの領域が隣接していない場合でも、(2)貴重な詳細を持つ領域に集中し、細かなトークンを用いてそれらを表現する。
論文 参考訳(メタデータ) (2024-07-16T02:26:18Z) - HAAV: Hierarchical Aggregation of Augmented Views for Image Captioning [25.728621355173626]
本稿では,エンコーディングを入力画像の拡張ビューとみなす。
画像キャプションモデルは、共有エンコーダと独立して各ビューをエンコードする。
我々は,MS-COCOでは+5.6%,Flickr30kでは+12.9%の性能向上を示す。
論文 参考訳(メタデータ) (2023-05-25T17:50:17Z) - SparseFormer: Sparse Visual Recognition via Limited Latent Tokens [30.494412497158237]
本稿では,人間のスパース認識をエンドツーエンドに模倣する新しい手法であるスパースホルダーを提案する。
SparseFormerは画像空間上の高密度な操作の多くを回避し、計算コストを大幅に削減する。
ImageNet分類ベンチマークデータセットの実験では、SparseFormerは標準モデルや確立されたモデルと同等のパフォーマンスを達成している。
論文 参考訳(メタデータ) (2023-04-07T17:59:58Z) - Accurate Image Restoration with Attention Retractable Transformer [50.05204240159985]
画像復元のためのアテンション・リトラクタブル・トランス (ART) を提案する。
ARTはネットワーク内の密集モジュールと疎開モジュールの両方を提示する。
画像超解像、デノナイジング、JPEG圧縮アーティファクト削減タスクについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-10-04T07:35:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。