論文の概要: Images are Worth Variable Length of Representations
- arxiv url: http://arxiv.org/abs/2506.03643v1
- Date: Wed, 04 Jun 2025 07:40:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.197717
- Title: Images are Worth Variable Length of Representations
- Title(参考訳): 画像は表現の可変長である
- Authors: Lingjun Mao, Rodolfo Corona, Xin Liang, Wenhao Yan, Zineng Tang,
- Abstract要約: ほとんどの視覚エンコーダは、画像を固定長のトークン列にマッピングし、異なる画像が様々な量の情報を含んでいるという事実を見渡す。
本稿では,動的視覚エンコーダであるDOVEを提案する。
その結果,DOVEは高い復元品質を維持しつつ,平均トークン数を大幅に削減できることがわかった。
- 参考スコア(独自算出の注目度): 13.136831256070343
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most existing vision encoders map images into a fixed-length sequence of tokens, overlooking the fact that different images contain varying amounts of information. For example, a visually complex image (e.g., a cluttered room) inherently carries more information and thus deserves more tokens than a simple image (e.g., a blank wall). To address this inefficiency, we propose DOVE, a dynamic vision encoder that produces a variable number of visual tokens (i.e., continuous representation vectors) to reconstruct each image. Our results show that DOVE significantly reduces the average number of tokens while maintaining high reconstruction quality. In several linear probing and downstream multimodal tasks, it outperforms existing autoencoder-based tokenization methods when using far fewer tokens, capturing more expressive semantic features compared to fixed-length encoding. We further extend DOVE with query-conditioned tokenization. By guiding the model to focus on query-relevant regions, it achieves more efficient and targeted semantic extraction. Our code and checkpoints are available at https://dove-encoder.github.io/dove-encoder.
- Abstract(参考訳): 既存の視覚エンコーダのほとんどは、画像を固定長のトークン列にマッピングし、異なる画像が様々な量の情報を含んでいるという事実を見渡している。
例えば、視覚的に複雑な画像(例えば、散らばった部屋)は本質的により多くの情報を持ち、単純な画像(例えば、空白の壁)よりも多くのトークンを必要とする。
この非効率性に対処するために,動的視覚エンコーダであるDOVEを提案する。
その結果,DOVEは高い復元品質を維持しつつ,平均トークン数を大幅に削減できることがわかった。
複数の線形探索および下流マルチモーダルタスクにおいて、より少ないトークンを使用する場合、既存のオートエンコーダベースのトークン化手法よりも優れ、固定長符号化よりも表現力のあるセマンティック特徴をキャプチャする。
さらに、クエリ条件付きトークン化でDOVEを拡張します。
クエリ関連領域にフォーカスするようにモデルを導くことで、より効率的でターゲットのセマンティック抽出を実現する。
私たちのコードとチェックポイントはhttps://dove-encoder.github.io/dove-encoder.ioで公開されています。
関連論文リスト
- Adaptive Length Image Tokenization via Recurrent Allocation [81.10081670396956]
現在の視覚システムは、情報内容に関わらず、画像に一定長の表現を割り当てている。
そこで本研究では,2次元画像に対する可変長トークン表現の学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-04T18:58:01Z) - ElasticTok: Adaptive Tokenization for Image and Video [109.75935878130582]
我々は、フレームを可変数のトークンに適応的にエンコードする、事前のフレームを条件付けするElasticTokを紹介する。
推論中、ElasticTokは必要に応じてトークンを動的に割り当てる。
画像とビデオに対する評価は,トークンの有効利用におけるアプローチの有効性を示すものである。
論文 参考訳(メタデータ) (2024-10-10T20:54:15Z) - ImageFolder: Autoregressive Image Generation with Folded Tokens [51.815319504939396]
トークン長の増大は、画像再構成の品質を改善するための一般的なアプローチである。
トークン長に関する復元と生成品質の間にはトレードオフがある。
本稿では,自己回帰モデルにおいて折り畳み可能な空間整列型画像トークンを提供するセマンティック・トークンライザであるイメージを提案する。
論文 参考訳(メタデータ) (2024-10-02T17:06:39Z) - HAAV: Hierarchical Aggregation of Augmented Views for Image Captioning [25.728621355173626]
本稿では,エンコーディングを入力画像の拡張ビューとみなす。
画像キャプションモデルは、共有エンコーダと独立して各ビューをエンコードする。
我々は,MS-COCOでは+5.6%,Flickr30kでは+12.9%の性能向上を示す。
論文 参考訳(メタデータ) (2023-05-25T17:50:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。