論文の概要: CAT: Content-Adaptive Image Tokenization
- arxiv url: http://arxiv.org/abs/2501.03120v1
- Date: Mon, 06 Jan 2025 16:28:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:06:55.267178
- Title: CAT: Content-Adaptive Image Tokenization
- Title(参考訳): CAT:コンテンツ適応型画像トークン化
- Authors: Junhong Shen, Kushal Tirumala, Michihiro Yasunaga, Ishan Misra, Luke Zettlemoyer, Lili Yu, Chunting Zhou,
- Abstract要約: 本稿では,CAT(Content-Adaptive Tokenizer)を導入し,画像の内容に基づいて表現能力を調整し,より単純な画像をより少ないトークンにエンコードする。
本研究では,大容量言語モデル(LLM)を利用したキャプションベース評価システムの設計を行い,コンテントの複雑さを予測し,与えられた画像に対する最適な圧縮比を決定する。
トークン割り当てを最適化することで、CATは同じフロップでトレーニングされた固定比率ベースラインよりもFIDスコアを改善し、推論スループットを18.5%向上させる。
- 参考スコア(独自算出の注目度): 92.2116487267877
- License:
- Abstract: Most existing image tokenizers encode images into a fixed number of tokens or patches, overlooking the inherent variability in image complexity. To address this, we introduce Content-Adaptive Tokenizer (CAT), which dynamically adjusts representation capacity based on the image content and encodes simpler images into fewer tokens. We design a caption-based evaluation system that leverages large language models (LLMs) to predict content complexity and determine the optimal compression ratio for a given image, taking into account factors critical to human perception. Trained on images with diverse compression ratios, CAT demonstrates robust performance in image reconstruction. We also utilize its variable-length latent representations to train Diffusion Transformers (DiTs) for ImageNet generation. By optimizing token allocation, CAT improves the FID score over fixed-ratio baselines trained with the same flops and boosts the inference throughput by 18.5%.
- Abstract(参考訳): ほとんどの既存の画像トークンエーザは、画像の複雑さの固有の変数を見越して、イメージを固定数のトークンやパッチにエンコードしている。
これを解決するために、画像コンテンツに基づいて表現能力を動的に調整し、より単純な画像をより少ないトークンにエンコードするContent-Adaptive Tokenizer (CAT)を導入する。
本研究では,大言語モデル(LLM)を利用したキャプションベース評価システムの設計を行い,人間の知覚に重要な要因を考慮し,コンテンツの複雑さを予測し,与えられた画像に対する最適な圧縮比を決定する。
CATは様々な圧縮比を持つ画像に基づいて訓練され、画像再構成において堅牢な性能を示す。
また、可変長潜在表現を用いて、画像ネット生成のための拡散変換器(DiT)を訓練する。
トークン割り当てを最適化することで、CATは同じフロップでトレーニングされた固定比率ベースラインよりもFIDスコアを改善し、推論スループットを18.5%向上させる。
関連論文リスト
- ImageFolder: Autoregressive Image Generation with Folded Tokens [51.815319504939396]
トークン長の増大は、画像再構成の品質を改善するための一般的なアプローチである。
トークン長に関する復元と生成品質の間にはトレードオフがある。
本稿では,自己回帰モデルにおいて折り畳み可能な空間整列型画像トークンを提供するセマンティック・トークンライザであるイメージを提案する。
論文 参考訳(メタデータ) (2024-10-02T17:06:39Z) - FRAP: Faithful and Realistic Text-to-Image Generation with Adaptive Prompt Weighting [18.708185548091716]
FRAPは、画像毎のプロンプト重み付けを適応的に調整し、生成した画像の即時アライメントと認証を改善するための、シンプルで効果的なアプローチである。
FRAPは、複雑なデータセットからのプロンプトに対して、プロンプト画像のアライメントが著しく高い画像を生成する。
また, FRAPとLPMの即時書き直しを併用して, 劣化した即時画像のアライメントを復元する方法について検討した。
論文 参考訳(メタデータ) (2024-08-21T15:30:35Z) - DiT: Efficient Vision Transformers with Dynamic Token Routing [37.808078064528374]
ダイナミックビジョン変換器における画像トークンのルーティング経路を詳細化するために,データ依存型トークンルーティング方式を提案し,これをDiTと呼ぶ。
提案するフレームワークは,トークン単位のデータ依存パスを生成し,オブジェクトのスケールやトークンの視覚的識別に適応する。
実験では、画像ネット分類、オブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーションにおける多くのSoTA手法よりも優れた性能と良好な複雑性/精度トレードオフを実現している。
論文 参考訳(メタデータ) (2023-08-07T08:55:48Z) - HAAV: Hierarchical Aggregation of Augmented Views for Image Captioning [25.728621355173626]
本稿では,エンコーディングを入力画像の拡張ビューとみなす。
画像キャプションモデルは、共有エンコーダと独立して各ビューをエンコードする。
我々は,MS-COCOでは+5.6%,Flickr30kでは+12.9%の性能向上を示す。
論文 参考訳(メタデータ) (2023-05-25T17:50:17Z) - DynaST: Dynamic Sparse Transformer for Exemplar-Guided Image Generation [56.514462874501675]
本稿では,動的スパースアテンションに基づくトランスフォーマーモデルを提案する。
このアプローチの核心は、ある位置がフォーカスすべき最適なトークン数の変化をカバーすることに特化した、新しいダイナミックアテンションユニットです。
3つの応用、ポーズ誘導型人物画像生成、エッジベース顔合成、歪みのない画像スタイル転送の実験により、DynaSTは局所的な詳細において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2022-07-13T11:12:03Z) - XCiT: Cross-Covariance Image Transformers [73.33400159139708]
本稿では,トークンではなく機能チャネルをまたいで機能する自己注意の「伝達」バージョンを提案する。
その結果、XCAはトークン数に線形複雑さを持ち、高解像度画像の効率的な処理を可能にする。
論文 参考訳(メタデータ) (2021-06-17T17:33:35Z) - Scalable Visual Transformers with Hierarchical Pooling [61.05787583247392]
本稿では,視覚的トークンを徐々にプールしてシーケンス長を縮小する階層的ビジュアルトランスフォーマ(hvt)を提案する。
計算の複雑さを増すことなく、深さ/幅/解像度/パッチサイズの寸法をスケールすることで、大きなメリットをもたらします。
当社のHVTはImageNetとCIFAR-100データセットの競合ベースラインを上回っています。
論文 参考訳(メタデータ) (2021-03-19T03:55:58Z) - Generating Images with Sparse Representations [21.27273495926409]
画像の高次元化は、確率に基づく生成モデルのアーキテクチャとサンプリング効率の課題を示す。
JPEGのような一般的な画像圧縮法に触発された代替手法を提示し、画像を量子化された離散コサイン変換(DCT)ブロックに変換する。
本稿では,次の要素の条件分布を逐次的に予測するトランスフォーマに基づく自己回帰型アーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-03-05T17:56:03Z) - Visual Transformers: Token-based Image Representation and Processing for
Computer Vision [67.55770209540306]
Visual Transformer (VT) はセマンティックトークン空間で動作し、コンテキストに基づいて異なる画像部品に任意に参加する。
高度なトレーニングレシピを使うことで、私たちのVTは畳み込みよりも大幅に優れています。
LIPとCOCO-stuffのセマンティックセグメンテーションでは、VTベースの特徴ピラミッドネットワーク(FPN)は、FPNモジュールのFLOPを6.5倍減らしながら、mIoUの0.35ポイントを達成している。
論文 参考訳(メタデータ) (2020-06-05T20:49:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。