論文の概要: TokBench: Evaluating Your Visual Tokenizer before Visual Generation
- arxiv url: http://arxiv.org/abs/2505.18142v1
- Date: Fri, 23 May 2025 17:52:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:34.262354
- Title: TokBench: Evaluating Your Visual Tokenizer before Visual Generation
- Title(参考訳): TokBench: ビジュアルジェネレータをビジュアルジェネレーション前に評価する
- Authors: Junfeng Wu, Dongliang Luo, Weizhi Zhao, Zhihao Xie, Yuanhao Wang, Junyi Li, Xudong Xie, Yuliang Liu, Xiang Bai,
- Abstract要約: テキストと顔の再構成の質を,様々な画像トークンやVAEで分析する。
以上の結果から,現代の視覚トークン化器は細粒度の特徴,特に小型化に苦慮していることが明らかとなった。
- 参考スコア(独自算出の注目度): 75.38270351179018
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we reveal the limitations of visual tokenizers and VAEs in preserving fine-grained features, and propose a benchmark to evaluate reconstruction performance for two challenging visual contents: text and face. Image tokenization has significantly advanced visual generation and multimodal modeling, particularly with autoregressive models due to the modeling simplicity of discrete tokens. Autoregressive models typically rely on image tokenizers to compress images into discrete tokens for sequential prediction, whereas diffusion models often operate on continuous latent space to reduce computational costs. However, both visual compression approaches inevitably lose visual information, thereby limiting the upper bound of visual generation quality. To evaluate how these compression losses affect text and faces, the most human-sensitive visual elements, we first collect and curate a collection of text and faces images from existing datasets, ensuring clarity and diversity. For text reconstruction, we employ OCR models to assess the recognition accuracy of the reconstructed text, and then we measure feature similarity between original and reconstructed faces thereby quantifying faces reconstruction fidelity. Our method is highly lightweight, requiring just 2GB memory and 4 minutes to complete evaluations. With our benchmark, we analyze the reconstruction quality of text and faces at various scales across different image tokenizers and VAEs. Our results demonstrate that modern visual tokenizers still struggle to preserve fine-grained features, particularly at smaller scales. Furthermore, we extend this evaluation framework to the video, conducting a comprehensive analysis of video tokenizers. Additionally, we find that traditional metrics fail to accurately reflect the reconstruction performance for faces and text, while our proposed metrics serve as an effective complement.
- Abstract(参考訳): 本研究では,細かな特徴の保存における視覚トークン化とVAEの限界を明らかにするとともに,テキストと顔の2つの難解な視覚コンテンツに対する再構成性能を評価するためのベンチマークを提案する。
画像トークン化は視覚生成とマルチモーダルモデリングを著しく進歩させており、特に離散トークンのモデリングの単純さから自己回帰モデルを用いている。
自己回帰モデルは典型的には画像トークン化器に頼って画像を逐次予測のために離散トークンに圧縮するが、拡散モデルは計算コストを削減するために連続的な潜在空間で動作することが多い。
しかし、どちらのビジュアル圧縮手法も必然的に視覚情報を失うため、視覚生成品質の上限が制限される。
これらの圧縮損失がテキストや顔にどのように影響するかを評価するために、私たちはまず、既存のデータセットからテキストや顔画像の収集とキュレーションを行い、明瞭さと多様性を保証する。
テキスト再構成では,再構成されたテキストの認識精度を評価するためにOCRモデルを使用し,元の顔と再構成された顔の特徴的類似度を測定し,顔の再構成忠実度を定量化する。
提案手法は軽量で,2GBのメモリと4分で評価が完了する。
本ベンチマークでは,テキストと顔の再構成の質を,異なる画像トークンやVAEにまたがる様々なスケールで分析する。
以上の結果から,現代の視覚トークン化器は細粒度の特徴,特に小型化に苦慮していることが明らかとなった。
さらに,この評価フレームワークをビデオに拡張し,ビデオトークンの包括的解析を行う。
さらに、従来のメトリクスは顔やテキストの復元性能を正確に反映しないが、提案メトリクスは効果的な補完となる。
関連論文リスト
- Perceive, Understand and Restore: Real-World Image Super-Resolution with Autoregressive Multimodal Generative Models [33.76031793753807]
我々は、自己回帰型マルチモーダルモデルLumina-mGPTを堅牢なReal-ISRモデル、すなわちPUREに適応する。
PUREは入力された低画質の画像を認識して理解し、高品質の画像を復元する。
実験により、PUREはリアルな細部を生成しながら、画像の内容を保存していることが示された。
論文 参考訳(メタデータ) (2025-03-14T04:33:59Z) - "Principal Components" Enable A New Language of Images [79.45806370905775]
証明可能なPCAのような構造を潜在トークン空間に組み込む新しい視覚トークン化フレームワークを導入する。
提案手法は、最先端の再構築性能を実現し、人間の視覚システムとの整合性を向上する。
論文 参考訳(メタデータ) (2025-03-11T17:59:41Z) - Frequency Autoregressive Image Generation with Continuous Tokens [31.833852108014312]
本稿では、周波数プログレッシブ自己回帰(textbfFAR)パラダイムを導入し、連続トークン化器を用いてFARをインスタンス化する。
我々は、ImageNetデータセットの総合的な実験を通して、FARの有効性を実証する。
論文 参考訳(メタデータ) (2025-03-07T10:34:04Z) - KITTEN: A Knowledge-Intensive Evaluation of Image Generation on Visual Entities [93.74881034001312]
テキスト・画像生成モデルにおける実体の忠実度に関する系統的研究を行う。
我々はランドマークの建物、航空機、植物、動物など、幅広い現実世界の視覚的実体を生成する能力に焦点をあてる。
その結果、最も高度なテキスト・画像モデルでさえ、正確な視覚的詳細を持つエンティティを生成できないことが判明した。
論文 参考訳(メタデータ) (2024-10-15T17:50:37Z) - Towards Retrieval-Augmented Architectures for Image Captioning [81.11529834508424]
本研究は,外部kNNメモリを用いた画像キャプションモデルの構築に向けた新しい手法を提案する。
具体的には、視覚的類似性に基づく知識検索コンポーネントを組み込んだ2つのモデル変種を提案する。
我々はCOCOデータセットとnocapsデータセットに対する我々のアプローチを実験的に検証し、明示的な外部メモリを組み込むことでキャプションの品質を著しく向上させることができることを示した。
論文 参考訳(メタデータ) (2024-05-21T18:02:07Z) - Dynamic Visual Semantic Sub-Embeddings and Fast Re-Ranking [0.5242869847419834]
情報エントロピーを低減するために動的ビジュアルセマンティックサブエンベッドディングフレームワーク(DVSE)を提案する。
生成した候補埋め込みに様々な意味的変動を捉えるよう促すため,混合分布を構築した。
3つのベンチマークデータセット上の4つの画像特徴エンコーダと2つのテキスト特徴エンコーダを用いて,既存のセットベース手法と比較した。
論文 参考訳(メタデータ) (2023-09-15T04:39:11Z) - Training-free Diffusion Model Adaptation for Variable-Sized
Text-to-Image Synthesis [45.19847146506007]
拡散モデル(DM)は近年,テキスト・画像合成における最先端性能に注目されている。
本稿では,視覚的忠実度を維持しながら多彩性を扱うためにテキスト・画像拡散モデルを適用することに焦点を当てる。
論文 参考訳(メタデータ) (2023-06-14T17:23:07Z) - Re-Imagen: Retrieval-Augmented Text-to-Image Generator [58.60472701831404]
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
論文 参考訳(メタデータ) (2022-09-29T00:57:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。