論文の概要: VTBench: Evaluating Visual Tokenizers for Autoregressive Image Generation
- arxiv url: http://arxiv.org/abs/2505.13439v1
- Date: Mon, 19 May 2025 17:59:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.803837
- Title: VTBench: Evaluating Visual Tokenizers for Autoregressive Image Generation
- Title(参考訳): VTBench: 自動回帰画像生成のための視覚トケナイザの評価
- Authors: Huawei Lin, Tong Geng, Zhaozhuo Xu, Weijie Zhao,
- Abstract要約: 視覚トークン化器(VT)は連続した画素入力を離散トークンシーケンスにマッピングする。
現在の離散VTは連続的変分オートエンコーダ(VAE)に大きく遅れており、画像再構成の劣化と細部やテキストの保存不良につながる。
既存のベンチマークでは、VTパフォーマンスを分離することなく、エンドツーエンドの世代品質に重点を置いている。
VTBenchは、画像再構成、詳細保存、テキスト保存の3つのコアタスクに対して、VTを体系的に評価する包括的なベンチマークである。
- 参考スコア(独自算出の注目度): 11.529598741483076
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autoregressive (AR) models have recently shown strong performance in image generation, where a critical component is the visual tokenizer (VT) that maps continuous pixel inputs to discrete token sequences. The quality of the VT largely defines the upper bound of AR model performance. However, current discrete VTs fall significantly behind continuous variational autoencoders (VAEs), leading to degraded image reconstructions and poor preservation of details and text. Existing benchmarks focus on end-to-end generation quality, without isolating VT performance. To address this gap, we introduce VTBench, a comprehensive benchmark that systematically evaluates VTs across three core tasks: Image Reconstruction, Detail Preservation, and Text Preservation, and covers a diverse range of evaluation scenarios. We systematically assess state-of-the-art VTs using a set of metrics to evaluate the quality of reconstructed images. Our findings reveal that continuous VAEs produce superior visual representations compared to discrete VTs, particularly in retaining spatial structure and semantic detail. In contrast, the degraded representations produced by discrete VTs often lead to distorted reconstructions, loss of fine-grained textures, and failures in preserving text and object integrity. Furthermore, we conduct experiments on GPT-4o image generation and discuss its potential AR nature, offering new insights into the role of visual tokenization. We release our benchmark and codebase publicly to support further research and call on the community to develop strong, general-purpose open-source VTs.
- Abstract(参考訳): 自動回帰(AR)モデルは画像生成において高い性能を示しており、重要なコンポーネントは連続したピクセル入力を離散トークンシーケンスにマッピングする視覚トークン化器(VT)である。
VTの品質はARモデルの性能の上限を大きく定義している。
しかし、現在の離散VTは連続的変分オートエンコーダ (VAE) よりも著しく遅れており、画像再構成の劣化と細部やテキストの保存不良につながっている。
既存のベンチマークでは、VTパフォーマンスを分離することなく、エンドツーエンドの世代品質に重点を置いている。
このギャップに対処するために、画像再構成、詳細保存、テキスト保存という3つのコアタスクでVTを体系的に評価する包括的なベンチマークであるVTBenchを導入し、さまざまな評価シナリオをカバーする。
再建画像の品質を評価するために,一組のメトリクスを用いて最先端のVTを体系的に評価する。
この結果から,連続型VAEは離散型VTよりも優れた視覚表現を生じ,特に空間構造や意味的詳細を保っていることが明らかとなった。
対照的に、離散的なVTによって生成された劣化した表現は、しばしば歪んだ再構成、きめ細かいテクスチャの喪失、テキストとオブジェクトの整合性の維持の失敗につながる。
さらに、GPT-4o画像生成実験を行い、その潜在的なAR特性について考察し、視覚的トークン化の役割に関する新たな洞察を提供する。
私たちはベンチマークとコードベースを公開し、コミュニティに強力な汎用のオープンソースVTを開発するよう呼びかけています。
関連論文リスト
- Assessing Brittleness of Image-Text Retrieval Benchmarks from Vision-Language Models Perspective [44.045767657945895]
画像テキスト検索(ITR)評価パイプラインの脆性について,概念的粒度に着目して検討した。
ゼロショット条件下では,標準データセットと細粒度データセットの両方に対して,最先端のビジョンランゲージモデルを4種類評価する。
その結果、摂動は一般的にモデル性能を劣化させるが、粒度の細かいデータセットは標準のデータセットよりもパフォーマンスの低下が小さいことが示された。
論文 参考訳(メタデータ) (2024-07-21T18:08:44Z) - SSP-IR: Semantic and Structure Priors for Diffusion-based Realistic Image Restoration [20.873676111265656]
SSP-IRは、低画質の画像からセマンティックと構造をフル活用することを目的としている。
提案手法は,合成および実世界のデータセットにおいて,他の最先端手法よりも優れる。
論文 参考訳(メタデータ) (2024-07-04T04:55:14Z) - Towards Evaluating the Robustness of Visual State Space Models [63.14954591606638]
視覚状態空間モデル(VSSM)は視覚知覚タスクにおいて顕著な性能を示した。
しかし、自然と敵対的な摂動の下での頑丈さは依然として重要な懸念事項である。
様々な摂動シナリオ下でのVSSMの頑健さを総合的に評価する。
論文 参考訳(メタデータ) (2024-06-13T17:59:44Z) - Benchmarking and Improving Bird's Eye View Perception Robustness in Autonomous Driving [55.93813178692077]
本稿では,BEVアルゴリズムのレジリエンスを評価するためのベンチマークスイートであるRoboBEVを紹介する。
検出,マップセグメンテーション,深さ推定,占有予測といったタスクにまたがる33の最先端のBEVベースの知覚モデルを評価する。
また, 事前学習や深度自由なBEVトランスフォーメーションなどの戦略が, アウト・オブ・ディストリビューションデータに対するロバスト性を高める上で有効であることを示す。
論文 参考訳(メタデータ) (2024-05-27T17:59:39Z) - Denoising Vision Transformers [43.03068202384091]
本稿では、DVT(Denoising Vision Transformers)と呼ばれる2段階のDenoisingアプローチを提案する。
第1段階では、画像ごとのニューラルネットワークとの横断的な特徴整合を強制することにより、位置的アーティファクトによって汚染されたものからクリーンな特徴を分離する。
第2段階では、クリーンな特徴を生のViT出力から予測するために軽量なトランスフォーマーブロックを訓練し、クリーンな特徴の導出推定を監督として活用する。
論文 参考訳(メタデータ) (2024-01-05T18:59:52Z) - Generative Negative Text Replay for Continual Vision-Language
Pretraining [95.2784858069843]
視覚言語による事前学習が近年注目を集めている。
大量のデータは、通常ストリーミング形式で収集される。
本稿では,画像とテキスト間のマルチモーダルな知識蒸留手法を提案する。
論文 参考訳(メタデータ) (2022-10-31T13:42:21Z) - A Comprehensive Study of Vision Transformers on Dense Prediction Tasks [10.013443811899466]
畳み込みニューラルネットワーク(CNN)がビジョンタスクの標準選択である。
近年の研究では、オブジェクト検出やセマンティックセグメンテーションといった課題において、視覚変換器(VT)が同等の性能を発揮することが示されている。
このことは、それらの一般化可能性、堅牢性、信頼性、複雑なタスクの特徴を抽出するときにテクスチャバイアスについていくつかの疑問を投げかける。
論文 参考訳(メタデータ) (2022-01-21T13:18:16Z) - Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。
我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。
ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文 参考訳(メタデータ) (2021-05-21T17:59:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。