論文の概要: End-to-End Vision Tokenizer Tuning
- arxiv url: http://arxiv.org/abs/2505.10562v1
- Date: Thu, 15 May 2025 17:59:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-16 22:29:06.462237
- Title: End-to-End Vision Tokenizer Tuning
- Title(参考訳): End-to-End Vision Tokenizer Tuning
- Authors: Wenxuan Wang, Fan Zhang, Yufeng Cui, Haiwen Diao, Zhuoyan Luo, Huchuan Lu, Jing Liu, Xinlong Wang,
- Abstract要約: 低レベルの再構築のために最適化された視覚トークンーは、様々な表現と意味論を必要とする下流タスクである。
視覚トークン化の損失は、ターゲットタスクの表現ボトルネックになる可能性がある。
本研究では,視覚トークン化と目標自己回帰タスクを協調的に最適化するエンド・ツー・エンドの視覚トークン化チューニング手法であるETTを提案する。
- 参考スコア(独自算出の注目度): 73.3065542220568
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing vision tokenization isolates the optimization of vision tokenizers from downstream training, implicitly assuming the visual tokens can generalize well across various tasks, e.g., image generation and visual question answering. The vision tokenizer optimized for low-level reconstruction is agnostic to downstream tasks requiring varied representations and semantics. This decoupled paradigm introduces a critical misalignment: The loss of the vision tokenization can be the representation bottleneck for target tasks. For example, errors in tokenizing text in a given image lead to poor results when recognizing or generating them. To address this, we propose ETT, an end-to-end vision tokenizer tuning approach that enables joint optimization between vision tokenization and target autoregressive tasks. Unlike prior autoregressive models that use only discrete indices from a frozen vision tokenizer, ETT leverages the visual embeddings of the tokenizer codebook, and optimizes the vision tokenizers end-to-end with both reconstruction and caption objectives. ETT can be seamlessly integrated into existing training pipelines with minimal architecture modifications. Our ETT is simple to implement and integrate, without the need to adjust the original codebooks or architectures of the employed large language models. Extensive experiments demonstrate that our proposed end-to-end vision tokenizer tuning unlocks significant performance gains, i.e., 2-6% for multimodal understanding and visual generation tasks compared to frozen tokenizer baselines, while preserving the original reconstruction capability. We hope this very simple and strong method can empower multimodal foundation models besides image generation and understanding.
- Abstract(参考訳): 既存の視覚トークン化は、視覚トークン化の最適化を下流トレーニングから切り離し、視覚トークンが様々なタスク、例えば画像生成や視覚質問応答でうまく一般化できると暗黙的に仮定する。
低レベルの再構築に最適化された視覚トークンは、様々な表現と意味論を必要とする下流タスクに非依存である。
視覚トークン化の喪失は、ターゲットタスクの表現ボトルネックとなり得る。
例えば、ある画像中のテキストのトークン化のエラーは、それらを認識したり、生成したりすると、結果の低さにつながる。
そこで本研究では,視覚トークン化と目標自己回帰タスクを協調的に最適化するエンド・ツー・エンドの視覚トークン化チューニング手法であるETTを提案する。
凍結した視覚トークン化装置からの離散的な指標のみを使用する従来の自己回帰モデルとは異なり、ETTはトークン化器のコードブックの視覚的埋め込みを活用し、再構築とキャプションの目的の両方で視覚トークン化器をエンドツーエンドに最適化する。
ETTは、最小限のアーキテクチャ修正で、既存のトレーニングパイプラインにシームレスに統合できる。
我々のETTは実装と統合が簡単で、採用されている大規模言語モデルのオリジナルのコードブックやアーキテクチャを調整する必要がなくなります。
大規模な実験により,提案手法は,凍結したトークン化器ベースラインと比較して,マルチモーダル理解および視覚生成タスクにおいて2-6%の大幅な性能向上を達成し,元の再構築能力を維持した。
この非常にシンプルで強力な手法が、画像生成と理解の他に、マルチモーダル基盤モデルの強化を期待する。
関連論文リスト
- "Principal Components" Enable A New Language of Images [79.45806370905775]
証明可能なPCAのような構造を潜在トークン空間に組み込む新しい視覚トークン化フレームワークを導入する。
提案手法は、最先端の再構築性能を実現し、人間の視覚システムとの整合性を向上する。
論文 参考訳(メタデータ) (2025-03-11T17:59:41Z) - Efficient Multi-modal Large Language Models via Visual Token Grouping [55.482198808206284]
高解像度の画像やビデオは、彼らの広く普及するための障壁となる。
MLLMにおける視覚トークンの圧縮は、推論コストを削減するための有望なアプローチとして現れている。
本稿では,事前学習した視覚エンコーダの能力を利用して類似画像セグメントをグループ化する,新たなグループ化機構であるVisToGを紹介する。
論文 参考訳(メタデータ) (2024-11-26T09:36:02Z) - Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - Calibrated Self-Rewarding Vision Language Models [27.686545023186852]
LVLM(Large Vision-Language Models)は、訓練済みの大規模言語モデル(LLM)と視覚モデルを統合することで、指導チューニングを通じて大幅に進歩した。
LVLMは、しばしば幻覚現象を示し、生成されたテキスト応答は言語的に妥当に見えるが、入力画像に矛盾する。
本稿では,候補応答を反復的に生成し,各応答に対する報酬を評価し,微調整のための選好データをキュレートすることで,モデルの自己改善を可能にするCalibrated Self-Rewarding(CSR)アプローチを提案する。
論文 参考訳(メタデータ) (2024-05-23T14:30:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。