論文の概要: V2Flow: Unifying Visual Tokenization and Large Language Model Vocabularies for Autoregressive Image Generation
- arxiv url: http://arxiv.org/abs/2503.07493v1
- Date: Mon, 10 Mar 2025 16:12:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 18:54:25.646062
- Title: V2Flow: Unifying Visual Tokenization and Large Language Model Vocabularies for Autoregressive Image Generation
- Title(参考訳): V2Flow: 自動回帰画像生成のための視覚的トークン化と大規模言語モデル語彙の統合
- Authors: Guiwei Zhang, Tianyu Zhang, Mohan Zhou, Yalong Bai, Biye Li,
- Abstract要約: 本稿では,高忠実度再構成が可能な離散的な視覚トークンを生成する新しいトークン化ツールV2Flowを提案する。
V2Flowは、既存の言語モデルの上に自動回帰ビジュアル生成を可能にする。
- 参考スコア(独自算出の注目度): 20.436493280226337
- License:
- Abstract: We propose V2Flow, a novel tokenizer that produces discrete visual tokens capable of high-fidelity reconstruction, while ensuring structural and latent distribution alignment with the vocabulary space of large language models (LLMs). Leveraging this tight visual-vocabulary coupling, V2Flow enables autoregressive visual generation on top of existing LLMs. Our approach formulates visual tokenization as a flow-matching problem, aiming to learn a mapping from a standard normal prior to the continuous image distribution, conditioned on token sequences embedded within the LLMs vocabulary space. The effectiveness of V2Flow stems from two core designs. First, we propose a Visual Vocabulary resampler, which compresses visual data into compact token sequences, with each represented as a soft categorical distribution over LLM's vocabulary. This allows seamless integration of visual tokens into existing LLMs for autoregressive visual generation. Second, we present a masked autoregressive Rectified-Flow decoder, employing a masked transformer encoder-decoder to refine visual tokens into contextually enriched embeddings. These embeddings then condition a dedicated velocity field for precise reconstruction. Additionally, an autoregressive rectified-flow sampling strategy is incorporated, ensuring flexible sequence lengths while preserving competitive reconstruction quality. Extensive experiments show that V2Flow outperforms mainstream VQ-based tokenizers and facilitates autoregressive visual generation on top of existing. https://github.com/zhangguiwei610/V2Flow
- Abstract(参考訳): 大規模言語モデル (LLM) の語彙空間と構造的および潜在的分布の整合性を確保しつつ、高忠実度再構成が可能な離散的視覚トークンを生成する新しいトークンであるV2Flowを提案する。
この厳密な視覚-語彙結合を活用して、V2Flowは既存のLLMの上に自動回帰視覚生成を可能にする。
本稿では,LLM 語彙空間内に埋め込まれたトークンシーケンスを条件に,連続的な画像分布に先立って標準正規分布からマッピングを学習することを目的とした,フローマッチング問題として視覚的トークン化を定式化する。
V2Flowの有効性は、2つのコア設計に由来する。
まず,視覚データをコンパクトなトークン列に圧縮するビジュアル語彙再サンプリング手法を提案する。
これにより、視覚トークンを既存のLCMにシームレスに統合し、自動回帰視覚生成を行うことができる。
次に,マスク付き自己回帰型Rectified-Flowデコーダを提案する。
これらの埋め込みは、正確な再構成のために専用の速度場を条件付ける。
また、自己回帰正流サンプリング戦略が組み込まれ、フレキシブルなシーケンス長を確保しつつ、競合する再構成品質を維持している。
大規模な実験により、V2Flowは主流のVQベースのトークン化器より優れており、既存のVQの上に自己回帰視覚生成を促進することが示されている。
https://github.com/zhangguiwei610/V2Flow
関連論文リスト
- VASparse: Towards Efficient Visual Hallucination Mitigation for Large Vision-Language Model via Visual-Aware Sparsification [44.97217246897902]
LVLM(Large Vision-Language Models)は、視覚幻覚(VH)としても知られる、現実に忠実でない出力を生成する。
Visual-Aware Sparsification (VASparse) を用いた効率的なプラグアンドプレイデコーディングアルゴリズムを提案する。
VHを緩和し、競争力のある復号速度を維持しながら、VASparseは最先端の性能を達成する。
論文 参考訳(メタデータ) (2025-01-11T14:09:34Z) - Factorized Visual Tokenization and Generation [37.56136469262736]
本稿では,大規模なコードブックを複数の独立したサブコードブックに分解することで,VQベースのトークン化を活性化する新しい手法であるFacterized Quantization(FQ)を紹介する。
このファクター化は、大規模なコードブックのルックアップの複雑さを低減し、より効率的でスケーラブルなビジュアルトークン化を可能にします。
実験により,提案したFQGANモデルにより,視覚トークンの再現品質が大幅に向上し,最先端の性能が達成された。
論文 参考訳(メタデータ) (2024-11-25T18:59:53Z) - SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object Segmentation [72.90144343056227]
ビデオ理解タスクのためのテキスト・ツー・ビデオ拡散モデル(T2V)から生成した視覚的表現について検討する。
固定されたT2Vモデル上に構築された専用コンポーネントを備えた新しいフレームワーク「VD-IT」を紹介する。
我々のVD-ITは、既存の最先端手法を超越して、非常に競争力のある結果を得る。
論文 参考訳(メタデータ) (2024-03-18T17:59:58Z) - Language Model Beats Diffusion -- Tokenizer is Key to Visual Generation [122.63617171522316]
大規模言語モデル(LLM)は、言語における生成タスクの主要なモデルである。
本稿では,ビデオと画像の両方に対して簡潔かつ表現力のあるトークンを生成するために設計されたビデオトークンライザMAGVIT-v2を紹介する。
論文 参考訳(メタデータ) (2023-10-09T14:10:29Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - Character-Centric Story Visualization via Visual Planning and Token
Alignment [53.44760407148918]
ストーリービジュアライゼーションは、完全なストーリーに基づいた複数の画像生成を可能にすることによって、従来のテキスト・画像生成を前進させる。
一貫性のあるストーリービジュアライゼーションの主な課題は、ストーリーに不可欠な文字を保存することです。
本稿では,Vector-Quantized Variational Autoencoderをテキスト・tovisual-tokenアーキテクチャで拡張する最近の研究に適応することを提案する。
論文 参考訳(メタデータ) (2022-10-16T06:50:39Z) - Single-Stream Multi-Level Alignment for Vision-Language Pretraining [103.09776737512078]
モーダルを複数のレベルで整列させる単一ストリームモデルを提案する。
対称的相互モダリティ再構築と擬似ラベル付きキーワード予測という2つの新しいタスクを用いてこれを実現する。
我々は、ゼロショット/ファインチューニングされた画像/テキスト検索、参照表現、VQAといった一連の視覚言語タスクにおいて、トップパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-27T21:16:10Z) - Visual-aware Attention Dual-stream Decoder for Video Captioning [12.139806877591212]
現在のビデオキャプション方式の注意機構は、各フレームに重みを割り当てることを学び、デコーダを動的に推進する。
これは、シーケンスフレームで抽出された視覚的特徴の相関と時間的コヒーレンスを明示的にモデル化するものではない。
本稿では,単語の時間的シーケンスフレームの変化を前回のモーメントで統一する,新しい視覚認識注意(VA)モデルを提案する。
VADD(Visual-Aware Attention Dual-stream Decoder)の有効性を示す。
論文 参考訳(メタデータ) (2021-10-16T14:08:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。