論文の概要: TokenFlow: Unified Image Tokenizer for Multimodal Understanding and Generation
- arxiv url: http://arxiv.org/abs/2412.03069v1
- Date: Wed, 04 Dec 2024 06:46:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-05 15:09:44.514788
- Title: TokenFlow: Unified Image Tokenizer for Multimodal Understanding and Generation
- Title(参考訳): TokenFlow:マルチモーダル理解と生成のための統合イメージトケナイザ
- Authors: Liao Qu, Huichao Zhang, Yiheng Liu, Xu Wang, Yi Jiang, Yiming Gao, Hu Ye, Daniel K. Du, Zehuan Yuan, Xinglong Wu,
- Abstract要約: TokenFlowは、マルチモーダル理解と生成のギャップを埋める、新しい統合イメージトークンである。
離散的な視覚入力がLLaVA-1.513Bを超える性能を初めて実証した。
我々はまた、256*256解像度のGenEvalスコア0.55の自己回帰画像生成における最先端性能を確立した。
- 参考スコア(独自算出の注目度): 26.29803524047736
- License:
- Abstract: We present TokenFlow, a novel unified image tokenizer that bridges the long-standing gap between multimodal understanding and generation. Prior research attempt to employ a single reconstruction-targeted Vector Quantization (VQ) encoder for unifying these two tasks. We observe that understanding and generation require fundamentally different granularities of visual information. This leads to a critical trade-off, particularly compromising performance in multimodal understanding tasks. TokenFlow addresses this challenge through an innovative dual-codebook architecture that decouples semantic and pixel-level feature learning while maintaining their alignment via a shared mapping mechanism. This design enables direct access to both high-level semantic representations crucial for understanding tasks and fine-grained visual features essential for generation through shared indices. Our extensive experiments demonstrate TokenFlow's superiority across multiple dimensions. Leveraging TokenFlow, we demonstrate for the first time that discrete visual input can surpass LLaVA-1.5 13B in understanding performance, achieving a 7.2\% average improvement. For image reconstruction, we achieve a strong FID score of 0.63 at 384*384 resolution. Moreover, TokenFlow establishes state-of-the-art performance in autoregressive image generation with a GenEval score of 0.55 at 256*256 resolution, achieving comparable results to SDXL.
- Abstract(参考訳): TokenFlowは、マルチモーダル理解と生成の長年のギャップを埋める、新しい統合画像トークンである。
以前の研究では、この2つのタスクを統合するために単一の再構成ターゲットベクトル量子化(VQ)エンコーダを使用していた。
我々は,視覚情報の理解と生成が根本的に異なる粒度を必要とすることを観察する。
これは重要なトレードオフ、特にマルチモーダル理解タスクのパフォーマンス向上につながります。
TokenFlowは、セマンティックとピクセルレベルの特徴学習を分離し、共有マッピング機構を通じてアライメントを維持する、革新的なデュアルコードブックアーキテクチャを通じて、この課題に対処する。
この設計により、タスク理解に不可欠な高レベルセマンティック表現と、共有インデックスを通じて生成に不可欠なきめ細かい視覚的特徴の両方に直接アクセスできる。
広範囲にわたる実験は、TokenFlowが複数の次元にまたがる優越性を実証している。
TokenFlowを活用することで、離散的な視覚入力がLLaVA-1.5 13Bを超え、平均7.2\%の改善を達成できることを示す。
画像再構成では、384*384解像度で強いFIDスコア0.63を得る。
さらに、TokenFlowは、GenEvalスコアが256*256の自己回帰画像生成における最先端のパフォーマンスを確立し、SDXLと同等の結果を得る。
関連論文リスト
- Importance-based Token Merging for Diffusion Models [41.94334394794811]
拡散モデルは高品質の画像とビデオ生成において優れている。
それらを高速化する強力な方法は、より高速な計算のために類似のトークンをマージすることだ。
マージ時に重要なトークンを保存することは,サンプルの品質を著しく向上させることを示す。
論文 参考訳(メタデータ) (2024-11-23T02:01:49Z) - Matryoshka Multimodal Models [92.41824727506751]
我々はM3: Matryoshka Multimodal Modelsを提案する。
COCOスタイルのベンチマークでは,576個のトークンを使用する場合と同様の精度を得るために,9個のビジュアルトークンしか必要としないことがわかった。
論文 参考訳(メタデータ) (2024-05-27T17:59:56Z) - Perceiving Longer Sequences With Bi-Directional Cross-Attention Transformers [13.480259378415505]
BiXTは、計算コストとメモリ消費の観点から、入力サイズと線形にスケールする。
BiXTはPerceiverアーキテクチャにインスパイアされているが、反復的な注意を効率よく双方向のクロスアテンションモジュールに置き換える。
効率性とフルトランスフォーマーアーキテクチャの汎用性と性能を組み合わせることで、BiXTはより長いシーケンスを処理できる。
論文 参考訳(メタデータ) (2024-02-19T13:38:15Z) - Pink: Unveiling the Power of Referential Comprehension for Multi-modal
LLMs [49.88461345825586]
本稿では,MLLMの微細な画像理解能力を高めるための新しい枠組みを提案する。
本稿では,既存のデータセットのアノテーションを活用して,命令チューニングデータセットを低コストで構築する手法を提案する。
本研究では,Qwen-VLよりも5.2%精度が向上し,Kosmos-2の精度が24.7%向上したことを示す。
論文 参考訳(メタデータ) (2023-10-01T05:53:15Z) - ADDP: Learning General Representations for Image Recognition and Generation with Alternating Denoising Diffusion Process [94.41510903676837]
本稿では,2つの空間を1つの表現学習フレームワークに統合した交互デノナイジング拡散プロセス(ADDP)を提案する。
復号化の各ステップでは、まず以前のVQトークンから画素をデコードし、次にデコードされたピクセルから新しいVQトークンを生成する。
学習した表現は、多彩な高忠実度画像の生成や、認識タスクにおける優れた転送性能を示すために使用することができる。
論文 参考訳(メタデータ) (2023-06-08T17:59:32Z) - How Image Generation Helps Visible-to-Infrared Person Re-Identification? [15.951145523749735]
Flow2Flowは、V2Iの人物ReIDのためのトレーニングサンプル拡張とモダリティ間の画像生成を共同で実現するフレームワークである。
生成した画像の同一性アライメントとモダリティアライメントの目的で、Flow2Flowをトレーニングするための対角的トレーニング戦略を開発する。
SYSU-MM01とRegDBの実験結果から、トレーニングサンプル展開とクロスモダリティ画像生成の両方がV2I ReID精度を大幅に向上することが示された。
論文 参考訳(メタデータ) (2022-10-04T13:09:29Z) - Scalable Visual Transformers with Hierarchical Pooling [61.05787583247392]
本稿では,視覚的トークンを徐々にプールしてシーケンス長を縮小する階層的ビジュアルトランスフォーマ(hvt)を提案する。
計算の複雑さを増すことなく、深さ/幅/解像度/パッチサイズの寸法をスケールすることで、大きなメリットをもたらします。
当社のHVTはImageNetとCIFAR-100データセットの競合ベースラインを上回っています。
論文 参考訳(メタデータ) (2021-03-19T03:55:58Z) - ResNeSt: Split-Attention Networks [86.25490825631763]
このアーキテクチャは、異なるネットワークブランチにチャンネルワイズを応用し、機能間相互作用のキャプチャと多様な表現の学習の成功を活用する。
我々のモデルはResNeStと呼ばれ、画像分類の精度と遅延トレードオフにおいてEfficientNetより優れています。
論文 参考訳(メタデータ) (2020-04-19T20:40:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。