論文の概要: AToken: A Unified Tokenizer for Vision
- arxiv url: http://arxiv.org/abs/2509.14476v1
- Date: Wed, 17 Sep 2025 23:11:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:52.997628
- Title: AToken: A Unified Tokenizer for Vision
- Title(参考訳): AToken: ビジョンのための統一トケナイザ
- Authors: Jiasen Lu, Liangchen Song, Mingze Xu, Byeongjoo Ahn, Yanjun Wang, Chen Chen, Afshin Dehghan, Yinfei Yang,
- Abstract要約: ATokenは,高忠実度再構成と意味的理解を両立する最初の統合視覚トークンである。
ATokenは、様々な視覚的な入力を共有の4D潜在空間にエンコードし、単一のフレームワークでタスクとモダリティを統一する。
プログレッシブトレーニングカリキュラムを採用することで、ATokenは、シングルイメージ、ビデオ、3Dから徐々に拡張され、連続トークンと離散トークンの両方をサポートする。
- 参考スコア(独自算出の注目度): 26.55839382749872
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present AToken, the first unified visual tokenizer that achieves both high-fidelity reconstruction and semantic understanding across images, videos, and 3D assets. Unlike existing tokenizers that specialize in either reconstruction or understanding for single modalities, AToken encodes these diverse visual inputs into a shared 4D latent space, unifying both tasks and modalities in a single framework. Specifically, we introduce a pure transformer architecture with 4D rotary position embeddings to process visual inputs of arbitrary resolutions and temporal durations. To ensure stable training, we introduce an adversarial-free training objective that combines perceptual and Gram matrix losses, achieving state-of-the-art reconstruction quality. By employing a progressive training curriculum, AToken gradually expands from single images, videos, and 3D, and supports both continuous and discrete latent tokens. AToken achieves 0.21 rFID with 82.2% ImageNet accuracy for images, 3.01 rFVD with 32.6% MSRVTT retrieval for videos, and 28.19 PSNR with 90.9% classification accuracy for 3D. In downstream applications, AToken enables both visual generation tasks (e.g., image generation with continuous and discrete tokens, text-to-video generation, image-to-3D synthesis) and understanding tasks (e.g., multimodal LLMs), achieving competitive performance across all benchmarks. These results shed light on the next-generation multimodal AI systems built upon unified visual tokenization.
- Abstract(参考訳): ATokenは、画像、ビデオ、および3D資産間の高忠実度再構成と意味理解を両立する最初の統合ビジュアルトークンである。
単一のモダリティの再構築や理解を専門とする既存のトークン化ツールとは異なり、ATokenはこれらの多様な視覚的入力を共有の4D潜在空間にエンコードし、単一のフレームワークでタスクとモダリティを統一する。
具体的には、任意の解像度と時間間隔の視覚入力を処理するために、4次元回転位置埋め込みを備えた純変圧器アーキテクチャを導入する。
安定したトレーニングを確保するために,知覚と文法のマトリックスの損失を組み合わせ,最先端の再現性を実現するための対向学習目標を導入する。
プログレッシブトレーニングカリキュラムを採用することで、ATokenは、シングルイメージ、ビデオ、3Dから徐々に拡張され、連続トークンと離散トークンの両方をサポートする。
ATokenは画像の82.2%のイメージネット精度で0.21 rFID、ビデオの32.6%のMSRVTT検索で3.01 rFVD、3Dの90.9%の分類精度で28.19 PSNRを達成した。
ダウンストリームアプリケーションでは、ATokenはビジュアル生成タスク(例えば、連続トークンと離散トークンによる画像生成、テキストからビデオへの生成、画像から3D合成)と理解タスク(例えば、マルチモーダルLSM)の両方を可能にし、すべてのベンチマークで競合性能を達成する。
これらの結果は、統一された視覚トークン化に基づいて構築された次世代のマルチモーダルAIシステムに光を当てた。
関連論文リスト
- Uni4D: A Unified Self-Supervised Learning Framework for Point Cloud Videos [70.07088203106443]
既存の手法は運動を学ぶための明示的な知識に依存しており、結果として準最適表現をもたらす。
Masked Autoentangler (MAE)フレームワークは、4Dデータにおける低レベルの幾何学と高レベルのダイナミックスの間のギャップを埋めるのに苦労している。
本稿では,表現的,識別的,移動可能な4次元表現を学習するための,新しい自己異方性MAEを提案する。
論文 参考訳(メタデータ) (2025-04-07T08:47:36Z) - UniToken: Harmonizing Multimodal Understanding and Generation through Unified Visual Encoding [84.87802580670579]
離散表現と連続表現の組み合わせによって視覚入力を符号化する自動回帰生成モデルUniTokenを導入する。
我々の統合ビジュアルエンコーディングフレームワークは、多次元情報を提供しながら、高レベルのセマンティクスと低レベルの詳細の両方をキャプチャする。
論文 参考訳(メタデータ) (2025-04-06T09:20:49Z) - Unified Autoregressive Visual Generation and Understanding with Continuous Tokens [52.21981295470491]
We present UniFluid, a unified autoregressive framework for joint visual generation and understanding。
我々の統合自己回帰アーキテクチャはマルチモーダル画像とテキスト入力を処理し、テキストの離散トークンと画像の連続トークンを生成する。
画像生成と理解タスクの間には本質的にトレードオフがあることに気付きましたが、注意深く調整されたトレーニングレシピによって互いに改善できるようになりました。
論文 参考訳(メタデータ) (2025-03-17T17:58:30Z) - QLIP: Text-Aligned Visual Tokenization Unifies Auto-Regressive Multimodal Understanding and Generation [101.28446308930367]
Quantized Language-Image Pretraining (QLIP)は、最先端の再構築品質と最先端のゼロショットイメージ理解を組み合わせたものだ。
QLIPは、リコンストラクションと言語イメージアライメントの目的を備えた、二進数量子化に基づくオートエンコーダをトレーニングする。
QLIPは、理解と生成のための複合モダリティ自動回帰モデルを可能にすることを実証する。
論文 参考訳(メタデータ) (2025-02-07T18:59:57Z) - TokenFlow: Unified Image Tokenizer for Multimodal Understanding and Generation [26.29803524047736]
TokenFlowは、マルチモーダル理解と生成のギャップを埋める、新しい統合イメージトークンである。
離散的な視覚入力がLLaVA-1.513Bを超える性能を初めて実証した。
我々はまた、256*256解像度のGenEvalスコア0.55の自己回帰画像生成における最先端性能を確立した。
論文 参考訳(メタデータ) (2024-12-04T06:46:55Z) - Adaptive Length Image Tokenization via Recurrent Allocation [81.10081670396956]
現在の視覚システムは、情報内容に関わらず、画像に一定長の表現を割り当てている。
そこで本研究では,2次元画像に対する可変長トークン表現の学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-04T18:58:01Z) - OmniTokenizer: A Joint Image-Video Tokenizer for Visual Generation [95.29102596532854]
トケナイザーは複雑な視覚データをコンパクトな潜在空間にマッピングする翻訳機として機能する。
本稿では,共同画像とビデオトークン化のためのトランスフォーマーベースのトークンライザであるOmniTokenizerについて述べる。
論文 参考訳(メタデータ) (2024-06-13T17:59:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。