論文の概要: OneCAT: Decoder-Only Auto-Regressive Model for Unified Understanding and Generation
- arxiv url: http://arxiv.org/abs/2509.03498v2
- Date: Fri, 12 Sep 2025 07:12:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 14:04:03.088284
- Title: OneCAT: Decoder-Only Auto-Regressive Model for Unified Understanding and Generation
- Title(参考訳): OneCAT: 統一理解と生成のためのデコーダ専用自動回帰モデル
- Authors: Han Li, Xinyu Peng, Yaoming Wang, Zelin Peng, Xin Chen, Rongxiang Weng, Jingang Wang, Xunliang Cai, Wenrui Dai, Hongkai Xiong,
- Abstract要約: OneCATは、理解、生成、編集をシームレスに統合する統合マルチモーダルモデルである。
我々のフレームワークは、推論中に視覚変換器(ViT)や視覚トークン化器などの外部コンポーネントを不要にする。
- 参考スコア(独自算出の注目度): 91.45421429922506
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce OneCAT, a unified multimodal model that seamlessly integrates understanding, generation, and editing within a novel, pure decoder-only transformer architecture. Our framework uniquely eliminates the need for external components such as Vision Transformers (ViT) or vision tokenizer during inference, leading to significant efficiency gains, especially for high-resolution inputs. This is achieved through a modality-specific Mixture-of-Experts (MoE) structure trained with a single autoregressive (AR) objective, which also natively supports dynamic resolutions. Furthermore, we pioneer a multi-scale visual autoregressive mechanism within the Large Language Model (LLM) that drastically reduces decoding steps compared to diffusion-based methods while maintaining state-of-the-art performance. Our findings demonstrate the powerful potential of pure autoregressive modeling as a sufficient and elegant foundation for unified multimodal intelligence. As a result, OneCAT sets a new performance standard, outperforming existing open-source unified multimodal models across benchmarks for multimodal generation, editing, and understanding.
- Abstract(参考訳): 我々は,新しいデコーダのみのトランスフォーマーアーキテクチャにおいて,理解,生成,編集をシームレスに統合する統一マルチモーダルモデルであるOneCATを紹介する。
我々のフレームワークは、推論中に視覚変換器(ViT)や視覚トークン化器などの外部コンポーネントの必要性を独自に排除し、特に高解像度入力において顕著な効率向上をもたらす。
これは、単一の自己回帰(AR)目標でトレーニングされたモダリティ固有のMixture-of-Experts(MoE)構造によって実現され、動的解像度もネイティブにサポートする。
さらに,言語モデル (LLM) のマルチスケール視覚自己回帰機構を考案し, 最先端性能を維持しつつ, 拡散法に比べてデコードステップを大幅に削減した。
本研究は,統合マルチモーダルインテリジェンスのための十分かつエレガントな基盤として,純粋自己回帰モデリングの強力な可能性を示すものである。
その結果、OneCATは新しいパフォーマンス標準を設定し、マルチモーダル生成、編集、理解のためのベンチマークで既存のオープンソース統一マルチモーダルモデルを上回った。
関連論文リスト
- FUDOKI: Discrete Flow-based Unified Understanding and Generation via Kinetic-Optimal Velocities [76.46448367752944]
MLLM(Multimodal large language model)は、単一のフレームワーク内で視覚的理解と画像生成を統一する言語である。
ほとんどの既存のMLLMはAutore(AR)アーキテクチャに依存しており、将来の開発に固有の制限を課している。
本稿では,離散フローマッチングに基づく統一マルチモーダルモデルであるFUDOKIを紹介する。
論文 参考訳(メタデータ) (2025-05-26T15:46:53Z) - An Efficient and Mixed Heterogeneous Model for Image Restoration [71.85124734060665]
現在の主流のアプローチは、CNN、Transformers、Mambasの3つのアーキテクチャパラダイムに基づいている。
混合構造融合に基づく効率的で汎用的なIRモデルであるRestorMixerを提案する。
論文 参考訳(メタデータ) (2025-04-15T08:19:12Z) - JanusFlow: Harmonizing Autoregression and Rectified Flow for Unified Multimodal Understanding and Generation [36.93638123812204]
画像の理解と生成を単一のモデルで統一する強力なフレームワークであるJanusFlowを紹介します。
JanusFlowは自動回帰言語モデルと修正フローを統合する。
論文 参考訳(メタデータ) (2024-11-12T17:55:10Z) - ADEM-VL: Adaptive and Embedded Fusion for Efficient Vision-Language Tuning [38.26304604660713]
ADEM-VLは、事前訓練された大規模言語モデルに基づいてモデルをチューニングする効率的な視覚言語手法である。
我々のフレームワークはScienceQAデータセットの平均精度を0.77%上回る。
論文 参考訳(メタデータ) (2024-10-23T11:31:06Z) - Jointly Training Large Autoregressive Multimodal Models [37.32912103934043]
本稿では,既存のテキストと画像生成モデルを体系的に融合するモジュール方式であるJAMフレームワークを提案する。
また、混合モーダル生成タスクに適した、特殊的でデータ効率の高い命令チューニング戦略も導入する。
最後のインストラクションチューニングモデルは、高品質なマルチモーダル出力を生成する際の非並列性能を示す。
論文 参考訳(メタデータ) (2023-09-27T10:40:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。