論文の概要: AR-Omni: A Unified Autoregressive Model for Any-to-Any Generation
- arxiv url: http://arxiv.org/abs/2601.17761v1
- Date: Sun, 25 Jan 2026 09:17:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.321626
- Title: AR-Omni: A Unified Autoregressive Model for Any-to-Any Generation
- Title(参考訳): AR-Omni: 任意の世代に統一された自己回帰モデル
- Authors: Dongjie Cheng, Ruifeng Yuan, Yongqi Li, Runyang You, Wenjie Wang, Liqiang Nie, Lei Zhang, Wenjie Li,
- Abstract要約: 我々は、専門家のデコーダを使わずに、自己回帰パラダイムにおける統一された任意のモデルであるAR-Omniを提案する。
AR-Omniは自動回帰テキストと画像生成をサポートし、ストリーミング音声生成もサポートしている。
タスク認識損失再重み付けによるモダリティ不均衡、画像トークンに対する軽量トークンレベルの知覚的アライメント損失による視覚的忠実度、有限状態復号機構による安定性・創造性トレードオフの3つの実践的問題に対処する。
- 参考スコア(独自算出の注目度): 60.02195766025208
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-world perception and interaction are inherently multimodal, encompassing not only language but also vision and speech, which motivates the development of "Omni" MLLMs that support both multimodal inputs and multimodal outputs. While a sequence of omni MLLMs has emerged, most existing systems still rely on additional expert components to achieve multimodal generation, limiting the simplicity of unified training and inference. Autoregressive (AR) modeling, with a single token stream, a single next-token objective, and a single decoder, is an elegant and scalable foundation in the text domain. Motivated by this, we present AR-Omni, a unified any-to-any model in the autoregressive paradigm without any expert decoders. AR-Omni supports autoregressive text and image generation, as well as streaming speech generation, all under a single Transformer decoder. We further address three practical issues in unified AR modeling: modality imbalance via task-aware loss reweighting, visual fidelity via a lightweight token-level perceptual alignment loss for image tokens, and stability-creativity trade-offs via a finite-state decoding mechanism. Empirically, AR-Omni achieves strong quality across three modalities while remaining real-time, achieving a 0.88 real-time factor for speech generation.
- Abstract(参考訳): 実世界の知覚と相互作用は本質的にマルチモーダルであり、言語だけでなく視覚や音声も含み、マルチモーダル入力とマルチモーダル出力の両方をサポートする「オムニ」MLLMの開発を動機付けている。
オムニMLLMのシーケンスが登場したが、既存のシステムの多くは、マルチモーダル生成を実現するために追加のエキスパートコンポーネントに依存しており、統一されたトレーニングと推論の単純さを制限している。
オートレグレッシブ(AR)モデリングは、単一のトークンストリーム、単一の次の目標、単一のデコーダを備えた、テキストドメインのエレガントでスケーラブルな基盤です。
これに触発されたAR-Omniは、専門家のデコーダを使わずに、自己回帰パラダイムにおける統一された任意のモデルである。
AR-Omniは自動回帰テキストと画像生成をサポートし、ストリーミング音声生成もサポートしている。
さらに、タスク認識損失再重み付けによるモダリティ不均衡、画像トークンに対する軽量トークンレベルの知覚的アライメント損失による視覚的忠実度、有限状態復号機構による安定性・創造性トレードオフの3つの実践的問題に対処する。
経験的に、AR-Omniは3つのモードにまたがって強い品質を実現し、音声生成において0.88のリアルタイム係数を達成している。
関連論文リスト
- OneCAT: Decoder-Only Auto-Regressive Model for Unified Understanding and Generation [91.45421429922506]
OneCATは、理解、生成、編集をシームレスに統合する統合マルチモーダルモデルである。
我々のフレームワークは、推論中に視覚変換器(ViT)や視覚トークン化器などの外部コンポーネントを不要にする。
論文 参考訳(メタデータ) (2025-09-03T17:29:50Z) - ARMOR: Empowering Multimodal Understanding Model with Interleaved Multimodal Generation Capability [14.703591553247948]
ARMORは、マルチモーダルな大規模言語モデルのためのリソース効率が高く純粋な自動回帰フレームワークである。
既存のMLLMを微調整することで、理解と生成を両立させる。
ARMOR は,既存の MLLM を UniM にアップグレードし,将来性のある画像生成機能を実現する。
論文 参考訳(メタデータ) (2025-03-09T10:15:39Z) - SynerGen-VL: Towards Synergistic Image Understanding and Generation with Vision Experts and Token Folding [66.74446220401296]
画像の理解と生成の両方が可能なシンプルだが強力なエンコーダのないMLLMであるSynerGen-VLを提案する。
トークンの折り畳み機構と,高分解能画像理解を効果的に支援するビジョンエキスパートベースのプログレッシブアライメント事前学習戦略を導入する。
コードとモデルはリリースされます。
論文 参考訳(メタデータ) (2024-12-12T18:59:26Z) - Making LLaMA SEE and Draw with SEED Tokenizer [69.1083058794092]
大規模言語モデルにSEEとDrawの能力を持たせるための精巧な画像トークンであるSEEDを紹介します。
SEEDトークンを使うことで、LLMはオリジナルのトレーニングレシピの下でスケーラブルなマルチモーダルオートレグレスを実行することができる。
SEED-LLaMAはマルチターン・イン・コンテクスト・マルチモーダル生成のような合成創発的能力を示す。
論文 参考訳(メタデータ) (2023-10-02T14:03:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。