論文の概要: ARMOR v0.1: Empowering Autoregressive Multimodal Understanding Model with Interleaved Multimodal Generation via Asymmetric Synergy
- arxiv url: http://arxiv.org/abs/2503.06542v1
- Date: Sun, 09 Mar 2025 10:15:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:51:48.441250
- Title: ARMOR v0.1: Empowering Autoregressive Multimodal Understanding Model with Interleaved Multimodal Generation via Asymmetric Synergy
- Title(参考訳): ARMOR v0.1:非対称シナジーによるインターリーブ型マルチモーダル生成を用いた自己回帰型マルチモーダル理解モデル
- Authors: Jianwen Sun, Yukang Feng, Chuanhao Li, Fanrui Zhang, Zizhen Li, Jiaxin Ai, Sizhuo Zhou, Yu Dai, Shenglin Zhang, Kaipeng Zhang,
- Abstract要約: ARMORは、既存のマルチモーダルな大規模言語モデルを微調整することで、理解と生成の両方を達成するフレームワークである。
ARMORは、モデルアーキテクチャ、トレーニングデータ、トレーニングアルゴリズムの3つの観点から既存のMLLMを拡張している。
実験により、ARMORは既存のMLLMをUniMにアップグレードし、将来性のある画像生成機能を持つことを示した。
- 参考スコア(独自算出の注目度): 14.703591553247948
- License:
- Abstract: Unified models (UniMs) for multimodal understanding and generation have recently received much attention in the area of vision and language. Existing UniMs are designed to simultaneously learn both multimodal understanding and generation capabilities, demanding substantial computational resources, and often struggle to generate interleaved text-image. We present ARMOR, a resource-efficient and pure autoregressive framework that achieves both understanding and generation by fine-tuning existing multimodal large language models (MLLMs). Specifically, ARMOR extends existing MLLMs from three perspectives: (1) For model architecture, an asymmetric encoder-decoder architecture with a forward-switching mechanism is introduced to unify embedding space integrating textual and visual modalities for enabling natural text-image interleaved generation with minimal computational overhead. (2) For training data, a meticulously curated, high-quality interleaved dataset is collected for fine-tuning MLLMs. (3) For the training algorithm, we propose a ``what or how to generate" algorithm to empower existing MLLMs with multimodal generation capabilities while preserving their multimodal understanding capabilities, through three progressive training stages based on the collected dataset. Experimental results demonstrate that ARMOR upgrades existing MLLMs to UniMs with promising image generation capabilities, using limited training resources. Our code will be released soon at https://armor.github.io.
- Abstract(参考訳): マルチモーダル理解と生成のための統一モデル(UniMs)は近年、視覚と言語分野において多くの注目を集めている。
既存のUniMは、マルチモーダル理解と生成能力の両方を同時に学習し、かなりの計算資源を必要とし、しばしばインターリーブされたテキストイメージを生成するのに苦労するように設計されている。
本稿では,既存のマルチモーダル大規模言語モデル(MLLM)を微調整することで,理解と生成の両方を実現する,資源効率が高く純粋な自己回帰フレームワークARMORを提案する。
特に、ARMORは既存のMLLMを3つの視点から拡張する:(1)モデルアーキテクチャでは、非対称エンコーダデコーダアーキテクチャと前方切換機構を導入し、自然なテキストイメージのインターリーブ生成を最小の計算オーバーヘッドで可能にするために、テキストと視覚のモダリティを統合した埋め込み空間を統合する。
2) 訓練データには, 微調整MLLMのために, 厳密にキュレートされた高品質のインターリーブ付きデータセットが収集される。
(3) 学習アルゴリズムでは, 既存のMLLMをマルチモーダル生成能力で強化し, 多モーダル理解能力を保ちながら, 収集したデータセットに基づいた3段階のプログレッシブ・トレーニング・ステージを通じて, 「何を生成するか」 アルゴリズムを提案する。
実験の結果、ARMORは、限られたトレーニングリソースを使用して、既存のMLLMを期待できる画像生成機能でUniMにアップグレードすることを示した。
私たちのコードは近々https://armor.github.io.comで公開される予定です。
関連論文リスト
- LMFusion: Adapting Pretrained Language Models for Multimodal Generation [81.78257799283777]
LMFusionは、事前訓練されたテキストのみの大規模言語モデル(LLM)をマルチモーダル生成機能で強化するフレームワークである。
複数モーダル生成モデルをスクラッチから事前訓練する手法と比較して, LMFusionは画像理解を20%改善し, 画像生成を3.6%改善し, FLOPの50%しか利用できないことを示した。
論文 参考訳(メタデータ) (2024-12-19T18:56:24Z) - SynerGen-VL: Towards Synergistic Image Understanding and Generation with Vision Experts and Token Folding [66.74446220401296]
画像の理解と生成の両方が可能なシンプルだが強力なエンコーダのないMLLMであるSynerGen-VLを提案する。
トークンの折り畳み機構と,高分解能画像理解を効果的に支援するビジョンエキスパートベースのプログレッシブアライメント事前学習戦略を導入する。
コードとモデルはリリースされます。
論文 参考訳(メタデータ) (2024-12-12T18:59:26Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - OmniBench: Towards The Future of Universal Omni-Language Models [63.16606414452612]
OmniBenchは、視覚的、音響的、テキスト的入力を同時に認識し、解釈し、推論するモデルの能力を厳格に評価するために設計された新しいベンチマークである。
本研究の主目的は,ほとんどのOLMが3モーダル文脈における指示追従能力と推論能力に限界があることである。
このギャップに対処するため、84.5KのトレーニングサンプルであるOmniInstructの命令チューニングデータセットをキュレートし、OLMをマルチモーダルなコンテキストに適応させる。
論文 参考訳(メタデータ) (2024-09-23T17:59:05Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - MaVEn: An Effective Multi-granularity Hybrid Visual Encoding Framework for Multimodal Large Language Model [49.931663904599205]
MaVEnは、マルチモーダル大言語モデル(MLLM)のマルチモーダル推論能力を高めるために設計された革新的なフレームワークである。
MaVEnは複雑なマルチイメージのシナリオにおけるMLLMの理解を著しく向上するとともに,単一イメージのコンテキストにおけるパフォーマンスも向上することを示す。
論文 参考訳(メタデータ) (2024-08-22T11:57:16Z) - ModaVerse: Efficiently Transforming Modalities with LLMs [25.49713745405194]
ModaVerseはマルチモーダルな大規模言語モデルで、様々なモダリティにまたがってコンテンツを解釈・変換できる。
自然言語のレベルで直接動作する新しい入出力(I/O)アライメント機構を提案する。
論文 参考訳(メタデータ) (2024-01-12T06:28:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。