論文の概要: Ming-Lite-Uni: Advancements in Unified Architecture for Natural Multimodal Interaction
- arxiv url: http://arxiv.org/abs/2505.02471v1
- Date: Mon, 05 May 2025 08:56:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.61334
- Title: Ming-Lite-Uni: Advancements in Unified Architecture for Natural Multimodal Interaction
- Title(参考訳): Ming-Lite-Uni:自然マルチモーダルインタラクションのための統一アーキテクチャの進歩
- Authors: Biao Gong, Cheng Zou, Dandan Zheng, Hu Yu, Jingdong Chen, Jianxin Sun, Junbo Zhao, Jun Zhou, Kaixiang Ji, Lixiang Ru, Libin Wang, Qingpei Guo, Rui Liu, Weilong Chai, Xinyu Xiao, Ziyuan Huang,
- Abstract要約: Ming-Lite-Uniは、統一されたビジュアルジェネレータとマルチモーダル自動回帰モデルを備えたオープンソースのフレームワークである。
Ming-Lite-Uniはアルファ段階にあり、間もなく改良される。
- 参考スコア(独自算出の注目度): 39.00641004430462
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Ming-Lite-Uni, an open-source multimodal framework featuring a newly designed unified visual generator and a native multimodal autoregressive model tailored for unifying vision and language. Specifically, this project provides an open-source implementation of the integrated MetaQueries and M2-omni framework, while introducing the novel multi-scale learnable tokens and multi-scale representation alignment strategy. By leveraging a fixed MLLM and a learnable diffusion model, Ming-Lite-Uni enables native multimodal AR models to perform both text-to-image generation and instruction based image editing tasks, expanding their capabilities beyond pure visual understanding. Our experimental results demonstrate the strong performance of Ming-Lite-Uni and illustrate the impressive fluid nature of its interactive process. All code and model weights are open-sourced to foster further exploration within the community. Notably, this work aligns with concurrent multimodal AI milestones - such as ChatGPT-4o with native image generation updated in March 25, 2025 - underscoring the broader significance of unified models like Ming-Lite-Uni on the path toward AGI. Ming-Lite-Uni is in alpha stage and will soon be further refined.
- Abstract(参考訳): 我々はMing-Lite-Uniを紹介した。Ming-Lite-Uniは、新しく設計された統一ビジュアルジェネレータと、視覚と言語を統一するためのネイティブなマルチモーダル自動回帰モデルを備えたオープンソースのマルチモーダルフレームワークである。
具体的には、MetaQueriesとM2-omniフレームワークをオープンソースで実装し、新しいマルチスケール学習可能なトークンとマルチスケール表現アライメント戦略を導入する。
固定MLLMと学習可能な拡散モデルを活用することで、Ming-Lite-Uniは、ネイティブなマルチモーダルARモデルにより、テキスト・ツー・イメージ生成と命令ベースの画像編集タスクの両方を実行でき、純粋な視覚的理解を超えてその能力を拡張できる。
実験の結果,明-Lite-Uniの強い性能を示し,そのインタラクティブなプロセスの流体特性を印象づけることができた。
すべてのコードとモデルの重み付けは、コミュニティ内でさらなる調査を促進するためにオープンソース化されている。
この作業は、2025年3月25日に更新されたネイティブ画像生成とChatGPT-4oのような同時マルチモーダルAIマイルストーンと一致し、AGIへの道程におけるMing-Lite-Uniのような統一モデルの広範な重要性を強調している。
Ming-Lite-Uniはアルファ段階にあり、間もなく改良される。
関連論文リスト
- ARMOR v0.1: Empowering Autoregressive Multimodal Understanding Model with Interleaved Multimodal Generation via Asymmetric Synergy [14.703591553247948]
ARMORは、既存のマルチモーダルな大規模言語モデルを微調整することで、理解と生成の両方を達成するフレームワークである。
ARMORは、モデルアーキテクチャ、トレーニングデータ、トレーニングアルゴリズムの3つの観点から既存のMLLMを拡張している。
実験により、ARMORは既存のMLLMをUniMにアップグレードし、将来性のある画像生成機能を持つことを示した。
論文 参考訳(メタデータ) (2025-03-09T10:15:39Z) - MaVEn: An Effective Multi-granularity Hybrid Visual Encoding Framework for Multimodal Large Language Model [49.931663904599205]
MaVEnは、マルチモーダル大言語モデル(MLLM)のマルチモーダル推論能力を高めるために設計された革新的なフレームワークである。
MaVEnは複雑なマルチイメージのシナリオにおけるMLLMの理解を著しく向上するとともに,単一イメージのコンテキストにおけるパフォーマンスも向上することを示す。
論文 参考訳(メタデータ) (2024-08-22T11:57:16Z) - SPHINX: The Joint Mixing of Weights, Tasks, and Visual Embeddings for
Multi-modal Large Language Models [86.478087039015]
モデル重み、チューニングタスク、視覚埋め込みを併用した多目的多モード大言語モデル(MLLM)を提案する。
提案したジョイントミキシングに基づいて,高解像度画像のきめ細かい外観をより正確に捉えるための効率的な手法を提案する。
今後のMLLM研究におけるジョイントミキシングの探求に光を当てることを願っている。
論文 参考訳(メタデータ) (2023-11-13T18:59:47Z) - u-LLaVA: Unifying Multi-Modal Tasks via Large Language Model [17.3535277338312]
u-LLaVAは、MLLMの知覚能力を改善するためにピクセル、地域、グローバル機能を統合する革新的な統合マルチタスクフレームワークである。
この研究は、277Kサンプルからなるマスクベースの新しいマルチタスクデータセットに貢献し、MLLMの微粒化知覚能力に挑戦し評価する。
論文 参考訳(メタデータ) (2023-11-09T13:18:27Z) - DreamLLM: Synergistic Multimodal Comprehension and Creation [58.08565432353053]
DreamLLMはマルチモーダル大規模言語モデル(MLLM)を初めて実現した学習フレームワークである
DreamLLMは生のインターリーブドドキュメントの生成を促進し、テキストと画像の両方のコンテンツと非構造化レイアウトをモデル化する。
その結果、DreamLLMはフリーフォームインターリーブコンテンツを生成する最初のMLLMとなった。
論文 参考訳(メタデータ) (2023-09-20T17:58:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。