論文の概要: OpenUni: A Simple Baseline for Unified Multimodal Understanding and Generation
- arxiv url: http://arxiv.org/abs/2505.23661v2
- Date: Fri, 30 May 2025 12:25:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 12:43:13.16182
- Title: OpenUni: A Simple Baseline for Unified Multimodal Understanding and Generation
- Title(参考訳): OpenUni: 統一マルチモーダル理解と生成のためのシンプルなベースライン
- Authors: Size Wu, Zhonghua Wu, Zerui Gong, Qingyi Tao, Sheng Jin, Qinyue Li, Wei Li, Chen Change Loy,
- Abstract要約: マルチモーダルな理解と生成を統一するための軽量でオープンソースなベースラインであるOpenUniを紹介します。
統一モデル学習における一般的なプラクティスに触発されて、トレーニングの複雑さとオーバーヘッドを最小限にする効率的なトレーニング戦略を採用しました。
我々は,1) 高品質で命令整合性のある画像を生成すること,2) GenEval, DPG-Bench, WISE などの標準ベンチマークにおいて,1.1B と 3.1B のみ活性化パラメータで例外的な性能を達成できることを実証した。
- 参考スコア(独自算出の注目度): 44.34131932968147
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this report, we present OpenUni, a simple, lightweight, and fully open-source baseline for unifying multimodal understanding and generation. Inspired by prevailing practices in unified model learning, we adopt an efficient training strategy that minimizes the training complexity and overhead by bridging the off-the-shelf multimodal large language models (LLMs) and diffusion models through a set of learnable queries and a light-weight transformer-based connector. With a minimalist choice of architecture, we demonstrate that OpenUni can: 1) generate high-quality and instruction-aligned images, and 2) achieve exceptional performance on standard benchmarks such as GenEval, DPG- Bench, and WISE, with only 1.1B and 3.1B activated parameters. To support open research and community advancement, we release all model weights, training code, and our curated training datasets (including 23M image-text pairs) at https://github.com/wusize/OpenUni.
- Abstract(参考訳): 本稿では,マルチモーダル理解と生成を統一するための,シンプルで軽量で完全にオープンソースなベースラインであるOpenUniを紹介する。
統一型モデル学習の実践に触発されて,学習可能なクエリセットと軽量トランスフォーマーベースのコネクタを通じて,既製のマルチモーダル大言語モデル(LLM)と拡散モデル(拡散モデル)をブリッジすることで,トレーニングの複雑さとオーバーヘッドを最小化する,効率的なトレーニング戦略を採用した。
最小限のアーキテクチャの選択で、OpenUniが可能であることを実証します。
1)高品質で命令整合した画像を生成し、
2) GenEval, DPG-Bench, WISEなどの標準ベンチマークでは, 1.1B と 3.1B のアクティベートパラメータのみが有効である。
オープンな研究とコミュニティの進歩をサポートするため、私たちはhttps://github.com/wusize/OpenUni.comで、すべてのモデルウェイト、トレーニングコード、キュレートされたトレーニングデータセット(23Mイメージテキストペアを含む)をリリースしました。
関連論文リスト
- UniRL: Self-Improving Unified Multimodal Models via Supervised and Reinforcement Learning [17.68867710994329]
マルチモーダルな大規模言語モデルのための自己改善後学習手法UniRLを提案する。
我々のアプローチでは、モデルがプロンプトから画像を生成し、各イテレーションでトレーニングデータとして使用することができる。
我々は,Show-o と Janus の上の UniRL を評価し,Show-o の GenEval スコア0.77 とJanus の 0.65 を達成した。
論文 参考訳(メタデータ) (2025-05-29T12:00:15Z) - Emerging Properties in Unified Multimodal Pretraining [32.856334401494145]
マルチモーダル理解と生成をサポートするオープンソースの基盤モデルであるBAGELを紹介する。
BAGELは、大規模なインターリーブ付きテキスト、画像、ビデオ、Webデータからキュレートされた数兆のトークンに基づいて事前訓練された、統一されたデコーダのみのモデルである。
オープンソースの統一モデルでは、マルチモーダル生成と標準ベンチマークでの理解の両方において、大幅に優れています。
論文 参考訳(メタデータ) (2025-05-20T17:59:30Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - xGen-MM (BLIP-3): A Family of Open Large Multimodal Models [157.44696790158784]
本稿では,LMM(Large Multimodal Models)を開発するためのフレームワークであるxGen-MMを紹介する。
このフレームワークは、慎重にキュレートされたデータセット、トレーニングレシピ、モデルアーキテクチャ、結果のLMMスイートで構成されている。
私たちのモデルは、シングルイメージとマルチイメージのベンチマークを含む、さまざまなタスクにわたって厳格な評価を受けています。
論文 参考訳(メタデータ) (2024-08-16T17:57:01Z) - SWIFT:A Scalable lightWeight Infrastructure for Fine-Tuning [5.770978500931441]
Large Language Models (LLM) と Multi-modal Large Language Models (MLLM) は、注意に基づくトランスフォーマーアーキテクチャを利用している。
SWIFTは、大型モデルのためのカスタマイズ可能なワンストップインフラストラクチャである。
SWIFTでカスタマイズされたデータセットをトレーニングすることで、ToolBenchのリーダボードに注目すべき改善が達成できることを示す。
論文 参考訳(メタデータ) (2024-08-10T11:00:13Z) - Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts [54.529880848937104]
そこで我々は,MoEアーキテクチャをUni-MoEと呼ぶ一貫したMLLMを開発し,様々なモダリティを扱えるようにした。
具体的には、統一マルチモーダル表現のためのコネクタを持つモダリティ特化エンコーダを特徴とする。
マルチモーダルデータセットの包括的集合を用いた命令調整Uni-MoEの評価を行った。
論文 参考訳(メタデータ) (2024-05-18T12:16:01Z) - Otter: A Multi-Modal Model with In-Context Instruction Tuning [30.804061018682244]
本研究では,Flamingoモデルの上流型インターリーブ型事前学習データセットを動機として,マルチモーダルモデルにインストラクションチューニングを導入する。
次に、OpenFlamingo(DeepMindのFlamingoのオープンソース版)をベースとしたマルチモーダルモデルであるOtterを紹介し、MIMIC-ITでトレーニングし、改善された命令追従能力とコンテキスト内学習を示す。
論文 参考訳(メタデータ) (2023-05-05T17:59:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。