論文の概要: OmniGen2: Exploration to Advanced Multimodal Generation
- arxiv url: http://arxiv.org/abs/2506.18871v1
- Date: Mon, 23 Jun 2025 17:38:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:37.106232
- Title: OmniGen2: Exploration to Advanced Multimodal Generation
- Title(参考訳): OmniGen2: 高度なマルチモーダル生成の探索
- Authors: Chenyuan Wu, Pengfei Zheng, Ruiran Yan, Shitao Xiao, Xin Luo, Yueze Wang, Wanli Li, Xiyan Jiang, Yexin Liu, Junjie Zhou, Ze Liu, Ziyi Xia, Chaofan Li, Haoge Deng, Jiahao Wang, Kun Luo, Bo Zhang, Defu Lian, Xinlong Wang, Zhongyuan Wang, Tiejun Huang, Zheng Liu,
- Abstract要約: 我々はOmniGen2を紹介した。OmniGen2は多種多様な生成タスクに統一されたソリューションを提供するために設計された汎用的でオープンソースな生成モデルである。
OmniGen v1とは異なり、OmniGen2はテキストと画像のモダリティのための2つの異なるデコードパスを備えており、未共有のパラメータと分離された画像トークンを使用する。
- 参考スコア(独自算出の注目度): 62.58494500322778
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we introduce OmniGen2, a versatile and open-source generative model designed to provide a unified solution for diverse generation tasks, including text-to-image, image editing, and in-context generation. Unlike OmniGen v1, OmniGen2 features two distinct decoding pathways for text and image modalities, utilizing unshared parameters and a decoupled image tokenizer. This design enables OmniGen2 to build upon existing multimodal understanding models without the need to re-adapt VAE inputs, thereby preserving the original text generation capabilities. To facilitate the training of OmniGen2, we developed comprehensive data construction pipelines, encompassing image editing and in-context generation data. Additionally, we introduce a reflection mechanism tailored for image generation tasks and curate a dedicated reflection dataset based on OmniGen2. Despite its relatively modest parameter size, OmniGen2 achieves competitive results on multiple task benchmarks, including text-to-image and image editing. To further evaluate in-context generation, also referred to as subject-driven tasks, we introduce a new benchmark named OmniContext. OmniGen2 achieves state-of-the-art performance among open-source models in terms of consistency. We will release our models, training code, datasets, and data construction pipeline to support future research in this field. Project Page: https://vectorspacelab.github.io/OmniGen2; GitHub Link: https://github.com/VectorSpaceLab/OmniGen2
- Abstract(参考訳): 本研究では,テキスト・トゥ・イメージ・編集,テキスト内生成など,多様なタスクに対して統一されたソリューションを提供するために設計された,汎用的でオープンソースな生成モデルであるOmniGen2を紹介する。
OmniGen v1とは異なり、OmniGen2はテキストと画像のモダリティのための2つの異なるデコードパスを備えており、未共有のパラメータと分離された画像トークンを使用する。
この設計により、OmniGen2は、VAE入力を再適応することなく既存のマルチモーダル理解モデルを構築することができ、それによって元のテキスト生成能力を維持できる。
OmniGen2のトレーニングを容易にするため,画像編集とテキスト内生成を含む包括的データ構築パイプラインを開発した。
さらに,画像生成タスクに適したリフレクション機構を導入し,OmniGen2に基づく専用リフレクションデータセットをキュレートする。
比較的控えめなパラメータサイズにもかかわらず、OmniGen2はテキスト・トゥ・イメージや画像編集を含む複数のタスク・ベンチマークで競合する結果を得る。
OmniContext という新しいベンチマークを導入する。
OmniGen2は、一貫性の観点から、オープンソースモデル間の最先端のパフォーマンスを達成する。
この分野での将来の研究をサポートするため、私たちのモデル、トレーニングコード、データセット、データ構築パイプラインをリリースします。
プロジェクトページ: https://vectorspacelab.github.io/OmniGen2; GitHub Link: https://github.com/VectorSpaceLab/OmniGen2
関連論文リスト
- Unlocking Aha Moments via Reinforcement Learning: Advancing Collaborative Visual Comprehension and Generation [85.22602924467603]
視覚的理解と生成の協調的共進化を可能にすることを提案する。
教師付き微調整は、真のCoTを生成する基礎的な能力を持つMLLMを指導する。
画像生成におけるAhaモーメントを解き、テキスト・ツー・イメージタスクから統合画像生成へMLLMを前進させる。
論文 参考訳(メタデータ) (2025-06-02T09:39:28Z) - ImageGen-CoT: Enhancing Text-to-Image In-context Learning with Chain-of-Thought Reasoning [89.19449553099747]
テキスト・ツー・イメージ・インコンテキスト・ラーニング(T2I-ICL)の問題点について検討する。
本稿では、画像生成に先立って、ImageGen-CoTと呼ばれる思考プロセスを組み込んだフレームワークを提案する。
このデータセットを用いてMLLMを微調整し、文脈推論能力を向上する。
論文 参考訳(メタデータ) (2025-03-25T03:18:46Z) - OmniMamba: Efficient and Unified Multimodal Understanding and Generation via State Space Models [36.0400717590138]
線形構造に基づく最初のマルチモーダル生成モデルであるOmniMambaを提案する。
テキストと画像の両方を、統合された次世代の予測パラダイムで生成する。
JanusFlowと競合し、ベンチマークでShow-oを上回っている。
論文 参考訳(メタデータ) (2025-03-11T17:59:46Z) - OmniGen: Unified Image Generation [25.75041469368185]
我々は,統合画像生成のための新しい拡散モデルであるOmniGenを提案する。
画像編集、主観駆動生成、視覚条件生成など、さまざまな下流タスクをサポートする。
OmniGenのアーキテクチャは高度に単純化されており、追加のプラグインを必要としない。
論文 参考訳(メタデータ) (2024-09-17T16:42:46Z) - OmniTokenizer: A Joint Image-Video Tokenizer for Visual Generation [95.29102596532854]
トケナイザーは複雑な視覚データをコンパクトな潜在空間にマッピングする翻訳機として機能する。
本稿では,共同画像とビデオトークン化のためのトランスフォーマーベースのトークンライザであるOmniTokenizerについて述べる。
論文 参考訳(メタデータ) (2024-06-13T17:59:26Z) - OmniControlNet: Dual-stage Integration for Conditional Image Generation [61.1432268643639]
我々は、外部条件生成アルゴリズムを1つの高密度予測法に統合することにより、広く採用されているコントロールネットの双方向統合を提供する。
提案したOmniControlNetは,1)タスク埋め込み指導下での1つのマルチタスク高密度予測アルゴリズムによる条件生成と,2)テキスト埋め込み指導下での異なる条件付き画像生成プロセスを統合した。
論文 参考訳(メタデータ) (2024-06-09T18:03:47Z) - Instruct-Imagen: Image Generation with Multi-modal Instruction [90.04481955523514]
Instruct-imagenは、不均一な画像生成タスクに取り組み、目に見えないタスクを一般化するモデルである。
画像生成のための*multi-modal instruction*を導入する。
画像生成データセットの人間による評価では、インストラクション・イメージはドメイン内の以前のタスク固有のモデルと一致するか、超えている。
論文 参考訳(メタデータ) (2024-01-03T19:31:58Z) - Multimodal Story Generation on Plural Images [8.293936347234126]
我々は、StoryGenと呼ばれるテキスト生成モデルの入力として画像を使用することを提案する。
モデルでは,入力画像から抽出した特徴を含む意味のあるテキストの段落を生成する能力を示す。
論文 参考訳(メタデータ) (2020-01-16T03:39:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。