論文の概要: Ovis-U1 Technical Report
- arxiv url: http://arxiv.org/abs/2506.23044v1
- Date: Sun, 29 Jun 2025 00:40:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.68628
- Title: Ovis-U1 Technical Report
- Title(参考訳): Ovis-U1テクニカルレポート
- Authors: Guo-Hua Wang, Shanshan Zhao, Xinjie Zhang, Liangfu Cao, Pengxin Zhan, Lunhao Duan, Shiyin Lu, Minghao Fu, Xiaohao Chen, Jianshan Zhao, Yang Li, Qing-Guo Chen,
- Abstract要約: 我々は,マルチモーダル理解,テキスト・ツー・イメージ生成,画像編集機能を統合した統一モデルであるOvis-U1を紹介する。
テキスト・画像生成では、それぞれ DPG-Bench と GenEval のベンチマークで 83.72 と 0.89 のスコアを出力する。
画像編集では、ImgEdit-BenchとGEdit-Bench-ENでそれぞれ4.00と6.42を達成している。
- 参考スコア(独自算出の注目度): 17.247107436040267
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this report, we introduce Ovis-U1, a 3-billion-parameter unified model that integrates multimodal understanding, text-to-image generation, and image editing capabilities. Building on the foundation of the Ovis series, Ovis-U1 incorporates a diffusion-based visual decoder paired with a bidirectional token refiner, enabling image generation tasks comparable to leading models like GPT-4o. Unlike some previous models that use a frozen MLLM for generation tasks, Ovis-U1 utilizes a new unified training approach starting from a language model. Compared to training solely on understanding or generation tasks, unified training yields better performance, demonstrating the enhancement achieved by integrating these two tasks. Ovis-U1 achieves a score of 69.6 on the OpenCompass Multi-modal Academic Benchmark, surpassing recent state-of-the-art models such as Ristretto-3B and SAIL-VL-1.5-2B. In text-to-image generation, it excels with scores of 83.72 and 0.89 on the DPG-Bench and GenEval benchmarks, respectively. For image editing, it achieves 4.00 and 6.42 on the ImgEdit-Bench and GEdit-Bench-EN, respectively. As the initial version of the Ovis unified model series, Ovis-U1 pushes the boundaries of multimodal understanding, generation, and editing.
- Abstract(参考訳): 本稿では,マルチモーダル理解,テキスト・ツー・イメージ生成,画像編集機能を統合した3ビリオンパラメータ統一モデルであるOvis-U1を紹介する。
Ovisシリーズの基盤となるOvis-U1は、双方向トークン精錬器と組み合わせた拡散ベースのビジュアルデコーダを備えており、GPT-4oのような主要なモデルに匹敵する画像生成タスクを可能にする。
ジェネレーションタスクに凍結MLLMを使用した以前のモデルとは異なり、Ovis-U1は言語モデルから始まる新しい統一トレーニングアプローチを採用している。
理解や生成のタスクにのみ依存するトレーニングと比較して、統一されたトレーニングはより良いパフォーマンスをもたらし、これらの2つのタスクを統合することで達成される強化を実証する。
Ovis-U1はOpenCompass Multi-modal Academic Benchmarkで69.6点を獲得し、最近の最先端モデルであるRistretto-3BやSAIL-VL-1.5-2Bを上回っている。
テキスト・画像生成では、それぞれ DPG-Bench と GenEval のベンチマークで 83.72 と 0.89 のスコアを出力する。
画像編集では、ImgEdit-BenchとGEdit-Bench-ENでそれぞれ4.00と6.42を達成している。
Ovis-U1の最初のバージョンとして、Ovis-U1はマルチモーダル理解、生成、編集の境界を推し進めている。
関連論文リスト
- UniVG: A Generalist Diffusion Model for Unified Image Generation and Editing [59.590505989071175]
テキスト・ツー・イメージ(T2I)拡散モデルでは、ユーザのプロンプトに従って視覚的に魅力的な画像を生成するという印象的な結果が示されている。
我々は,一組の重みで多様な画像生成タスクをサポートする汎用拡散モデルUniVGを紹介する。
論文 参考訳(メタデータ) (2025-03-16T21:11:25Z) - RealGeneral: Unifying Visual Generation via Temporal In-Context Learning with Video Models [22.042487298092883]
RealGeneralは、条件付きフレーム予測タスクとして画像生成を再構成する新しいフレームワークである。
カスタマイズされた生成の被写体類似性が14.5%向上し、キャニー・ツー・イメージの画質が10%向上した。
論文 参考訳(メタデータ) (2025-03-13T14:31:52Z) - DreamOmni: Unified Image Generation and Editing [51.45871494724542]
本稿では,画像生成と編集の統一モデルであるDream Omniを紹介する。
訓練のためにドリーム・オムニはT2I世代と下流のタスクを共同で訓練する。
このコラボレーションは、編集性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-12-22T17:17:28Z) - MVGenMaster: Scaling Multi-View Generation from Any Image via 3D Priors Enhanced Diffusion Model [87.71060849866093]
MVGenMasterは3Dプリエントで拡張された多視点拡散モデルであり,NVS(多目的なノベルビュー合成)タスクに対処する。
我々のモデルは、可変参照ビューとカメラポーズで条件付けられた100の新しいビューを生成できる、シンプルで効果的なパイプラインを特徴としている。
スケールアップデータセットを用いてモデルを強化するために,いくつかのトレーニングとモデル修正を提案する。
論文 参考訳(メタデータ) (2024-11-25T07:34:23Z) - Generative Visual Instruction Tuning [11.727612242016871]
本稿では,大規模なマルチモーダルモデルのゼロショット機能を改善するために,自動生成した命令追従データを提案する。
GenLLaVAは、ジェネレーティブな大言語であり、ビジュアルアシスタントである。
我々のモデルはLLaVAよりも優れた視覚理解能力を示し、ネイティブマルチモーダルモデルと競合する結果を示す。
論文 参考訳(メタデータ) (2024-06-17T07:06:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。