論文の概要: Ovis-Image Technical Report
- arxiv url: http://arxiv.org/abs/2511.22982v1
- Date: Fri, 28 Nov 2025 08:42:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.825093
- Title: Ovis-Image Technical Report
- Title(参考訳): Ovis- Image Technical Report
- Authors: Guo-Hua Wang, Liangfu Cao, Tianyu Cui, Minghao Fu, Xiaohao Chen, Pengxin Zhan, Jianshan Zhao, Lan Li, Bowen Fu, Jiaqi Liu, Qing-Guo Chen,
- Abstract要約: 高品質なテキストレンダリングに最適化された7Bテキスト・画像モデルである$textbfOvis-Image$を紹介した。
Ovis-Imageは、拡散ベースのビジュアルデコーダと強力なOvis 2.5マルチモーダルバックボーンを統合している。
以上の結果から,強いマルチモーダルバックボーンと慎重に設計されたテキスト中心のトレーニングレシピを組み合わせることで,信頼性の高いバイリンガルテキストレンダリングを実現することが可能であることが示唆された。
- 参考スコア(独自算出の注目度): 27.067785717463476
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce $\textbf{Ovis-Image}$, a 7B text-to-image model specifically optimized for high-quality text rendering, designed to operate efficiently under stringent computational constraints. Built upon our previous Ovis-U1 framework, Ovis-Image integrates a diffusion-based visual decoder with the stronger Ovis 2.5 multimodal backbone, leveraging a text-centric training pipeline that combines large-scale pre-training with carefully tailored post-training refinements. Despite its compact architecture, Ovis-Image achieves text rendering performance on par with significantly larger open models such as Qwen-Image and approaches closed-source systems like Seedream and GPT4o. Crucially, the model remains deployable on a single high-end GPU with moderate memory, narrowing the gap between frontier-level text rendering and practical deployment. Our results indicate that combining a strong multimodal backbone with a carefully designed, text-focused training recipe is sufficient to achieve reliable bilingual text rendering without resorting to oversized or proprietary models.
- Abstract(参考訳): 我々は,高画質テキストレンダリングに特化して最適化された7Bテキスト・画像モデルである$\textbf{Ovis-Image}$を紹介した。
以前のOvis-U1フレームワークをベースに構築されたOvis-Imageは、拡散ベースのビジュアルデコーダと強力なOvis 2.5マルチモーダルバックボーンを統合し、大規模な事前トレーニングと慎重に調整された後改善を組み合わせたテキスト中心のトレーニングパイプラインを活用する。
コンパクトなアーキテクチャにもかかわらず、Ovis-ImageはQwen-Imageのような非常に大きなオープンモデルと同等のテキストレンダリング性能を達成し、SeedreamやGPT4oのようなクローズドソースシステムにアプローチしている。
重要なのは、モデルが適度なメモリを持つ単一のハイエンドGPU上でデプロイ可能であり、フロンティアレベルのテキストレンダリングと実用的なデプロイメントのギャップを狭めることだ。
以上の結果から,マルチモーダルの強いバックボーンと慎重に設計されたテキスト中心のトレーニングレシピを組み合わせることで,過大なモデルやプロプライエタリなモデルに頼らずに,信頼性の高いバイリンガルテキストレンダリングを実現することが可能であることが示唆された。
関連論文リスト
- Qwen-Image Technical Report [86.46471547116158]
Qwen-Imageは複雑なテキストのレンダリングと正確な画像編集において大きな進歩を遂げた画像生成基盤モデルである。
我々は、大規模なデータ収集、フィルタリング、アノテーション、合成、バランスを含む包括的なデータパイプラインを設計する。
Qwen-Imageは、英語のようなアルファベットの言語で非常によく機能し、中国語のようなより挑戦的なログラフ言語でも顕著な進歩を遂げている。
論文 参考訳(メタデータ) (2025-08-04T11:49:20Z) - TextDiffuser-RL: Efficient and Robust Text Layout Optimization for High-Fidelity Text-to-Image Synthesis [0.0]
高速かつ最適化されたテキストレイアウト生成のための強化学習と拡散に基づく画像合成モデルを組み合わせた2段階パイプラインを提案する。
本フレームワークはテキスト配置と画像合成においてTextDiffuser-2に匹敵する性能を実現し,ランタイムの高速化と柔軟性の向上を実現している。
論文 参考訳(メタデータ) (2025-05-25T19:52:04Z) - Seedream 2.0: A Native Chinese-English Bilingual Image Generation Foundation Model [69.09404597939744]
Seedream 2.0は、中国語と英語のバイリンガル画像生成基盤モデルである。
中国語と英語の両方でテキストプロンプトを管理し、バイリンガル画像生成とテキストレンダリングをサポートする。
テキストエンコーダとして自己開発されたバイリンガルな大規模言語モデルと統合されており、大量のデータから直接ネイティブ知識を学習することができる。
論文 参考訳(メタデータ) (2025-03-10T17:58:33Z) - Multimodal Representation Alignment for Image Generation: Text-Image Interleaved Control Is Easier Than You Think [38.258453761376586]
本稿では,画像生成モデルにおける任意のテキストイメージインターリーブド制御のための効率的なフレームワークであるDream Engineを提案する。
提案手法は,テキスト・イメージアライメントとマルチモーダル・インターリーブド・インストラクション・チューニングからなる2段階の訓練パラダイムを利用する。
本手法は,GenEvalベンチマークで0.69点の総合スコアを達成し,有効であることを示す。
論文 参考訳(メタデータ) (2025-02-27T15:08:39Z) - ViLa-MIL: Dual-scale Vision-Language Multiple Instance Learning for Whole Slide Image Classification [52.405499816861635]
多重インスタンス学習(MIL)ベースのフレームワークは、スライド画像全体(WSI)を処理する上で主流になっている。
スライド画像全体の分類のための2次元視覚言語多言語学習(ViLa-MIL)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-12T13:28:46Z) - Paragraph-to-Image Generation with Information-Enriched Diffusion Model [62.81033771780328]
パラディフュージョン(英: ParaDiffusion)は、パラディフュージョンモデルである。
これは、大きな言語モデルの広範囲な意味理解能力を画像生成のタスクに移すことを念頭に置いている。
コードとデータセットは、長文アライメントに関するコミュニティの研究を促進するためにリリースされます。
論文 参考訳(メタデータ) (2023-11-24T05:17:01Z) - MCAD: Multi-teacher Cross-modal Alignment Distillation for efficient image-text retrieval [7.233106731197739]
本稿では,MCAD(Multi-Teacher Cross-modality Alignment Distillation)手法を提案する。
Snapdragon/Dimensityチップ上での軽量CLIPモデルを実装し,動作メモリが$sim$100M,検索遅延が$sim$8.0msである。
論文 参考訳(メタデータ) (2023-10-30T15:38:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。