論文の概要: ShareGPT-4o-Image: Aligning Multimodal Models with GPT-4o-Level Image Generation
- arxiv url: http://arxiv.org/abs/2506.18095v1
- Date: Sun, 22 Jun 2025 16:51:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.745395
- Title: ShareGPT-4o-Image: Aligning Multimodal Models with GPT-4o-Level Image Generation
- Title(参考訳): ShareGPT-4o- Image: Aligning Multimodal Models with GPT-4o-Level Image Generation
- Authors: Junying Chen, Zhenyang Cai, Pengcheng Chen, Shunian Chen, Ke Ji, Xidong Wang, Yunjin Yang, Benyou Wang,
- Abstract要約: 我々は45Kのテキスト・ツー・イメージと46Kのテキスト・アンド・イメージデータからなる最初のデータセットであるShareGPT-4o-Imageを提案する。
我々は,テキスト・ツー・イメージ生成とテキスト・アンド・イメージ生成の両方が可能なマルチモーダルな大規模言語モデルであるJanus-4oを開発した。
- 参考スコア(独自算出の注目度): 17.762312185501823
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in multimodal generative models have unlocked photorealistic, instruction-aligned image generation, yet leading systems like GPT-4o-Image remain proprietary and inaccessible. To democratize these capabilities, we present ShareGPT-4o-Image, the first dataset comprising 45K text-to-image and 46K text-and-image-to-image data, all synthesized using GPT-4o's image generation capabilities for distilling its advanced image generation abilities. Leveraging this dataset, we develop Janus-4o, a multimodal large language model capable of both text-to-image and text-and-image-to-image generation. Janus-4o not only significantly improves text-to-image generation over its predecessor, Janus-Pro, but also newly supports text-and-image-to-image generation. Notably, it achieves impressive performance in text-and-image-to-image generation from scratch, using only 91K synthetic samples and 6 hours of training on an 8 A800-GPU machine. We hope the release of ShareGPT-4o-Image and Janus-4o will foster open research in photorealistic, instruction-aligned image generation.
- Abstract(参考訳): マルチモーダル生成モデルの最近の進歩は、フォトリアリスティックな命令整列画像生成を解き放つ一方で、GPT-4o-Imageのような先進的なシステムはプロプライエタリでアクセスできないままである。
これらの能力を民主化するために,45Kのテキスト・ツー・イメージと46Kのテキスト・アンド・イメージデータからなる最初のデータセットであるShareGPT-4o-Imageを提案する。
このデータセットを活用することで、テキスト・ツー・イメージ生成とテキスト・アンド・画像生成の両方が可能なマルチモーダルな大規模言語モデルであるJanus-4oを開発する。
Janus-4oは、前任のJanus-Proよりもテキスト・画像生成を大幅に改善するだけでなく、新たにテキスト・画像・画像生成をサポートする。
特に、91Kの合成サンプルと8A800-GPUマシンで6時間トレーニングしただけで、スクラッチからテキスト・画像生成において印象的なパフォーマンスを実現している。
ShareGPT-4o-Image と Janus-4o のリリースにより,光実写・命令整合画像生成のオープンな研究が促進されることを期待する。
関連論文リスト
- Preliminary Explorations with GPT-4o(mni) Native Image Generation [7.700772640399941]
近年、GPT-4o(mni)による視覚生成能力はOpenAIによってアンロックされている。
本稿では,様々なタスクにまたがるGPT-4oの能力について検討する。
論文 参考訳(メタデータ) (2025-05-06T19:35:29Z) - Why Compress What You Can Generate? When GPT-4o Generation Ushers in Image Compression Fields [14.805239427360208]
AIGCファンデーションモデルは、コンパクトな記述子以上のものから複雑な構造ときめ細かい詳細を忠実に生成できるほど強力である。
OpenAIの最近のGPT-4o画像生成は、印象的なクロスモダリティ生成、編集、設計機能を実現している。
論文 参考訳(メタデータ) (2025-04-30T17:20:14Z) - An Empirical Study of GPT-4o Image Generation Capabilities [40.86026243294732]
我々は、GPT-4oの画像生成能力について実証的研究を行い、主要なオープンソースおよび商用モデルと比較した。
本分析では, GPT-4oの強度と限界を様々な条件下で強調し, GPT-4oを生成モデリングのより広範な進化に導いてくれる。
論文 参考訳(メタデータ) (2025-04-08T12:34:36Z) - Paragraph-to-Image Generation with Information-Enriched Diffusion Model [62.81033771780328]
パラディフュージョン(英: ParaDiffusion)は、パラディフュージョンモデルである。
これは、大きな言語モデルの広範囲な意味理解能力を画像生成のタスクに移すことを念頭に置いている。
コードとデータセットは、長文アライメントに関するコミュニティの研究を促進するためにリリースされます。
論文 参考訳(メタデータ) (2023-11-24T05:17:01Z) - LLaVAR: Enhanced Visual Instruction Tuning for Text-Rich Image
Understanding [85.39419609430453]
この作業は、テキストリッチなイメージで現在のビジュアルインストラクションチューニングパイプラインを強化する。
まず、公開されたOCRツールを使用して、LAIONデータセットから422Kテキストリッチイメージの結果を収集します。
我々は、認識されたテキストと画像キャプションを持つテキストのみのGPT-4に16Kの会話を生成するよう促す。
論文 参考訳(メタデータ) (2023-06-29T17:08:16Z) - MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large
Language Models [41.84885546518666]
GPT-4は、手書きテキストから直接Webサイトを生成するなど、驚くべきマルチモーダル能力を示している。
凍結型ビジュアルエンコーダと凍結型大規模言語モデルとを協調するMiniGPT-4を提案する。
また,MiniGPT-4の新たな特徴として,与えられた画像にインスパイアされた物語や詩を書くことが挙げられる。
論文 参考訳(メタデータ) (2023-04-20T18:25:35Z) - Lafite2: Few-shot Text-to-Image Generation [132.14211027057766]
本稿では,画像のみのデータセットを用いたテキスト・画像生成モデルの事前学習手法を提案する。
擬似テキスト特徴を合成する検索テーマ最適化手法を検討する。
これは、数ショット、半教師あり、完全に教師された学習など、幅広い設定で有益である。
論文 参考訳(メタデータ) (2022-10-25T16:22:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。