論文の概要: Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling
- arxiv url: http://arxiv.org/abs/2501.17811v1
- Date: Wed, 29 Jan 2025 18:00:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-30 15:55:07.699878
- Title: Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling
- Title(参考訳): Janus-Pro: データとモデルスケーリングによる統一されたマルチモーダル理解と生成
- Authors: Xiaokang Chen, Zhiyu Wu, Xingchao Liu, Zizheng Pan, Wen Liu, Zhenda Xie, Xingkai Yu, Chong Ruan,
- Abstract要約: 我々は、Janus-Proという前作の先進的なバージョンを紹介します。
Janus-Proは(1)最適化されたトレーニング戦略、(2)拡張されたトレーニングデータ、(3)より大きなモデルサイズへのスケーリングを取り入れている。
- 参考スコア(独自算出の注目度): 27.132210356712374
- License:
- Abstract: In this work, we introduce Janus-Pro, an advanced version of the previous work Janus. Specifically, Janus-Pro incorporates (1) an optimized training strategy, (2) expanded training data, and (3) scaling to larger model size. With these improvements, Janus-Pro achieves significant advancements in both multimodal understanding and text-to-image instruction-following capabilities, while also enhancing the stability of text-to-image generation. We hope this work will inspire further exploration in the field. Code and models are publicly available.
- Abstract(参考訳): 本稿では,Janus-Proについて紹介する。
特にJanus-Proは,(1)最適化されたトレーニング戦略,(2)拡張トレーニングデータ,(3)より大きなモデルサイズへのスケーリングを取り入れている。
これらの改善により、Janus-Proはマルチモーダル理解とテキスト・ツー・イメージ・インストラクション・フォロー機能の両方において大幅に進歩し、テキスト・ツー・イメージ生成の安定性も向上した。
この研究がこの分野のさらなる探究を促すことを願っている。
コードとモデルは公開されている。
関連論文リスト
- HelloMeme: Integrating Spatial Knitting Attentions to Embed High-Level and Fidelity-Rich Conditions in Diffusion Models [12.092870347722965]
テキスト・ツー・イメージ基礎モデルにアダプタを挿入する効果的な手法を提案する。
アダプタの性能を向上させる2次元特徴写像に関する注意機構を最適化する。
この作業は、大規模なテキスト・ツー・イメージモデルのトレーニング後のタスクに対する洞察を提供する。
論文 参考訳(メタデータ) (2024-10-30T11:00:51Z) - Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation [43.50888291380848]
マルチモーダル理解と生成を統合する自動回帰フレームワークであるJanusを紹介する。
Janusは視覚的エンコーディングを別々の経路に分離し、単一の統一トランスフォーマーアーキテクチャを使って処理する。
実験によると、Janusは以前の統一モデルを超え、タスク固有のモデルのパフォーマンスにマッチするか、超えている。
論文 参考訳(メタデータ) (2024-10-17T17:58:37Z) - LSReGen: Large-Scale Regional Generator via Backward Guidance Framework [12.408195812609042]
制御可能な画像生成は 依然として課題です
トレーニング、前方指導、後方指導といった現在の手法には、顕著な制限がある。
本稿では,後方誘導の一般的な解釈を提供する新しい制御可能な生成フレームワークを提案する。
本稿では,高品質でレイアウトに適合した画像を生成するための大規模なレイアウト・ツー・イメージ手法であるLSReGenを紹介する。
論文 参考訳(メタデータ) (2024-07-21T05:44:46Z) - Generative Visual Instruction Tuning [11.727612242016871]
本稿では,大規模なマルチモーダルモデルのゼロショット機能を改善するために,自動生成した命令追従データを提案する。
GenLLaVAは、ジェネレーティブな大言語であり、ビジュアルアシスタントである。
我々のモデルはLLaVAよりも優れた視覚理解能力を示し、ネイティブマルチモーダルモデルと競合する結果を示す。
論文 参考訳(メタデータ) (2024-06-17T07:06:58Z) - OrientDream: Streamlining Text-to-3D Generation with Explicit Orientation Control [66.03885917320189]
OrientDreamは、テキストプロンプトから効率よくマルチビューで一貫した3D生成のためのカメラ指向条件付きフレームワークである。
本戦略は,2次元テキスト・画像拡散モジュールの事前学習におけるカメラ配向条件付き機能の実装を強調する。
提案手法は,一貫したマルチビュー特性を持つ高品質なNeRFモデルを生成するだけでなく,既存手法よりも最適化速度が大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-06-14T13:16:18Z) - YaART: Yet Another ART Rendering Technology [119.09155882164573]
そこで本研究では,ヒトの嗜好に適合する新しい生産段階のテキスト・ツー・イメージ拡散モデルYaARTを紹介した。
これらの選択がトレーニングプロセスの効率と生成された画像の品質にどのように影響するかを分析する。
高品質な画像の小さなデータセットでトレーニングされたモデルが、より大きなデータセットでトレーニングされたモデルとうまく競合できることを実証する。
論文 参考訳(メタデータ) (2024-04-08T16:51:19Z) - I2VGen-XL: High-Quality Image-to-Video Synthesis via Cascaded Diffusion
Models [54.99771394322512]
ビデオ合成は拡散モデルの急速な発展の恩恵を受け、近年顕著な進歩を遂げている。
意味的正確性、明快さ、連続性-時間的連続性という観点ではまだ遭遇に挑戦する。
これら2つの要素を分離することでモデル性能を向上させるカスケードI2VGen-XL手法を提案する。
I2VGen-XLは、生成したビデオの意味的精度、詳細の連続性、明快さを同時に向上させることができる。
論文 参考訳(メタデータ) (2023-11-07T17:16:06Z) - Lafite2: Few-shot Text-to-Image Generation [132.14211027057766]
本稿では,画像のみのデータセットを用いたテキスト・画像生成モデルの事前学習手法を提案する。
擬似テキスト特徴を合成する検索テーマ最適化手法を検討する。
これは、数ショット、半教師あり、完全に教師された学習など、幅広い設定で有益である。
論文 参考訳(メタデータ) (2022-10-25T16:22:23Z) - A Survey on Leveraging Pre-trained Generative Adversarial Networks for
Image Editing and Restoration [72.17890189820665]
GAN(Generative Adversarial Network)は、単純だが効果的なトレーニング機構と優れた画像生成品質により、大きな注目を集めている。
近年のGANモデルは生成した画像と実際の画像とのギャップを大幅に狭めている。
近年の多くの研究は、未学習のGANモデルと学習されたGAN先行空間を生かして、事前学習されたGANモデルを活用することへの関心が高まっている。
論文 参考訳(メタデータ) (2022-07-21T05:05:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。