Fugu-MT 論文翻訳(概要): Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling

論文の概要: Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling

arxiv url: http://arxiv.org/abs/2501.17811v1
Date: Wed, 29 Jan 2025 18:00:19 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-30 22:32:42.683583
Title: Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling
Title（参考訳）: Janus-Pro: データとモデルスケーリングによる統一されたマルチモーダル理解と生成
Authors: Xiaokang Chen, Zhiyu Wu, Xingchao Liu, Zizheng Pan, Wen Liu, Zhenda Xie, Xingkai Yu, Chong Ruan,
Abstract要約: 我々は、Janus-Proという前作の先進的なバージョンを紹介します。 Janus-Proは(1)最適化されたトレーニング戦略、(2)拡張されたトレーニングデータ、(3)より大きなモデルサイズへのスケーリングを取り入れている。
参考スコア（独自算出の注目度）: 27.132210356712374
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this work, we introduce Janus-Pro, an advanced version of the previous work Janus. Specifically, Janus-Pro incorporates (1) an optimized training strategy, (2) expanded training data, and (3) scaling to larger model size. With these improvements, Janus-Pro achieves significant advancements in both multimodal understanding and text-to-image instruction-following capabilities, while also enhancing the stability of text-to-image generation. We hope this work will inspire further exploration in the field. Code and models are publicly available.
Abstract（参考訳）: 本稿では,Janus-Proについて紹介する。特にJanus-Proは,(1)最適化されたトレーニング戦略,(2)拡張トレーニングデータ,(3)より大きなモデルサイズへのスケーリングを取り入れている。これらの改善により、Janus-Proはマルチモーダル理解とテキスト・ツー・イメージ・インストラクション・フォロー機能の両方において大幅に進歩し、テキスト・ツー・イメージ生成の安定性も向上した。この研究がこの分野のさらなる探究を促すことを願っている。コードとモデルは公開されている。

関連論文リスト

UniRL: Self-Improving Unified Multimodal Models via Supervised and Reinforcement Learning [17.68867710994329]
マルチモーダルな大規模言語モデルのための自己改善後学習手法UniRLを提案する。我々のアプローチでは、モデルがプロンプトから画像を生成し、各イテレーションでトレーニングデータとして使用することができる。我々は,Show-o と Janus の上の UniRL を評価し,Show-o の GenEval スコア0.77 とJanus の 0.65 を達成した。
論文参考訳（メタデータ） (2025-05-29T12:00:15Z)
ACE++: Instruction-Based Image Creation and Editing via Context-Aware Content Filling [40.760925022595195]
ACE++は、様々な画像生成と編集タスクに取り組む命令ベースの拡散フレームワークである。我々は、強力なテキスト・画像拡散モデルを微調整する作業を最小化するために、2段階のトレーニングスキームを開発する。
論文参考訳（メタデータ） (2025-01-05T09:40:58Z)
ModelGrow: Continual Text-to-Video Pre-training with Model Expansion and Language Understanding Enhancement [49.513401043490305]
本研究は,テキスト・ビデオ・モデルの連続的な事前学習について考察する。私たちはこのタスクを、モデルのキャパシティの向上とセマンティック理解の改善という、2つの重要な側面に分割します。意味理解のために,大規模言語モデルを高度なテキストエンコーダとして活用する手法を提案する。
論文参考訳（メタデータ） (2024-12-25T18:58:07Z)
DreamOmni: Unified Image Generation and Editing [51.45871494724542]
本稿では,画像生成と編集の統一モデルであるDream Omniを紹介する。訓練のためにドリーム・オムニはT2I世代と下流のタスクを共同で訓練する。このコラボレーションは、編集性能を大幅に向上させる。
論文参考訳（メタデータ） (2024-12-22T17:17:28Z)
Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation [43.50888291380848]
マルチモーダル理解と生成を統合する自動回帰フレームワークであるJanusを紹介する。 Janusは視覚的エンコーディングを別々の経路に分離し、単一の統一トランスフォーマーアーキテクチャを使って処理する。実験によると、Janusは以前の統一モデルを超え、タスク固有のモデルのパフォーマンスにマッチするか、超えている。
論文参考訳（メタデータ） (2024-10-17T17:58:37Z)
LSReGen: Large-Scale Regional Generator via Backward Guidance Framework [12.408195812609042]
制御可能な画像生成は依然として課題ですトレーニング、前方指導、後方指導といった現在の手法には、顕著な制限がある。本稿では,後方誘導の一般的な解釈を提供する新しい制御可能な生成フレームワークを提案する。本稿では,高品質でレイアウトに適合した画像を生成するための大規模なレイアウト・ツー・イメージ手法であるLSReGenを紹介する。
論文参考訳（メタデータ） (2024-07-21T05:44:46Z)
Generative Visual Instruction Tuning [11.727612242016871]
本稿では,大規模なマルチモーダルモデルのゼロショット機能を改善するために,自動生成した命令追従データを提案する。 GenLLaVAは、ジェネレーティブな大言語であり、ビジュアルアシスタントである。我々のモデルはLLaVAよりも優れた視覚理解能力を示し、ネイティブマルチモーダルモデルと競合する結果を示す。
論文参考訳（メタデータ） (2024-06-17T07:06:58Z)
OrientDream: Streamlining Text-to-3D Generation with Explicit Orientation Control [66.03885917320189]
OrientDreamは、テキストプロンプトから効率よくマルチビューで一貫した3D生成のためのカメラ指向条件付きフレームワークである。本戦略は,2次元テキスト・画像拡散モジュールの事前学習におけるカメラ配向条件付き機能の実装を強調する。提案手法は,一貫したマルチビュー特性を持つ高品質なNeRFモデルを生成するだけでなく,既存手法よりも最適化速度が大幅に向上することを示した。
論文参考訳（メタデータ） (2024-06-14T13:16:18Z)
I2VGen-XL: High-Quality Image-to-Video Synthesis via Cascaded Diffusion Models [54.99771394322512]
ビデオ合成は拡散モデルの急速な発展の恩恵を受け、近年顕著な進歩を遂げている。意味的正確性、明快さ、連続性-時間的連続性という観点ではまだ遭遇に挑戦する。これら2つの要素を分離することでモデル性能を向上させるカスケードI2VGen-XL手法を提案する。 I2VGen-XLは、生成したビデオの意味的精度、詳細の連続性、明快さを同時に向上させることができる。
論文参考訳（メタデータ） (2023-11-07T17:16:06Z)
Lafite2: Few-shot Text-to-Image Generation [132.14211027057766]
本稿では,画像のみのデータセットを用いたテキスト・画像生成モデルの事前学習手法を提案する。擬似テキスト特徴を合成する検索テーマ最適化手法を検討する。これは、数ショット、半教師あり、完全に教師された学習など、幅広い設定で有益である。
論文参考訳（メタデータ） (2022-10-25T16:22:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。