論文の概要: More Than Generation: Unifying Generation and Depth Estimation via Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2510.23574v1
- Date: Mon, 27 Oct 2025 17:44:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.650199
- Title: More Than Generation: Unifying Generation and Depth Estimation via Text-to-Image Diffusion Models
- Title(参考訳): 世代を超えて:テキスト-画像拡散モデルによる生成と深さ推定を統一する
- Authors: Hongkai Lin, Dingkang Liang, Mingyang Du, Xin Zhou, Xiang Bai,
- Abstract要約: 生成深度推定法は、事前訓練されたテキスト-画像拡散モデルに格納されたリッチな視覚的先行情報を利用する。
本稿では,画像生成と深度推定の統一モデルであるMERGEを紹介する。
- 参考スコア(独自算出の注目度): 53.98725993420285
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative depth estimation methods leverage the rich visual priors stored in pre-trained text-to-image diffusion models, demonstrating astonishing zero-shot capability. However, parameter updates during training lead to catastrophic degra- dation in the image generation capability of the pre-trained model. We introduce MERGE, a unified model for image generation and depth estimation, starting from a fixed pre-trained text-to-image model. MERGE demonstrates that the pre-trained text-to-image model can do more than image generation, but also expand to depth estimation effortlessly. Specifically, MERGE introduces a play- and-plug framework that enables seamless switching between image generation and depth estimation modes through simple and pluggable converters. Meanwhile, we propose a Group Reuse Mechanism to encourage parameter reuse and im- prove the utilization of the additional learnable parameters. MERGE unleashes the powerful depth estimation capability of the pre-trained text-to-image model while preserving its original image generation ability. Compared to other unified models for image generation and depth estimation, MERGE achieves state-of- the-art performance across multiple depth estimation benchmarks. The code will be made available at https://github.com/H-EmbodVis/MERGE
- Abstract(参考訳): 生成深度推定法は、事前訓練されたテキスト・画像拡散モデルに格納されたリッチな視覚的事前情報を活用し、驚くべきゼロショット能力を示す。
しかし、トレーニング中のパラメータ更新は、事前訓練されたモデルの画像生成能力において破滅的な脱灰を引き起こす。
本稿では,画像生成と深度推定の統一モデルであるMERGEを紹介する。
MERGEは、事前訓練されたテキスト・ツー・イメージモデルが画像生成以上のことができるだけでなく、深度推定にも有効であることを示した。
特に、MERGEは、シンプルでプラグ可能なコンバータを通じて、画像生成と深さ推定モードのシームレスな切り替えを可能にするプレイ・アンド・プラグフレームワークを導入している。
一方,パラメータ再利用を促すグループ再利用機構を提案し,学習可能な追加パラメータの利用を即時証明する。
MERGEは、トレーニング済みのテキスト・ツー・イメージモデルの強力な深度推定能力を解き、元の画像生成能力を保っている。
画像生成および深度推定のための他の統一モデルと比較して、MERGEは複数の深度推定ベンチマークで最先端の性能を達成する。
コードはhttps://github.com/H-EmbodVis/MERGEで公開される。
関連論文リスト
- Muddit: Liberating Generation Beyond Text-to-Image with a Unified Discrete Diffusion Model [118.52589065972795]
テキストと画像の両モードをまたいで高速かつ並列に生成できる,統一的な離散拡散変換器であるMudditを導入する。
Mudditは、スクラッチからトレーニングされた以前の統一拡散モデルとは異なり、トレーニング済みのテキストからイメージまでのバックボーンから、強力な視覚的事前情報を軽量のテキストデコーダに統合する。
論文 参考訳(メタデータ) (2025-05-29T16:15:48Z) - Can We Generate Images with CoT? Let's Verify and Reinforce Image Generation Step by Step [86.69947123512836]
CoT(Chain-of-Thought)推論は、複雑な理解タスクに取り組むために大規模なモデルで広く研究されている。
自己回帰画像生成を促進するために,CoT推論の可能性について,初めて包括的調査を行った。
本稿では,自動回帰画像生成に特化したPARMとPARM++を提案する。
論文 参考訳(メタデータ) (2025-01-23T18:59:43Z) - Active Generation for Image Classification [45.93535669217115]
本稿では,モデルのニーズと特徴に着目し,画像生成の効率性に対処することを提案する。
能動学習の中心的傾向として,ActGenという手法が,画像生成のトレーニング・アウェア・アプローチを取り入れている。
論文 参考訳(メタデータ) (2024-03-11T08:45:31Z) - BootPIG: Bootstrapping Zero-shot Personalized Image Generation
Capabilities in Pretrained Diffusion Models [33.6421568407629]
本稿では,オブジェクトの参照画像を提供する新しいアーキテクチャ(BootPIG)を提案する。
提案したBootPIGアーキテクチャは、事前訓練されたテキスト-画像拡散モデルに最小限の変更を加える。
数日間の事前トレーニングを必要とする既存の方法とは対照的に、BootPIGアーキテクチャはおよそ1時間でトレーニングできる。
論文 参考訳(メタデータ) (2024-01-25T06:18:20Z) - RenAIssance: A Survey into AI Text-to-Image Generation in the Era of
Large Model [93.8067369210696]
テキスト・ツー・イメージ生成(テキスト・トゥ・イメージ・ジェネレーション、英: Text-to-image Generation、TTI)とは、テキスト入力を処理し、テキスト記述に基づいて高忠実度画像を生成するモデルである。
拡散モデル (diffusion model) は、繰り返しステップによるノイズの体系的導入を通じて画像の生成に使用される顕著な生成モデルである。
大規模モデルの時代、モデルサイズを拡大し、大規模言語モデルとの統合により、TTIモデルの性能がさらに向上した。
論文 参考訳(メタデータ) (2023-09-02T03:27:20Z) - The Role of Data Curation in Image Captioning [26.61662352061468]
本論文は, サンプルの総数を増やすことなく, データセット中の難しいサンプルを積極的にキュレートすることによって, この方向性に寄与する。
BLIPとBEiT-3モデルを用いたFlickr30KとCOCOデータセットの実験は、これらのキュレーション手法が実際に改善された画像キャプションモデルをもたらすことを示した。
論文 参考訳(メタデータ) (2023-05-05T15:16:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。