論文の概要: Diff-2-in-1: Bridging Generation and Dense Perception with Diffusion Models
- arxiv url: http://arxiv.org/abs/2411.05005v1
- Date: Thu, 07 Nov 2024 18:59:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-08 19:39:19.927982
- Title: Diff-2-in-1: Bridging Generation and Dense Perception with Diffusion Models
- Title(参考訳): Diff-2-in-1:拡散モデルによるブリッジ生成と密度知覚
- Authors: Shuhong Zheng, Zhipeng Bao, Ruoyu Zhao, Martial Hebert, Yu-Xiong Wang,
- Abstract要約: マルチモーダルデータ生成と濃密な視覚知覚の両方を扱うために,統一的で汎用的な拡散型フレームワークDiff-2-in-1を導入する。
また,従来のトレーニングセットの分布を反映したマルチモーダルデータを作成するために,デノナイジングネットワークを利用することにより,マルチモーダル生成による識別的視覚知覚をさらに強化する。
- 参考スコア(独自算出の注目度): 39.127620891450526
- License:
- Abstract: Beyond high-fidelity image synthesis, diffusion models have recently exhibited promising results in dense visual perception tasks. However, most existing work treats diffusion models as a standalone component for perception tasks, employing them either solely for off-the-shelf data augmentation or as mere feature extractors. In contrast to these isolated and thus sub-optimal efforts, we introduce a unified, versatile, diffusion-based framework, Diff-2-in-1, that can simultaneously handle both multi-modal data generation and dense visual perception, through a unique exploitation of the diffusion-denoising process. Within this framework, we further enhance discriminative visual perception via multi-modal generation, by utilizing the denoising network to create multi-modal data that mirror the distribution of the original training set. Importantly, Diff-2-in-1 optimizes the utilization of the created diverse and faithful data by leveraging a novel self-improving learning mechanism. Comprehensive experimental evaluations validate the effectiveness of our framework, showcasing consistent performance improvements across various discriminative backbones and high-quality multi-modal data generation characterized by both realism and usefulness.
- Abstract(参考訳): 高忠実度画像合成以外にも、拡散モデルは近年、濃密な視覚知覚タスクにおいて有望な結果を示した。
しかしながら、既存のほとんどの研究は、拡散モデルを知覚タスクのスタンドアロンコンポーネントとして扱い、既製のデータ拡張のためにのみ利用するか、単に特徴抽出器として利用する。
これらの分離された、従って準最適の取り組みとは対照的に、拡散デノベーションプロセスのユニークな利用により、多モードデータ生成と高密度視覚の両方を同時に処理できる統一的で汎用的な拡散ベースのフレームワークDiff-2-in-1を導入する。
本フレームワークでは,マルチモーダル生成による識別的視覚知覚をさらに強化し,デノナイジングネットワークを利用して,元のトレーニングセットの分布を反映したマルチモーダルデータを生成する。
重要なことに、Diff-2-in-1は、新しい自己改善学習機構を活用することにより、作成された多様で忠実なデータの利用を最適化する。
総合的な実験により,本フレームワークの有効性を検証し,様々な差別的バックボーンにおける一貫した性能向上と,現実性と有用性の両方を特徴とする高品質なマルチモーダルデータ生成を示す。
関連論文リスト
- Improving Diffusion-based Data Augmentation with Inversion Spherical Interpolation [6.442738337380714]
拡散に基づくDA法は,高品質なサンプルを生成する上で重要な2つの鍵である忠実さと多様性の両方を考慮できない。
本稿では,新しいインバージョン補間DA法Diff-IIを提案する。
複数の画像分類タスクの実験は、Diff-IIが最先端拡散に基づくDA法に対して有効であることを示した。
論文 参考訳(メタデータ) (2024-08-29T05:05:02Z) - DetDiffusion: Synergizing Generative and Perceptive Models for Enhanced Data Generation and Perception [78.26734070960886]
現在の知覚モデルは、リソース集約的なデータセットに大きく依存している。
セグメンテーションを通じて知覚認識損失(P.A.損失)を導入し、品質と制御性の両方を改善した。
本手法は,世代間における知覚認識属性(P.A. Attr)の抽出と利用により,データ拡張をカスタマイズする。
論文 参考訳(メタデータ) (2024-03-20T04:58:03Z) - Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - Bridging Generative and Discriminative Models for Unified Visual
Perception with Diffusion Priors [56.82596340418697]
本稿では,豊富な生成前駆体を含む事前学習型安定拡散(SD)モデルと,階層的表現を統合可能な統一型ヘッド(Uヘッド)と,識別前駆体を提供する適応型専門家からなる,シンプルで効果的なフレームワークを提案する。
包括的調査では、異なる時間ステップで潜伏変数に隠された知覚の粒度や様々なU-netステージなど、バーマスの潜在的な特性が明らかになった。
有望な結果は,有望な学習者としての拡散モデルの可能性を示し,情報的かつ堅牢な視覚表現の確立にその意義を定めている。
論文 参考訳(メタデータ) (2024-01-29T10:36:57Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - DiffDis: Empowering Generative Diffusion Model with Cross-Modal
Discrimination Capability [75.9781362556431]
本稿では,拡散過程下での1つのフレームワークに,モダクティブと差別的事前学習を統一するDiffDisを提案する。
DiffDisは画像生成タスクと画像テキスト識別タスクの両方において単一タスクモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-18T05:03:48Z) - Collaborative Diffusion for Multi-Modal Face Generation and Editing [34.16906110777047]
本稿では,事前学習した単モーダル拡散モデルと協調して複数モーダル顔の生成と編集を行うコラボレーティブ拡散について述べる。
具体的には、事前学習された各ユニモーダルモデルに対する空間的時間的影響関数を予測することにより、マルチモーダルな認知ステップを適応的に幻覚するメタネットワークである動的ディフューザを提案する。
論文 参考訳(メタデータ) (2023-04-20T17:59:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。