論文の概要: Aligning Generative Denoising with Discriminative Objectives Unleashes Diffusion for Visual Perception
- arxiv url: http://arxiv.org/abs/2504.11457v1
- Date: Tue, 15 Apr 2025 17:59:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 22:09:29.175375
- Title: Aligning Generative Denoising with Discriminative Objectives Unleashes Diffusion for Visual Perception
- Title(参考訳): 視覚知覚の拡散を解き放つ識別対象による生成的認知の調整
- Authors: Ziqi Pang, Xin Xu, Yu-Xiong Wang,
- Abstract要約: 我々は、生成的拡散過程と知覚タスクのアライメントを分析し、強化する。
初期のデノベーションステップは、知覚品質に不相応に寄与している。
生成プロセスは、修正プロンプトに適応可能な制御可能なユーザインタフェースとして機能し、一意に相互作用を可能にする。
- 参考スコア(独自算出の注目度): 33.49846668821787
- License:
- Abstract: With the success of image generation, generative diffusion models are increasingly adopted for discriminative tasks, as pixel generation provides a unified perception interface. However, directly repurposing the generative denoising process for discriminative objectives reveals critical gaps rarely addressed previously. Generative models tolerate intermediate sampling errors if the final distribution remains plausible, but discriminative tasks require rigorous accuracy throughout, as evidenced in challenging multi-modal tasks like referring image segmentation. Motivated by this gap, we analyze and enhance alignment between generative diffusion processes and perception tasks, focusing on how perception quality evolves during denoising. We find: (1) earlier denoising steps contribute disproportionately to perception quality, prompting us to propose tailored learning objectives reflecting varying timestep contributions; (2) later denoising steps show unexpected perception degradation, highlighting sensitivity to training-denoising distribution shifts, addressed by our diffusion-tailored data augmentation; and (3) generative processes uniquely enable interactivity, serving as controllable user interfaces adaptable to correctional prompts in multi-round interactions. Our insights significantly improve diffusion-based perception models without architectural changes, achieving state-of-the-art performance on depth estimation, referring image segmentation, and generalist perception tasks. Code available at https://github.com/ziqipang/ADDP.
- Abstract(参考訳): 画像生成の成功に伴い、画素生成が統一的な認識インターフェースを提供するため、識別タスクには生成拡散モデルがますます採用されている。
しかし、差別的目的のために生成的妄想過程を直接再定義することは、これまでほとんど解決されなかった致命的なギャップを明らかにしている。
生成モデルは最終分布が妥当なままである場合、中間サンプリングエラーを許容するが、画像セグメンテーションの参照のようなマルチモーダルなタスクにおいて証明されるように、識別的タスクは厳密な精度を必要とする。
このギャップによって、私たちは生成的拡散過程と知覚タスクのアライメントを分析し、向上させ、認知の質がどのように進化するかに注目します。
その結果,(1) 早期の認知段階は, 知覚品質に不均衡に寄与し, 様々なタイムステップの寄与を反映した調整学習目標の提案, (2) 後続の認知段階は, 予期せぬ知覚の劣化を示し, 拡散調整データ拡張によって対処されるトレーニング・デノゲーションの分布シフトへの感受性を強調し, (3) 生成過程は, 多ラウンドインタラクションにおける修正プロンプトに適応可能な制御可能なユーザインタフェースとして, 対話性を独特に実現していることがわかった。
アーキテクチャ的変化のない拡散に基づく知覚モデルの改善,深度推定の最先端性能,画像分割の参照,一般認識タスクの達成などについて検討した。
コードはhttps://github.com/ziqipang/ADDP.comで公開されている。
関連論文リスト
- Understanding and Improving Training-Free AI-Generated Image Detections with Vision Foundation Models [68.90917438865078]
顔合成と編集のためのディープフェイク技術は、生成モデルに重大なリスクをもたらす。
本稿では,モデルバックボーン,タイプ,データセット間で検出性能がどう変化するかを検討する。
本稿では、顔画像のパフォーマンスを向上させるContrastive Blurと、ノイズタイプのバイアスに対処し、ドメイン間のパフォーマンスのバランスをとるMINDERを紹介する。
論文 参考訳(メタデータ) (2024-11-28T13:04:45Z) - What Matters When Repurposing Diffusion Models for General Dense Perception Tasks? [49.84679952948808]
最近の研究は、高密度知覚タスクのためのT2I拡散モデルを簡単に調整することで有望な結果を示す。
拡散前処理における伝達効率と性能に影響を及ぼす重要な要因を徹底的に検討する。
我々の研究は、濃密な視覚認知タスクに特化した効果的な決定論的ワンステップ微調整パラダイムであるGenPerceptの開発において頂点に達した。
論文 参考訳(メタデータ) (2024-03-10T04:23:24Z) - Bridging Generative and Discriminative Models for Unified Visual
Perception with Diffusion Priors [56.82596340418697]
本稿では,豊富な生成前駆体を含む事前学習型安定拡散(SD)モデルと,階層的表現を統合可能な統一型ヘッド(Uヘッド)と,識別前駆体を提供する適応型専門家からなる,シンプルで効果的なフレームワークを提案する。
包括的調査では、異なる時間ステップで潜伏変数に隠された知覚の粒度や様々なU-netステージなど、バーマスの潜在的な特性が明らかになった。
有望な結果は,有望な学習者としての拡散モデルの可能性を示し,情報的かつ堅牢な視覚表現の確立にその意義を定めている。
論文 参考訳(メタデータ) (2024-01-29T10:36:57Z) - Denoising Diffusion Semantic Segmentation with Mask Prior Modeling [61.73352242029671]
本稿では,従来の識別的アプローチのセマンティックセグメンテーション品質を,デノナイズ拡散生成モデルでモデル化したマスクを用いて改善することを提案する。
市販セグメンタを用いた先行モデルの評価を行い,ADE20KとCityscapesの実験結果から,本手法が競争力のある定量的性能を実現することを示す。
論文 参考訳(メタデータ) (2023-06-02T17:47:01Z) - Deep Semantic Statistics Matching (D2SM) Denoising Network [70.01091467628068]
本稿では,Deep Semantic Statistics Matching (D2SM) Denoising Networkを紹介する。
事前訓練された分類ネットワークの意味的特徴を利用して、意味的特徴空間における明瞭な画像の確率的分布と暗黙的に一致させる。
識別画像のセマンティックな分布を学習することで,ネットワークの認知能力を大幅に向上させることを実証的に見出した。
論文 参考訳(メタデータ) (2022-07-19T14:35:42Z) - Adversarial Semantic Data Augmentation for Human Pose Estimation [96.75411357541438]
本研究では,セマンティックデータ拡張法 (SDA) を提案する。
また,適応的セマンティックデータ拡張 (ASDA) を提案する。
最先端の結果は、挑戦的なベンチマークで得られます。
論文 参考訳(メタデータ) (2020-08-03T07:56:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。