論文の概要: Segmentation-Free Guidance for Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2407.04800v1
- Date: Mon, 3 Jun 2024 17:51:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 14:29:03.397638
- Title: Segmentation-Free Guidance for Text-to-Image Diffusion Models
- Title(参考訳): テキスト・画像拡散モデルのための分割自由誘導法
- Authors: Kambiz Azarian, Debasmit Das, Qiqi Hou, Fatih Porikli,
- Abstract要約: 安定拡散のようなテキストと画像の拡散モデルのための新しい手法であるセグメンテーションフリーガイダンスを導入する。
追加の計算コストなしでは、拡散モデル自体をインプリッドセグメンテーションネットワークとして使用し、したがってセグメンテーションフリー誘導と呼ばれる。
FID,CLIP,IS,PickScoreを主観的,主観的に評価する。
- 参考スコア(独自算出の注目度): 44.19485144209683
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce segmentation-free guidance, a novel method designed for text-to-image diffusion models like Stable Diffusion. Our method does not require retraining of the diffusion model. At no additional compute cost, it uses the diffusion model itself as an implied segmentation network, hence named segmentation-free guidance, to dynamically adjust the negative prompt for each patch of the generated image, based on the patch's relevance to concepts in the prompt. We evaluate segmentation-free guidance both objectively, using FID, CLIP, IS, and PickScore, and subjectively, through human evaluators. For the subjective evaluation, we also propose a methodology for subsampling the prompts in a dataset like MS COCO-30K to keep the number of human evaluations manageable while ensuring that the selected subset is both representative in terms of content and fair in terms of model performance. The results demonstrate the superiority of our segmentation-free guidance to the widely used classifier-free method. Human evaluators preferred segmentation-free guidance over classifier-free 60% to 19%, with 18% of occasions showing a strong preference. Additionally, PickScore win-rate, a recently proposed metric mimicking human preference, also indicates a preference for our method over classifier-free.
- Abstract(参考訳): 安定拡散のようなテキストと画像の拡散モデルのための新しい手法であるセグメンテーションフリーガイダンスを導入する。
拡散モデルの再学習は不要である。
追加の計算コストなしでは、拡散モデル自体をインプリッドセグメンテーションネットワークとして使用し、したがってセグメンテーションフリーガイダンスと呼ばれ、プロンプトの概念に対するパッチの関連性に基づいて、生成された画像の各パッチに対する負のプロンプトを動的に調整する。
FID,CLIP,IS,PickScoreを主観的,主観的に評価する。
主観評価には,MS COCO-30Kのようなデータセットのプロンプトをサブサンプリングする手法も提案する。
その結果,広く使用されている分類器フリー手法に対するセグメント化フリーガイダンスの優位性を示した。
人間の評価者は、分類子なしの60%から19%よりもセグメンテーションなしの指導を好んだが、その18%は強い嗜好を示した。
さらに、最近提案された人間の嗜好を模倣する指標であるPickScore win-rateも、分類器フリーよりもメソッドの好みを示している。
関連論文リスト
- Adversarial Semi-Supervised Domain Adaptation for Semantic Segmentation:
A New Role for Labeled Target Samples [7.199108088621308]
我々は、ラベル付き対象データがソースサンプルまたは実際のターゲットサンプルとして振る舞う場合に、新たなトレーニング目標損失を設計する。
提案手法を支援するために,ソースデータとラベル付きターゲットデータを混合し,同じ適応プロセスを適用する補完手法を検討する。
本稿では,GTA5,SynTHIA,Cityscapesのベンチマーク実験を通じて得られた知見を紹介する。
論文 参考訳(メタデータ) (2023-12-12T15:40:22Z) - Towards Better Certified Segmentation via Diffusion Models [62.21617614504225]
セグメンテーションモデルは敵の摂動に弱いため、医療や自動運転といった重要な意思決定システムでの使用を妨げます。
近年,理論的保証を得るためにガウス雑音を入力に加えることにより,セグメント化予測のランダム化が提案されている。
本稿では,ランダムな平滑化と拡散モデルを組み合わせたセグメンテーション予測の問題に対処する。
論文 参考訳(メタデータ) (2023-06-16T16:30:39Z) - Explaining Cross-Domain Recognition with Interpretable Deep Classifier [100.63114424262234]
解釈可能なDeep(IDC)は、ターゲットサンプルの最も近いソースサンプルを、分類器が決定を下す証拠として学習する。
我々のIDCは、精度の劣化がほとんどなく、最適なリジェクションオプションの分類を効果的に調整する、より説明可能なモデルに導かれる。
論文 参考訳(メタデータ) (2022-11-15T15:58:56Z) - Classifier-Free Diffusion Guidance [17.355749359987648]
誘導法は条件付き拡散モデルにおけるモードカバレッジとサンプル忠実度をトレードオフする手法として最近導入された。
このような分類器を使わずに、純粋な生成モデルによってガイダンスを実際に実行できることが示される。
結果の条件と非条件のスコアの見積もりを組み合わせることで、サンプルの品質と多様性のトレードオフを達成します。
論文 参考訳(メタデータ) (2022-07-26T01:42:07Z) - False membership rate control in mixture models [1.387448620257867]
クラスタリングタスクは、サンプルの要素を均質なグループに分割する。
教師付き設定では、このアプローチはよく知られており、禁忌オプションの分類として言及されている。
本稿では, 教師なし混合モデルフレームワークで再検討し, 偽会員率が予め定義された名目レベルを超えないことを保証する手法を開発することを目的とする。
論文 参考訳(メタデータ) (2022-03-04T22:37:59Z) - Learning Debiased and Disentangled Representations for Semantic
Segmentation [52.35766945827972]
セマンティックセグメンテーションのためのモデルに依存しない訓練手法を提案する。
各トレーニングイテレーションで特定のクラス情報をランダムに除去することにより、クラス間の機能依存を効果的に削減する。
提案手法で訓練したモデルは,複数のセマンティックセグメンテーションベンチマークにおいて強い結果を示す。
論文 参考訳(メタデータ) (2021-10-31T16:15:09Z) - Active Learning for Deep Object Detection via Probabilistic Modeling [27.195742892250916]
オブジェクト検出のための新しい深層アクティブラーニング手法を提案する。
提案手法は,各局所化および分類ヘッドの出力に対する確率分布を推定する混合密度ネットワークに依存する。
本手法では,両頭部の2種類の不確実性を集約したスコアリング関数を用いて,各画像のインフォラティブネススコアを求める。
論文 参考訳(メタデータ) (2021-03-30T07:37:11Z) - Deep Semi-supervised Knowledge Distillation for Overlapping Cervical
Cell Instance Segmentation [54.49894381464853]
本稿では, ラベル付きデータとラベルなしデータの両方を, 知識蒸留による精度向上に活用することを提案する。
摂動に敏感なサンプルマイニングを用いたマスク誘導型平均教師フレームワークを提案する。
実験の結果,ラベル付きデータのみから学習した教師付き手法と比較して,提案手法は性能を著しく向上することがわかった。
論文 参考訳(メタデータ) (2020-07-21T13:27:09Z) - Self-Supervised Tuning for Few-Shot Segmentation [82.32143982269892]
Few-shotのセグメンテーションは、アノテートされたサンプルがほとんどない各画像ピクセルにカテゴリラベルを割り当てることを目的としている。
既存のメタラーニング手法では, 画像から抽出した視覚的特徴を埋め込み空間に埋め込むと, カテゴリー別識別記述子の生成に失敗する傾向にある。
本稿では,複数のエピソードにまたがる潜在特徴の分布を,自己分割方式に基づいて動的に調整する適応型フレームワークチューニングを提案する。
論文 参考訳(メタデータ) (2020-04-12T03:53:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。