論文の概要: Plug-and-Play Interpretable Responsible Text-to-Image Generation via Dual-Space Multi-facet Concept Control
- arxiv url: http://arxiv.org/abs/2503.18324v1
- Date: Mon, 24 Mar 2025 04:06:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:38:38.511680
- Title: Plug-and-Play Interpretable Responsible Text-to-Image Generation via Dual-Space Multi-facet Concept Control
- Title(参考訳): Dual-Space Multi-facet 概念制御によるプラグイン・アンド・プレイ対応テキスト・ツー・イメージ生成
- Authors: Basim Azam, Naveed Akhtar,
- Abstract要約: スケーラブルなT2I生成を実現するためのユニークな手法を提案する。
鍵となるアイデアは、ターゲットのT2Iパイプラインを、所望のコンセプトに対して解釈可能な複合責任空間を学習する外部プラグアンドプレイ機構で蒸留することである。
推論では、学習空間を利用して生成内容を変調する。
- 参考スコア(独自算出の注目度): 28.030708956348864
- License:
- Abstract: Ethical issues around text-to-image (T2I) models demand a comprehensive control over the generative content. Existing techniques addressing these issues for responsible T2I models aim for the generated content to be fair and safe (non-violent/explicit). However, these methods remain bounded to handling the facets of responsibility concepts individually, while also lacking in interpretability. Moreover, they often require alteration to the original model, which compromises the model performance. In this work, we propose a unique technique to enable responsible T2I generation by simultaneously accounting for an extensive range of concepts for fair and safe content generation in a scalable manner. The key idea is to distill the target T2I pipeline with an external plug-and-play mechanism that learns an interpretable composite responsible space for the desired concepts, conditioned on the target T2I pipeline. We use knowledge distillation and concept whitening to enable this. At inference, the learned space is utilized to modulate the generative content. A typical T2I pipeline presents two plug-in points for our approach, namely; the text embedding space and the diffusion model latent space. We develop modules for both points and show the effectiveness of our approach with a range of strong results.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)モデルに関する倫理的問題は、生成コンテンツに対する包括的な制御を要求する。
責任あるT2Iモデルのこれらの問題に対処する既存の技術は、生成されたコンテンツが公正で安全な(非暴力的/明示的)ことを目標としている。
しかし、これらの手法は責任概念の側面を個別に扱うことに縛られ、解釈性にも欠ける。
さらに、しばしばオリジナルのモデルを変更する必要があり、モデルのパフォーマンスを損なう。
本研究では,公正かつ安全なコンテンツ生成のための幅広い概念を,スケーラブルな方法で同時に説明することにより,責任あるT2I生成を可能にするユニークな手法を提案する。
鍵となるアイデアは、ターゲットのT2Iパイプラインに条件付きで、所望のコンセプトに対して解釈可能な複合責任空間を学習する外部プラグアンドプレイ機構で、ターゲットのT2Iパイプラインを蒸留することである。
私たちは知識蒸留と概念白化を使ってこれを可能にします。
推論では、学習空間を利用して生成内容を変調する。
典型的なT2Iパイプラインでは,テキスト埋め込み空間と拡散モデル潜在空間の2つのプラグインポイントが提案されている。
両点のモジュールを開発し,より強力な結果を得たアプローチの有効性を示す。
関連論文リスト
- EraseAnything: Enabling Concept Erasure in Rectified Flow Transformers [33.195628798316754]
EraseAnythingは、最新のフローベースのT2Iフレームワークにおける概念消去に対処するために特別に開発された最初の方法である。
概念消去を二段階最適化問題として定式化し,LoRAに基づくパラメータチューニングとアテンションマップ正規化器を用いた。
本研究では,意図しない概念の除去が意図せず,無関係な概念のパフォーマンスを損なうことのない自己矛盾型学習戦略を提案する。
論文 参考訳(メタデータ) (2024-12-29T09:42:53Z) - TED-VITON: Transformer-Empowered Diffusion Models for Virtual Try-On [78.33688031340698]
TED-VITONはGarment Semantic (GS) Adapterを統合した新しいフレームワークである。
これらのイノベーションは、視覚的品質とテキストの忠実さにおける最先端(SOTA)のパフォーマンスを可能にする。
論文 参考訳(メタデータ) (2024-11-26T01:00:09Z) - SAFREE: Training-Free and Adaptive Guard for Safe Text-to-Image And Video Generation [65.30207993362595]
安全な生成のための学習/編集に基づく手法は、モデルから有害な概念を取り除くが、いくつかの課題に直面している。
安全なT2IとT2VのためのトレーニングフリーアプローチであるSAFREEを提案する。
テキスト埋め込み空間における有毒な概念の集合に対応する部分空間を検出し、この部分空間から直ちに埋め込みを行う。
論文 参考訳(メタデータ) (2024-10-16T17:32:23Z) - Automated Black-box Prompt Engineering for Personalized Text-to-Image Generation [149.96612254604986]
PRISMは人間の解釈可能なプロンプトと転送可能なプロンプトを自動的に識別するアルゴリズムである。
T2Iモデルへのブラックボックスアクセスのみを前提として、望まれる概念を効果的に生成できる。
本実験は,オブジェクト,スタイル,画像の正確なプロンプト生成におけるPRISMの有効性と有効性を示す。
論文 参考訳(メタデータ) (2024-03-28T02:35:53Z) - Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object Segmentation [72.90144343056227]
ビデオ理解タスクのためのテキスト・ツー・ビデオ拡散モデル(T2V)から生成した視覚的表現について検討する。
固定されたT2Vモデル上に構築された専用コンポーネントを備えた新しいフレームワーク「VD-IT」を紹介する。
我々のVD-ITは、既存の最先端手法を超越して、非常に競争力のある結果を得る。
論文 参考訳(メタデータ) (2024-03-18T17:59:58Z) - Box It to Bind It: Unified Layout Control and Attribute Binding in T2I
Diffusion Models [28.278822620442774]
Box-it-to-Bind-it (B2B) は、テキスト・トゥ・イメージ(T2I)拡散モデルにおける空間制御と意味的精度を改善するためのトレーニング不要なアプローチである。
B2Bは、破滅的な無視、属性バインディング、レイアウトガイダンスという、T2Iの3つの重要な課題をターゲットにしている。
B2Bは既存のT2Iモデルのプラグイン・アンド・プレイモジュールとして設計されている。
論文 参考訳(メタデータ) (2024-02-27T21:51:32Z) - InteractDiffusion: Interaction Control in Text-to-Image Diffusion Models [43.62338454684645]
本研究では,Human-Object Interaction (HOI) 情報を用いたT2I拡散モデルの条件付け問題について検討する。
我々は、既存の訓練済みT2I拡散モデルを拡張する、InteractDiffusionと呼ばれるプラグイン可能な相互作用制御モデルを提案する。
我々のモデルは既存のT2I拡散モデルにおける相互作用と位置を制御できる。
論文 参考訳(メタデータ) (2023-12-10T10:35:16Z) - Hierarchical Spatio-temporal Decoupling for Text-to-Video Generation [49.298187741014345]
テクスト・ツー・ビデオ生成(T2V)の複雑さの増大につながる空間的内容と時間的ダイナミクスを相互に結合する現在の方法
ビデオの空間的要因と時間的要因を2つの視点から分離することで性能を向上する拡散モデルに基づくHiGenを提案する。
論文 参考訳(メタデータ) (2023-12-07T17:59:07Z) - BLIP-Diffusion: Pre-trained Subject Representation for Controllable
Text-to-Image Generation and Editing [73.74570290836152]
BLIP-Diffusionはマルチモーダル制御をサポートする新しい主観駆動画像生成モデルである。
他の主観駆動生成モデルとは異なり、BLIP-Diffusionは主観表現を提供するために事前訓練された新しいマルチモーダルエンコーダを導入する。
論文 参考訳(メタデータ) (2023-05-24T04:51:04Z) - DirecT2V: Large Language Models are Frame-Level Directors for Zero-Shot
Text-to-Video Generation [37.25815760042241]
本稿では,テキスト・ツー・ビデオ(T2V)ビデオを生成するための新しいフレームワークであるDirecT2Vを紹介する。
拡散モデルに新しい値マッピング法とデュアルソフトマックスフィルタリングを適用し、追加のトレーニングを必要としない。
実験により,視覚的コヒーレントかつストーリーフルなビデオ制作におけるフレームワークの有効性が検証された。
論文 参考訳(メタデータ) (2023-05-23T17:57:09Z) - T2I-Adapter: Learning Adapters to Dig out More Controllable Ability for
Text-to-Image Diffusion Models [29.280739915676737]
我々は、T2Iモデルの内部知識を外部制御信号と整合させるため、シンプルで軽量なT2I-Adapterを学習する。
私たちのT2I-Adapterは、将来性のある生成品質と幅広いアプリケーションを持っています。
論文 参考訳(メタデータ) (2023-02-16T17:56:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。