論文の概要: Discovering Divergent Representations between Text-to-Image Models
- arxiv url: http://arxiv.org/abs/2509.08940v1
- Date: Wed, 10 Sep 2025 19:07:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-12 16:52:24.112661
- Title: Discovering Divergent Representations between Text-to-Image Models
- Title(参考訳): テキスト-画像モデル間の分岐表現の発見
- Authors: Lisa Dunlap, Joseph E. Gonzalez, Trevor Darrell, Fabian Caba Heilbron, Josef Sivic, Bryan Russell,
- Abstract要約: 2つの異なる生成モデルによって学習される視覚的表現の時間と方法について検討する。
進化的探索アルゴリズムCompConを導入し、あるモデルの出力において、他のモデルよりもより一般的な視覚特性を探索する。
CompConを使って、人気のあるテキストと画像のモデルを比較し、PixArtが濡れた通りで孤独に言及するプロンプトをどう表現するかといった、異なる表現を見つけます。
- 参考スコア(独自算出の注目度): 87.40710629963264
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we investigate when and how visual representations learned by two different generative models diverge. Given two text-to-image models, our goal is to discover visual attributes that appear in images generated by one model but not the other, along with the types of prompts that trigger these attribute differences. For example, "flames" might appear in one model's outputs when given prompts expressing strong emotions, while the other model does not produce this attribute given the same prompts. We introduce CompCon (Comparing Concepts), an evolutionary search algorithm that discovers visual attributes more prevalent in one model's output than the other, and uncovers the prompt concepts linked to these visual differences. To evaluate CompCon's ability to find diverging representations, we create an automated data generation pipeline to produce ID2, a dataset of 60 input-dependent differences, and compare our approach to several LLM- and VLM-powered baselines. Finally, we use CompCon to compare popular text-to-image models, finding divergent representations such as how PixArt depicts prompts mentioning loneliness with wet streets and Stable Diffusion 3.5 depicts African American people in media professions. Code at: https://github.com/adobe-research/CompCon
- Abstract(参考訳): 本稿では,2つの異なる生成モデルによって学習された視覚的表現が,いつ,どのように分岐するかを考察する。
2つのテキスト・ツー・イメージモデルを考えると、1つのモデルによって生成された画像に現れる視覚的属性と、これらの属性の違いを引き起こすプロンプトのタイプを見つけることが目的である。
例えば、あるモデルが強い感情を表現するプロンプトを与えられたときに「炎」が出力に現れることがあるが、他のモデルでは同じプロンプトを与えられた場合、この属性は生成されない。
CompCon (Comparing Concepts) は、あるモデルの出力でより一般的な視覚特性を探索する進化的アルゴリズムであり、これらの視覚的差異に関連する素早い概念を明らかにする。
分散表現を見つけるためのCompConの能力を評価するために,60個の入力依存差のデータセットであるID2を生成する自動データ生成パイプラインを作成し,そのアプローチを複数のLLMおよびVLMベースラインと比較する。
PixArtは、濡れた通りで孤独に言及するプロンプトを、安定拡散3.5はメディアの専門職でアフリカ系アメリカ人を描いている。
Code at: https://github.com/adobe-research/CompCon
関連論文リスト
- Category-level Text-to-Image Retrieval Improved: Bridging the Domain Gap with Diffusion Models and Vision Encoders [41.08205377881149]
本研究は,セマンティックカテゴリを指定または記述したクエリのテキスト・ツー・イメージ検索について検討する。
生成拡散モデルを用いて,テキストクエリを視覚的なクエリに変換する。
そして、視覚モデルと画像間の類似性を推定する。
論文 参考訳(メタデータ) (2025-08-29T18:24:38Z) - Explaining Caption-Image Interactions in CLIP Models with Second-Order Attributions [28.53636082915161]
Clipモデルのようなデュアルエンコーダアーキテクチャは、2種類の入力を共有埋め込み空間にマッピングし、それらの類似性を予測する。
一般的な一階特徴帰属法は個々の特徴の重要性を説明できるため、デュアルエンコーダに対する限られた洞察しか提供できない。
まず、各入力間の特徴-相互作用に対して、任意の微分可能なデュアルエンコーダによる予測の帰属を可能にする2階法を導出する。
論文 参考訳(メタデータ) (2024-08-26T09:55:34Z) - Adapting Dual-encoder Vision-language Models for Paraphrased Retrieval [55.90407811819347]
モデルが類似した結果を返すことを目的とした,パラフレーズ付きテキスト画像検索の課題について考察する。
我々は、大きなテキストコーパスで事前訓練された言語モデルから始まる二重エンコーダモデルを訓練する。
CLIPやOpenCLIPのような公開デュアルエンコーダモデルと比較して、最高の適応戦略で訓練されたモデルは、パラフレーズクエリのランク付けの類似性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-05-06T06:30:17Z) - DEADiff: An Efficient Stylization Diffusion Model with Disentangled
Representations [64.43387739794531]
現在のエンコーダベースのアプローチは、スタイルの転送中にテキスト・ツー・イメージモデルのテキスト制御性を著しく損なう。
この問題に対処するために、以下の2つの戦略を用いてDEADiffを紹介します。
DeAiffは、テキスト・ツー・イメージモデルに固有のテキスト制御性と、参照画像とスタイルの類似性との間の最適な視覚的スタイリング結果と最適なバランスを得る。
論文 参考訳(メタデータ) (2024-03-11T17:35:23Z) - MVAM: Multi-View Attention Method for Fine-grained Image-Text Matching [65.87255122130188]
画像テキストマッチングのためのMVAM(Multi-view Attention Method)を提案する。
また、入力データの異なる側面に注目するよう注意を喚起する目的も取り入れている。
提案手法により,異なる視点から画像やテキストをエンコードし,より重要な詳細に焦点を合わせることが可能となり,マッチング性能が向上する。
論文 参考訳(メタデータ) (2024-02-27T06:11:54Z) - IMProv: Inpainting-based Multimodal Prompting for Computer Vision Tasks [124.90137528319273]
本稿では,マルチモーダルプロンプトから視覚タスクをインコンテキストで学習できる生成モデルIMProvを提案する。
我々は、コンピュータビジョン論文とその関連キャプションから、新しい数字のデータセットにマスク付き生成変換器を訓練する。
推測時間中、テキストおよび/または画像タスクの例でモデルにプロンプトし、そのモデルに対応する出力を印字させる。
論文 参考訳(メタデータ) (2023-12-04T09:48:29Z) - Localizing and Editing Knowledge in Text-to-Image Generative Models [62.02776252311559]
異なる属性に関する知識は、独立したコンポーネントにローカライズされず、代わりに条件付きUNetのコンポーネントセットに分散される。
テキスト・ツー・イメージ・モデルの概念を効果的に編集できる高速でデータフリーなモデル編集手法Diff-QuickFixを提案する。
論文 参考訳(メタデータ) (2023-10-20T17:31:12Z) - GLIDE: Towards Photorealistic Image Generation and Editing with
Text-Guided Diffusion Models [16.786221846896108]
テキスト条件画像合成問題に対する拡散モデルについて検討し、2つの異なるガイダンス戦略を比較した。
後者は、フォトリアリズムとキャプションの類似性の両方において、人間の評価者によって好まれており、しばしばフォトリアリスティックなサンプルを生成する。
我々のモデルは、画像のインペイントを行うように微調整することができ、強力なテキスト駆動画像編集を可能にします。
論文 参考訳(メタデータ) (2021-12-20T18:42:55Z) - Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic [72.60554897161948]
最近のテキストと画像のマッチングモデルは、未修正画像と文の大きなコーパスに対してコントラスト学習を適用している。
本研究では、そのようなモデルを用いて、推論時に画像が与えられた記述テキストを生成する。
結果として得られたキャプションは、教師付きキャプション法によるキャプションよりもはるかに制限を受けない。
論文 参考訳(メタデータ) (2021-11-29T11:01:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。