論文の概要: Negative Token Merging: Image-based Adversarial Feature Guidance
- arxiv url: http://arxiv.org/abs/2412.01339v2
- Date: Thu, 05 Dec 2024 18:43:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 14:43:05.284136
- Title: Negative Token Merging: Image-based Adversarial Feature Guidance
- Title(参考訳): 負のトークンマージ:画像に基づく敵対的特徴ガイダンス
- Authors: Jaskirat Singh, Lindsey Li, Weijia Shi, Ranjay Krishna, Yejin Choi, Pang Wei Koh, Michael F. Cohen, Stephen Gould, Liang Zheng, Luke Zettlemoyer,
- Abstract要約: 負のトークンマージ(NegToMe)を導入し,画像による逆方向誘導を行う。
NegToMeは、逆拡散過程において、参照と生成された画像の間の視覚的特徴を選択的に分割する。
出力の多様性を大幅に向上させ、著作権のあるコンテンツとの視覚的類似性を34.57%削減する。
- 参考スコア(独自算出の注目度): 114.65069052244088
- License:
- Abstract: Text-based adversarial guidance using a negative prompt has emerged as a widely adopted approach to steer diffusion models away from producing undesired concepts. While useful, performing adversarial guidance using text alone can be insufficient to capture complex visual concepts or avoid specific visual elements like copyrighted characters. In this paper, for the first time we explore an alternate modality in this direction by performing adversarial guidance directly using visual features from a reference image or other images in a batch. We introduce negative token merging (NegToMe), a simple but effective training-free approach which performs adversarial guidance through images by selectively pushing apart matching visual features between reference and generated images during the reverse diffusion process. By simply adjusting the used reference, NegToMe enables a diverse range of applications. Notably, when using other images in same batch as reference, we find that NegToMe significantly enhances output diversity (e.g., racial, gender, visual) by guiding features of each image away from others. Similarly, when used w.r.t. copyrighted reference images, NegToMe reduces visual similarity to copyrighted content by 34.57%. NegToMe is simple to implement using just few-lines of code, uses only marginally higher (<4%) inference time and is compatible with different diffusion architectures, including those like Flux, which don't natively support the use of a negative prompt. Code is available at https://negtome.github.io
- Abstract(参考訳): 負のプロンプトを用いたテキストベースの敵対的指導は、望ましくない概念を生み出すことを避けるために広く採用されているアプローチとして現れている。
有用ではあるが、テキストだけで敵対的なガイダンスを実行することは、複雑な視覚概念を捉えたり、著作権のある文字のような特定の視覚要素を避けるのに不十分である。
本稿では,参照画像や他の画像の視覚的特徴をバッチで直接利用することで,この方向の交互なモダリティを初めて探求する。
我々は、逆拡散過程において、参照と生成した画像間の一致した視覚的特徴を選択的にプッシュすることで、画像を通して敵対的ガイダンスを実行する、単純だが効果的なトレーニングフリーアプローチである負のトークンマージ(NegToMe)を導入する。
使用する参照を単に調整することで、NegToMeは多様なアプリケーションを可能にする。
特に、参照と同じバッチで他の画像を使用する場合、NegToMeは、各画像の特徴を他の画像から切り離すことで、出力の多様性(人種、性別、視覚など)を著しく向上させる。
同様に、w.r.t.の著作権付き参照画像を使用すると、NegToMeは著作権付きコンテンツとの視覚的類似性を34.57%削減する。
NegToMeはほんの数行のコードを使って簡単に実装でき、わずかに高い (4%) 推論時間しか使用せず、負のプロンプトをネイティブにサポートしていないFluxのような異なる拡散アーキテクチャと互換性がある。
コードはhttps://negtome.github.ioで公開されている。
関連論文リスト
- Optimizing Negative Prompts for Enhanced Aesthetics and Fidelity in Text-To-Image Generation [1.4138057640459576]
我々は、画像生成の高速化に向けて、負のプロンプト生成を最適化する新しい方法であるNegOptを提案する。
その結果,他の手法と比較して,インセプションスコアの25%が大幅に増加した。
論文 参考訳(メタデータ) (2024-03-12T12:44:34Z) - High-Fidelity Guided Image Synthesis with Latent Diffusion Models [50.39294302741698]
提案手法は, ユーザ満足度スコアを85.32%以上上回り, 従来の最先端技術よりも優れていた。
人的ユーザ調査の結果、提案手法は、全体のユーザ満足度スコアにおいて、従来の最先端技術よりも85.32%以上優れていたことが示されている。
論文 参考訳(メタデータ) (2022-11-30T15:43:20Z) - Exploring Negatives in Contrastive Learning for Unpaired Image-to-Image
Translation [12.754320302262533]
我々は、パッチをスペーシングし、ランキング付けすることで、アンペア画像から画像への変換(PUT)のための新しい負のプルーニング技術を導入する。
提案アルゴリズムは効率的で柔軟で,対応するパッチ間で本質的な情報を安定的に学習することができる。
論文 参考訳(メタデータ) (2022-04-23T08:31:18Z) - Modulated Contrast for Versatile Image Synthesis [60.304183493234376]
MoNCEは画像のコントラストを導入し、多面的画像間距離の知覚のための校正基準を学習する。
複数の対照的な目的に対して協調的に負のサンプルのプッシュ力を変調するために,MoNCEの最適輸送を導入する。
論文 参考訳(メタデータ) (2022-03-17T14:03:46Z) - Robust Contrastive Learning Using Negative Samples with Diminished
Semantics [23.38896719740166]
慎重に設計された負のサンプルを生成することで、コントラスト学習がより堅牢な表現を学習できることが示される。
我々は, テクスチャベースとパッチベースの拡張という2つの手法を開発し, 負のサンプルを生成する。
また,本手法と生成したテクスチャベースサンプルを分析し,特定のイメージネットクラスを分類するにはテクスチャの特徴が不可欠であることを示す。
論文 参考訳(メタデータ) (2021-10-27T05:38:00Z) - Seed the Views: Hierarchical Semantic Alignment for Contrastive
Representation Learning [116.91819311885166]
一つの画像から生成されたビューをtextbfCross-samples や Multi-level representation に拡張することで,階層的なセマンティックアライメント戦略を提案する。
提案手法はCsMlと呼ばれ,サンプル間の多層視覚表現を堅牢な方法で統合する機能を備えている。
論文 参考訳(メタデータ) (2020-12-04T17:26:24Z) - Contrastive Learning for Unpaired Image-to-Image Translation [64.47477071705866]
画像から画像への変換では、出力の各パッチは、入力中の対応するパッチの内容を、ドメインに依存しない形で反映すべきである。
本研究では,両者の相互情報を最大化するために,コントラスト学習に基づく枠組みを提案する。
筆者らのフレームワークは、画質の向上とトレーニング時間の短縮を図りながら、画像から画像への翻訳設定の一方的な翻訳を可能にすることを実証している。
論文 参考訳(メタデータ) (2020-07-30T17:59:58Z) - Whitening for Self-Supervised Representation Learning [129.57407186848917]
本稿では,潜在空間の特徴の白化に基づく自己教師付き表現学習(SSL)のための新しい損失関数を提案する。
我々の解は非対称なネットワークを必要とせず、概念的には単純である。
論文 参考訳(メタデータ) (2020-07-13T12:33:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。