論文の概要: Negative Token Merging: Image-based Adversarial Feature Guidance
- arxiv url: http://arxiv.org/abs/2412.01339v1
- Date: Mon, 02 Dec 2024 10:06:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:51:55.247102
- Title: Negative Token Merging: Image-based Adversarial Feature Guidance
- Title(参考訳): 負のトークンマージ:画像に基づく敵対的特徴ガイダンス
- Authors: Jaskirat Singh, Lindsey Li, Weijia Shi, Ranjay Krishna, Yejin Choi, Pang Wei Koh, Michael F. Cohen, Stephen Gould, Liang Zheng, Luke Zettlemoyer,
- Abstract要約: 本稿では,NegToMe(負のトークンマージ)を導入し,参照画像や他の画像の視覚的特徴を直接バッチで利用して,敵対的な誘導を行う。
NegToMeは出力画像の品質を犠牲にすることなく、出力の多様性(人種、性別、視覚)を著しく向上させる。
著作権のあるコンテンツとの視覚的類似度を34.57%削減する。
- 参考スコア(独自算出の注目度): 114.65069052244088
- License:
- Abstract: Text-based adversarial guidance using a negative prompt has emerged as a widely adopted approach to push the output features away from undesired concepts. While useful, performing adversarial guidance using text alone can be insufficient to capture complex visual concepts and avoid undesired visual elements like copyrighted characters. In this paper, for the first time we explore an alternate modality in this direction by performing adversarial guidance directly using visual features from a reference image or other images in a batch. In particular, we introduce negative token merging (NegToMe), a simple but effective training-free approach which performs adversarial guidance by selectively pushing apart matching semantic features (between reference and output generation) during the reverse diffusion process. When used w.r.t. other images in the same batch, we observe that NegToMe significantly increases output diversity (racial, gender, visual) without sacrificing output image quality. Similarly, when used w.r.t. a reference copyrighted asset, NegToMe helps reduce visual similarity with copyrighted content by 34.57%. NegToMe is simple to implement using just few-lines of code, uses only marginally higher (<4%) inference times and generalizes to different diffusion architectures like Flux, which do not natively support the use of a separate negative prompt. Code is available at https://negtome.github.io
- Abstract(参考訳): 負のプロンプトを用いたテキストベースの敵対的指導は、望ましくない概念から出力機能を遠ざけるために広く採用されているアプローチとして現れてきた。
テキストのみを用いた敵対的指導は有用ではあるが、複雑な視覚概念を捉え、著作権のある文字のような望ましくない視覚要素を避けるには不十分である。
本稿では,参照画像や他の画像の視覚的特徴をバッチで直接利用することで,この方向の交互なモダリティを初めて探求する。
特に、逆拡散過程において、一致する意味的特徴(参照と出力生成)を選択的に分割することで、逆誘導を行う、単純だが効果的なトレーニングフリーアプローチである負のトークンマージ(NegToMe)を導入する。
同じバッチでw.r.t.他の画像を使用すると、NegToMeは出力品質を犠牲にすることなく、出力の多様性(人種、性別、視覚)を著しく向上させる。
同様に、参照著作権資産をw.r.t.で使用すると、NegToMeは著作権コンテンツとの視覚的類似性を34.57%削減する。
NegToMeはわずか数行のコードで実装が簡単で、わずかに高い (4%) 推論時間しか使用せず、Fluxのような異なる拡散アーキテクチャに一般化する。
コードはhttps://negtome.github.ioで公開されている。
関連論文リスト
- Optimizing Negative Prompts for Enhanced Aesthetics and Fidelity in Text-To-Image Generation [1.4138057640459576]
我々は、画像生成の高速化に向けて、負のプロンプト生成を最適化する新しい方法であるNegOptを提案する。
その結果,他の手法と比較して,インセプションスコアの25%が大幅に増加した。
論文 参考訳(メタデータ) (2024-03-12T12:44:34Z) - High-Fidelity Guided Image Synthesis with Latent Diffusion Models [50.39294302741698]
提案手法は, ユーザ満足度スコアを85.32%以上上回り, 従来の最先端技術よりも優れていた。
人的ユーザ調査の結果、提案手法は、全体のユーザ満足度スコアにおいて、従来の最先端技術よりも85.32%以上優れていたことが示されている。
論文 参考訳(メタデータ) (2022-11-30T15:43:20Z) - Exploring Negatives in Contrastive Learning for Unpaired Image-to-Image
Translation [12.754320302262533]
我々は、パッチをスペーシングし、ランキング付けすることで、アンペア画像から画像への変換(PUT)のための新しい負のプルーニング技術を導入する。
提案アルゴリズムは効率的で柔軟で,対応するパッチ間で本質的な情報を安定的に学習することができる。
論文 参考訳(メタデータ) (2022-04-23T08:31:18Z) - Modulated Contrast for Versatile Image Synthesis [60.304183493234376]
MoNCEは画像のコントラストを導入し、多面的画像間距離の知覚のための校正基準を学習する。
複数の対照的な目的に対して協調的に負のサンプルのプッシュ力を変調するために,MoNCEの最適輸送を導入する。
論文 参考訳(メタデータ) (2022-03-17T14:03:46Z) - Robust Contrastive Learning Using Negative Samples with Diminished
Semantics [23.38896719740166]
慎重に設計された負のサンプルを生成することで、コントラスト学習がより堅牢な表現を学習できることが示される。
我々は, テクスチャベースとパッチベースの拡張という2つの手法を開発し, 負のサンプルを生成する。
また,本手法と生成したテクスチャベースサンプルを分析し,特定のイメージネットクラスを分類するにはテクスチャの特徴が不可欠であることを示す。
論文 参考訳(メタデータ) (2021-10-27T05:38:00Z) - Seed the Views: Hierarchical Semantic Alignment for Contrastive
Representation Learning [116.91819311885166]
一つの画像から生成されたビューをtextbfCross-samples や Multi-level representation に拡張することで,階層的なセマンティックアライメント戦略を提案する。
提案手法はCsMlと呼ばれ,サンプル間の多層視覚表現を堅牢な方法で統合する機能を備えている。
論文 参考訳(メタデータ) (2020-12-04T17:26:24Z) - Contrastive Learning for Unpaired Image-to-Image Translation [64.47477071705866]
画像から画像への変換では、出力の各パッチは、入力中の対応するパッチの内容を、ドメインに依存しない形で反映すべきである。
本研究では,両者の相互情報を最大化するために,コントラスト学習に基づく枠組みを提案する。
筆者らのフレームワークは、画質の向上とトレーニング時間の短縮を図りながら、画像から画像への翻訳設定の一方的な翻訳を可能にすることを実証している。
論文 参考訳(メタデータ) (2020-07-30T17:59:58Z) - Whitening for Self-Supervised Representation Learning [129.57407186848917]
本稿では,潜在空間の特徴の白化に基づく自己教師付き表現学習(SSL)のための新しい損失関数を提案する。
我々の解は非対称なネットワークを必要とせず、概念的には単純である。
論文 参考訳(メタデータ) (2020-07-13T12:33:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。