論文の概要: Negative Token Merging: Image-based Adversarial Feature Guidance
- arxiv url: http://arxiv.org/abs/2412.01339v1
- Date: Mon, 02 Dec 2024 10:06:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:51:55.247102
- Title: Negative Token Merging: Image-based Adversarial Feature Guidance
- Title(参考訳): 負のトークンマージ:画像に基づく敵対的特徴ガイダンス
- Authors: Jaskirat Singh, Lindsey Li, Weijia Shi, Ranjay Krishna, Yejin Choi, Pang Wei Koh, Michael F. Cohen, Stephen Gould, Liang Zheng, Luke Zettlemoyer,
- Abstract要約: 本稿では,NegToMe(負のトークンマージ)を導入し,参照画像や他の画像の視覚的特徴を直接バッチで利用して,敵対的な誘導を行う。
NegToMeは出力画像の品質を犠牲にすることなく、出力の多様性(人種、性別、視覚)を著しく向上させる。
著作権のあるコンテンツとの視覚的類似度を34.57%削減する。
- 参考スコア(独自算出の注目度): 114.65069052244088
- License:
- Abstract: Text-based adversarial guidance using a negative prompt has emerged as a widely adopted approach to push the output features away from undesired concepts. While useful, performing adversarial guidance using text alone can be insufficient to capture complex visual concepts and avoid undesired visual elements like copyrighted characters. In this paper, for the first time we explore an alternate modality in this direction by performing adversarial guidance directly using visual features from a reference image or other images in a batch. In particular, we introduce negative token merging (NegToMe), a simple but effective training-free approach which performs adversarial guidance by selectively pushing apart matching semantic features (between reference and output generation) during the reverse diffusion process. When used w.r.t. other images in the same batch, we observe that NegToMe significantly increases output diversity (racial, gender, visual) without sacrificing output image quality. Similarly, when used w.r.t. a reference copyrighted asset, NegToMe helps reduce visual similarity with copyrighted content by 34.57%. NegToMe is simple to implement using just few-lines of code, uses only marginally higher (<4%) inference times and generalizes to different diffusion architectures like Flux, which do not natively support the use of a separate negative prompt. Code is available at https://negtome.github.io
- Abstract(参考訳): 負のプロンプトを用いたテキストベースの敵対的指導は、望ましくない概念から出力機能を遠ざけるために広く採用されているアプローチとして現れてきた。
テキストのみを用いた敵対的指導は有用ではあるが、複雑な視覚概念を捉え、著作権のある文字のような望ましくない視覚要素を避けるには不十分である。
本稿では,参照画像や他の画像の視覚的特徴をバッチで直接利用することで,この方向の交互なモダリティを初めて探求する。
特に、逆拡散過程において、一致する意味的特徴(参照と出力生成)を選択的に分割することで、逆誘導を行う、単純だが効果的なトレーニングフリーアプローチである負のトークンマージ(NegToMe)を導入する。
同じバッチでw.r.t.他の画像を使用すると、NegToMeは出力品質を犠牲にすることなく、出力の多様性(人種、性別、視覚)を著しく向上させる。
同様に、参照著作権資産をw.r.t.で使用すると、NegToMeは著作権コンテンツとの視覚的類似性を34.57%削減する。
NegToMeはわずか数行のコードで実装が簡単で、わずかに高い (4%) 推論時間しか使用せず、Fluxのような異なる拡散アーキテクチャに一般化する。
コードはhttps://negtome.github.ioで公開されている。
関連論文リスト
- Distractors-Immune Representation Learning with Cross-modal Contrastive Regularization for Change Captioning [71.14084801851381]
変更キャプションは、類似した画像間のセマンティックな変化を簡潔に記述することを目的としている。
既存のほとんどの手法は、それらの違いを直接キャプチャし、エラーを起こしやすい特徴を得るリスクを負う。
本稿では,2つの画像表現の対応するチャネルを関連づけるイントラクタ免疫表現学習ネットワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T13:00:33Z) - Reference-based Motion Blur Removal: Learning to Utilize Sharpness in
the Reference Image [29.52731707976695]
典型的な設定は、近くのシャープ画像を用いて映像をビデオシーケンスでデバリングする。
本稿では,参照画像に存在する情報を利用するためのより良い手法を提案する。
本手法は, 単一画像のデブロアリング用に設計された既設ネットワークに組み込むことができる。
論文 参考訳(メタデータ) (2023-07-06T09:24:55Z) - High-Fidelity Guided Image Synthesis with Latent Diffusion Models [50.39294302741698]
提案手法は, ユーザ満足度スコアを85.32%以上上回り, 従来の最先端技術よりも優れていた。
人的ユーザ調査の結果、提案手法は、全体のユーザ満足度スコアにおいて、従来の最先端技術よりも85.32%以上優れていたことが示されている。
論文 参考訳(メタデータ) (2022-11-30T15:43:20Z) - Exploring Negatives in Contrastive Learning for Unpaired Image-to-Image
Translation [12.754320302262533]
我々は、パッチをスペーシングし、ランキング付けすることで、アンペア画像から画像への変換(PUT)のための新しい負のプルーニング技術を導入する。
提案アルゴリズムは効率的で柔軟で,対応するパッチ間で本質的な情報を安定的に学習することができる。
論文 参考訳(メタデータ) (2022-04-23T08:31:18Z) - Modulated Contrast for Versatile Image Synthesis [60.304183493234376]
MoNCEは画像のコントラストを導入し、多面的画像間距離の知覚のための校正基準を学習する。
複数の対照的な目的に対して協調的に負のサンプルのプッシュ力を変調するために,MoNCEの最適輸送を導入する。
論文 参考訳(メタデータ) (2022-03-17T14:03:46Z) - Robust Contrastive Learning Using Negative Samples with Diminished
Semantics [23.38896719740166]
慎重に設計された負のサンプルを生成することで、コントラスト学習がより堅牢な表現を学習できることが示される。
我々は, テクスチャベースとパッチベースの拡張という2つの手法を開発し, 負のサンプルを生成する。
また,本手法と生成したテクスチャベースサンプルを分析し,特定のイメージネットクラスを分類するにはテクスチャの特徴が不可欠であることを示す。
論文 参考訳(メタデータ) (2021-10-27T05:38:00Z) - Contrastive Learning for Unpaired Image-to-Image Translation [64.47477071705866]
画像から画像への変換では、出力の各パッチは、入力中の対応するパッチの内容を、ドメインに依存しない形で反映すべきである。
本研究では,両者の相互情報を最大化するために,コントラスト学習に基づく枠組みを提案する。
筆者らのフレームワークは、画質の向上とトレーニング時間の短縮を図りながら、画像から画像への翻訳設定の一方的な翻訳を可能にすることを実証している。
論文 参考訳(メタデータ) (2020-07-30T17:59:58Z) - Watching the World Go By: Representation Learning from Unlabeled Videos [78.22211989028585]
近年の単一画像教師なし表現学習技術は,様々なタスクにおいて顕著な成功を収めている。
本稿では,この自然な拡張を無償で提供することを論じる。
そこで本稿では,ビデオノイズコントラスト推定(Voice Noise Contrastive Estimation)を提案する。
論文 参考訳(メタデータ) (2020-03-18T00:07:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。