論文の概要: AnyPattern: Towards In-context Image Copy Detection
- arxiv url: http://arxiv.org/abs/2404.13788v3
- Date: Sat, 28 Sep 2024 13:03:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 22:01:21.261250
- Title: AnyPattern: Towards In-context Image Copy Detection
- Title(参考訳): AnyPattern: コンテキスト内のイメージコピー検出を目指す
- Authors: Wenhao Wang, Yifan Sun, Zhentao Tan, Yi Yang,
- Abstract要約: 本稿では、画像コピー検出(ICD)のためのコンテキスト内学習、すなわち、追加のトレーニングを必要とせず、新しい改ざんパターンで再現された画像を識別するICDモデルを提案する。
私たちはAnyPatternという名の最初の大規模パターンデータセットを構築しました。
本稿では,最も代表的な画像とレプリカのペアを選択することを学習し,そのパターンを積み重ねる方法として利用する,ImageStacker というシンプルなインコンテキスト ICD 手法を提案する。
- 参考スコア(独自算出の注目度): 26.3844038970258
- License:
- Abstract: This paper explores in-context learning for image copy detection (ICD), i.e., prompting an ICD model to identify replicated images with new tampering patterns without the need for additional training. The prompts (or the contexts) are from a small set of image-replica pairs that reflect the new patterns and are used at inference time. Such in-context ICD has good realistic value, because it requires no fine-tuning and thus facilitates fast reaction against the emergence of unseen patterns. To accommodate the "seen $\rightarrow$ unseen" generalization scenario, we construct the first large-scale pattern dataset named AnyPattern, which has the largest number of tamper patterns ($90$ for training and $10$ for testing) among all the existing ones. We benchmark AnyPattern with popular ICD methods and reveal that existing methods barely generalize to novel patterns. We further propose a simple in-context ICD method named ImageStacker. ImageStacker learns to select the most representative image-replica pairs and employs them as the pattern prompts in a stacking manner (rather than the popular concatenation manner). Experimental results show (1) training with our large-scale dataset substantially benefits pattern generalization ($+26.66 \%$ $\mu AP$), (2) the proposed ImageStacker facilitates effective in-context ICD (another round of $+16.75 \%$ $\mu AP$), and (3) AnyPattern enables in-context ICD, i.e., without such a large-scale dataset, in-context learning does not emerge even with our ImageStacker. Beyond the ICD task, we also demonstrate how AnyPattern can benefit artists, i.e., the pattern retrieval method trained on AnyPattern can be generalized to identify style mimicry by text-to-image models. The project is publicly available at https://anypattern.github.io.
- Abstract(参考訳): 本稿では、画像コピー検出(ICD)のためのコンテキスト内学習、すなわち、追加のトレーニングを必要とせず、新しい改ざんパターンで再現された画像を識別するICDモデルを提案する。
プロンプト(またはコンテキスト)は、新しいパターンを反映し、推論時に使用される小さなイメージとレプリカのペアである。
このようなコンテキスト内ICDは、微調整を必要とせず、その結果、目に見えないパターンの出現に対する迅速な反応を促進するため、現実的な価値が高い。
の一般化シナリオに対応するため、AnyPatternという名の最初の大規模パターンデータセットを構築しました。
我々は、AnyPatternを一般的なICDメソッドでベンチマークし、既存のメソッドが新しいパターンにほとんど一般化しないことを明らかにする。
さらに,ImageStacker というシンプルなインコンテキスト ICD 手法を提案する。
ImageStackerは最も代表的なイメージ-レプリカペアを選択して、(一般的な結合方式ではなく)積み重ね方式でパターンプロンプトとして使用する。
実験結果から,(1)大規模データセットによるトレーニングは,パターンの一般化に大きく貢献する(+26.66 \%$\mu AP$),(2)提案されたImageStackerは,効果的なインコンテキストIDD(同じくラウンドの$+16.75 \%$\mu AP$),(3)AnyPatternはインコンテキストIDDを可能にする。
ICDタスク以外にも、AnyPatternがアーティストにどのような恩恵をもたらすか、すなわち、AnyPatternでトレーニングされたパターン検索方法を一般化して、テキスト・ツー・イメージモデルによってスタイルの模倣を特定することができるかを示す。
このプロジェクトはhttps://anypattern.github.io.comで公開されている。
関連論文リスト
- DEADiff: An Efficient Stylization Diffusion Model with Disentangled
Representations [64.43387739794531]
現在のエンコーダベースのアプローチは、スタイルの転送中にテキスト・ツー・イメージモデルのテキスト制御性を著しく損なう。
この問題に対処するために、以下の2つの戦略を用いてDEADiffを紹介します。
DeAiffは、テキスト・ツー・イメージモデルに固有のテキスト制御性と、参照画像とスタイルの類似性との間の最適な視覚的スタイリング結果と最適なバランスを得る。
論文 参考訳(メタデータ) (2024-03-11T17:35:23Z) - Learning from Mistakes: Iterative Prompt Relabeling for Text-to-Image Diffusion Model Training [33.51524424536508]
Iterative Prompt Relabeling (IPR) は、反復的な画像サンプリングを通じて画像をテキストにアライメントし、フィードバックでリテラブルを促す新しいアルゴリズムである。
我々はSDv2とSDXLについて徹底的な実験を行い、空間関係の指示に従う能力をテストする。
論文 参考訳(メタデータ) (2023-12-23T11:10:43Z) - ITI-GEN: Inclusive Text-to-Image Generation [56.72212367905351]
本研究では,人書きプロンプトに基づいて画像を生成する包括的テキスト・画像生成モデルについて検討する。
いくつかの属性に対して、画像はテキストよりも概念を表現的に表現できることを示す。
Inclusive Text-to- Image GENeration に容易に利用可能な参照画像を活用する新しいアプローチ ITI-GEN を提案する。
論文 参考訳(メタデータ) (2023-09-11T15:54:30Z) - Prompt-Free Diffusion: Taking "Text" out of Text-to-Image Diffusion
Models [94.25020178662392]
テキスト・トゥ・イメージ(T2I)の研究はこの1年で爆発的に成長した。
テキストプロンプトエンジニアリングと、カスタマイズされた結果のための高品質なテキストプロンプトの検索は、科学よりも芸術的だ。
本稿では,事前学習したT2I拡散モデルから"Text"を抽出し,ユーザの負担を軽減した。
論文 参考訳(メタデータ) (2023-05-25T16:30:07Z) - If at First You Don't Succeed, Try, Try Again: Faithful Diffusion-based
Text-to-Image Generation by Selection [53.320946030761796]
拡散ベースのテキスト・トゥ・イメージ(T2I)モデルは、テキスト・プロンプトへの忠実さを欠く可能性がある。
大規模なT2I拡散モデルは通常想定されるよりも忠実であり、複雑なプロンプトに忠実な画像を生成することができることを示す。
本稿では,テキストプロンプトの候補画像を生成するパイプラインを導入し,自動スコアリングシステムにより最適な画像を選択する。
論文 参考訳(メタデータ) (2023-05-22T17:59:41Z) - Bi-directional Training for Composed Image Retrieval via Text Prompt
Learning [46.60334745348141]
合成画像検索は、参照画像と修正テキストからなるマルチモーダルユーザクエリに基づいて、対象画像の検索を行う。
本稿では,このような逆クエリを活用し,既存の合成画像検索アーキテクチャに適用可能な双方向トレーニング手法を提案する。
2つの標準データセットに対する実験により,我々の新しい手法はベースラインBLIPモデルよりも性能が向上することが示された。
論文 参考訳(メタデータ) (2023-03-29T11:37:41Z) - STAIR: Learning Sparse Text and Image Representation in Grounded Tokens [84.14528645941128]
疎結合なセマンティック表現を構築することは、密度の高いプレゼンテーションと同程度、あるいはそれ以上に強力であることを示す。
CLIPモデルを拡張してスパーステキストと画像表現(STAIR)を構築し、画像とテキストをスパーストークン空間にマッピングする。
CLIPモデルでは、+4.9%$と+4.3%$絶対リコール@1の改善で大幅にパフォーマンスが向上した。
論文 参考訳(メタデータ) (2023-01-30T17:21:30Z) - Evolving Image Compositions for Feature Representation Learning [22.22790506995431]
PatchMixは、グリッドのようなパターンで一対のイメージからパッチを合成することで、新しいサンプルを作成するデータ拡張手法である。
PatchMixを使用したImageNetでトレーニングされたResNet-50モデルは、幅広いベンチマークで優れた転送学習能力を示している。
論文 参考訳(メタデータ) (2021-06-16T17:57:18Z) - Seed the Views: Hierarchical Semantic Alignment for Contrastive
Representation Learning [116.91819311885166]
一つの画像から生成されたビューをtextbfCross-samples や Multi-level representation に拡張することで,階層的なセマンティックアライメント戦略を提案する。
提案手法はCsMlと呼ばれ,サンプル間の多層視覚表現を堅牢な方法で統合する機能を備えている。
論文 参考訳(メタデータ) (2020-12-04T17:26:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。