論文の概要: LogoSticker: Inserting Logos into Diffusion Models for Customized Generation
- arxiv url: http://arxiv.org/abs/2407.13752v1
- Date: Thu, 18 Jul 2024 17:54:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-19 14:12:02.281864
- Title: LogoSticker: Inserting Logos into Diffusion Models for Customized Generation
- Title(参考訳): LogoSticker: カスタマイズ生成のための拡散モデルにログを挿入する
- Authors: Mingkang Zhu, Xi Chen, Zhongdao Wang, Hengshuang Zhao, Jiaya Jia,
- Abstract要約: テキスト・ツー・イメージ・モデルにロゴを挿入する作業を導入する。
我々の目標は、ロゴのアイデンティティを拡散モデルに挿入し、様々な状況下でシームレスに合成できるようにすることです。
この課題に対処するために,新しい2相パイプラインLogoStickerを提案する。
- 参考スコア(独自算出の注目度): 73.59571559978278
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in text-to-image model customization have underscored the importance of integrating new concepts with a few examples. Yet, these progresses are largely confined to widely recognized subjects, which can be learned with relative ease through models' adequate shared prior knowledge. In contrast, logos, characterized by unique patterns and textual elements, are hard to establish shared knowledge within diffusion models, thus presenting a unique challenge. To bridge this gap, we introduce the task of logo insertion. Our goal is to insert logo identities into diffusion models and enable their seamless synthesis in varied contexts. We present a novel two-phase pipeline LogoSticker to tackle this task. First, we propose the actor-critic relation pre-training algorithm, which addresses the nontrivial gaps in models' understanding of the potential spatial positioning of logos and interactions with other objects. Second, we propose a decoupled identity learning algorithm, which enables precise localization and identity extraction of logos. LogoSticker can generate logos accurately and harmoniously in diverse contexts. We comprehensively validate the effectiveness of LogoSticker over customization methods and large models such as DALLE~3. \href{https://mingkangz.github.io/logosticker}{Project page}.
- Abstract(参考訳): テキスト・ツー・イメージ・モデルのカスタマイズの最近の進歩は、新しい概念をいくつかの例と統合することの重要性を浮き彫りにしている。
しかし、これらの進歩は広く認知されている主題に限られており、モデルが適切に共有した事前知識を通じて比較的容易に学習することができる。
対照的に、ユニークなパターンとテキスト要素を特徴とするロゴは、拡散モデル内で共有知識を確立するのが難しいため、ユニークな課題が提示される。
このギャップを埋めるために,ロゴ挿入の課題を導入する。
我々の目標は、ロゴのアイデンティティを拡散モデルに挿入し、様々な状況下でシームレスに合成できるようにすることです。
この課題に対処するために,新しい2相パイプラインLogoStickerを提案する。
まず, モデルによるロゴの空間的位置認識の非自明なギャップと, 他物体との相互作用に対処するアクタ-批評家関係事前学習アルゴリズムを提案する。
第2に,ロゴの正確な位置化と同一性抽出を可能にする分離ID学習アルゴリズムを提案する。
LogoStickerは、さまざまな状況下で正確に調和してロゴを生成することができる。
カスタマイズ法や DALLE などの大規模モデルに対する LogoSticker の有効性を総合的に検証する。
\href{https://mingkangz.github.io/logosticker}{Project page}
関連論文リスト
- Self-Supervised Representation Learning with Spatial-Temporal Consistency for Sign Language Recognition [96.62264528407863]
本研究では,空間的時間的整合性を通じてリッチな文脈を探索する自己教師付きコントラスト学習フレームワークを提案する。
動きと関節のモーダル性の相補性に着想を得て,手話モデルに一階動作情報を導入する。
提案手法は,4つの公開ベンチマークの広範な実験により評価され,新しい最先端性能と顕著なマージンを実現している。
論文 参考訳(メタデータ) (2024-06-15T04:50:19Z) - SLANT: Spurious Logo ANalysis Toolkit [61.59021920232986]
SLANT: Spurious Logo Analysis Toolkitを開発した。
というロゴをマイニングするためのセミオートマチックなメカニズムが組み込まれている。
我々は、VLモデルが負の人形容詞と相関する様々な無害なロゴを発見した。
攻撃者は有害なコンテンツに急激なロゴを配置することができ、モデルがそれを無害と誤分類する原因となった。
論文 参考訳(メタデータ) (2024-06-03T15:41:31Z) - The Chosen One: Consistent Characters in Text-to-Image Diffusion Models [71.15152184631951]
そこで本研究では,テキストプロンプトのみを入力として,一貫した文字生成を完全自動化する手法を提案する。
本手法は, 基本手法と比較して, 即時アライメントと同一性整合性のバランスが良くなる。
論文 参考訳(メタデータ) (2023-11-16T18:59:51Z) - FashionLOGO: Prompting Multimodal Large Language Models for Fashion Logo Embeddings [26.395196542803543]
本稿では,MLLMに製品画像の適切なテキストを生成するよう促すアプローチを提案する。
実世界のデータセットに関する我々の実験は、FashionLOGOが汎用的で堅牢なロゴ埋め込みを生成することができることを証明している。
論文 参考訳(メタデータ) (2023-08-17T14:30:26Z) - A Cross-direction Task Decoupling Network for Small Logo Detection [28.505952002735334]
我々は,小さなロゴ検出のためのクロスダイレクトタスクデカップリングネットワーク(CTDNet)を創造的に提案する。
4つのロゴデータセットの総合的な実験により,提案手法の有効性と有効性を示す。
論文 参考訳(メタデータ) (2023-05-04T02:23:34Z) - Contrastive Multi-View Textual-Visual Encoding: Towards One Hundred
Thousand-Scale One-Shot Logo Identification [2.243832625209014]
オープン・セットのワンショット・セッティングにおいて,ビジネスブランドのロゴを自然シーンで識別する問題について検討する。
ロゴに現れるテキストをエンコードする新しい多視点テキスト視覚符号化フレームワークを提案する。
提案手法は, 自然シーンの作業において, 作付ロゴ識別, 作付ロゴ識別, エンド・ツー・エンドのロゴ識別を行う。
論文 参考訳(メタデータ) (2022-11-23T12:59:41Z) - Deep Learning for Logo Detection: A Survey [59.278443852492465]
本稿では, 深層学習技術のロゴ検出への応用について概説する。
既存のロゴ検出戦略と学習戦略の長所と短所を詳細に分析する。
知的輸送やブランド監視から著作権や商標の遵守に至るまで,さまざまな分野におけるロゴ検出の応用を要約する。
論文 参考訳(メタデータ) (2022-10-10T02:07:41Z) - Makeup216: Logo Recognition with Adversarial Attention Representations [16.78131635640705]
メイクアップ216は、メイクアップの分野で最大の、そして最も複雑なロゴのデータセットで、現実世界から撮影された。
216のロゴと157のブランドで構成され、その中には10,019の画像と37,018の注釈付きロゴオブジェクトが含まれる。
提案するフレームワークは,Makeup216と他の大規模オープンロゴデータセットで競合する結果を得た。
論文 参考訳(メタデータ) (2021-12-13T10:08:56Z) - Discriminative Semantic Feature Pyramid Network with Guided Anchoring
for Logo Detection [52.36825190893928]
我々は,DSFP-GAを用いた識別的セマンティック特徴ピラミッドネットワークという新しい手法を提案する。
我々のアプローチは主に差別的セマンティック特徴ピラミッド(DSFP)とガイドアンコリング(GA)から構成される。
論文 参考訳(メタデータ) (2021-08-31T11:59:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。