論文の概要: TokenTrace: Multi-Concept Attribution through Watermarked Token Recovery
- arxiv url: http://arxiv.org/abs/2602.19019v1
- Date: Sun, 22 Feb 2026 03:18:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.444962
- Title: TokenTrace: Multi-Concept Attribution through Watermarked Token Recovery
- Title(参考訳): TokenTrace: 透かしのTokenリカバリによるマルチコンセプト属性
- Authors: Li Zhang, Shruti Agarwal, John Collomosse, Pengtao Xie, Vishal Asnani,
- Abstract要約: TokenTraceは、堅牢なマルチコンセプト属性のための新しいプロアクティブな透かしフレームワークである。
本手法は,テキストのプロンプト埋め込みを同時に摂動することでセマンティックドメインにシークレットシグネチャを埋め込む。
検索のために,生成された画像を取得するクエリベースのTokenTraceモジュールと,どの概念を検索する必要があるかを指定するテキストクエリを提案する。
- 参考スコア(独自算出の注目度): 28.249766802791772
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative AI models pose a significant challenge to intellectual property (IP), as they can replicate unique artistic styles and concepts without attribution. While watermarking offers a potential solution, existing methods often fail in complex scenarios where multiple concepts (e.g., an object and an artistic style) are composed within a single image. These methods struggle to disentangle and attribute each concept individually. In this work, we introduce TokenTrace, a novel proactive watermarking framework for robust, multi-concept attribution. Our method embeds secret signatures into the semantic domain by simultaneously perturbing the text prompt embedding and the initial latent noise that guide the diffusion model's generation process. For retrieval, we propose a query-based TokenTrace module that takes the generated image and a textual query specifying which concepts need to be retrieved (e.g., a specific object or style) as inputs. This query-based mechanism allows the module to disentangle and independently verify the presence of multiple concepts from a single generated image. Extensive experiments show that our method achieves state-of-the-art performance on both single-concept (object and style) and multi-concept attribution tasks, significantly outperforming existing baselines while maintaining high visual quality and robustness to common transformations.
- Abstract(参考訳): 生成AIモデルは、独自の芸術的スタイルやコンセプトを帰属なしに再現できるため、知的財産権(IP)にとって大きな課題となる。
ウォーターマーキングは潜在的な解決策を提供するが、既存の手法は、複数の概念(例えば、オブジェクトと芸術スタイル)が単一のイメージ内で構成される複雑なシナリオで失敗することが多い。
これらの手法はそれぞれの概念を個別に解き放つのに苦労する。
本稿では,多概念属性に寄与する新規なプロアクティブな透かしフレームワークであるTokenTraceを紹介する。
本手法は,拡散モデルの生成過程を誘導するテキストプロンプト埋め込みと初期潜時雑音を同時に摂動することで,セマンティックドメインに秘密署名を埋め込む。
検索には,生成画像を取得するクエリベースのTokenTraceモジュールと,どの概念(例えば,特定のオブジェクトやスタイル)を入力として取得する必要があるかを指定するテキストクエリを提案する。
このクエリベースのメカニズムにより、モジュールは単一の生成イメージから複数の概念の存在を分離し、独立に検証することができる。
広汎な実験により,本手法は単一概念(オブジェクトとスタイル)と多概念帰属タスクの両方において最先端のパフォーマンスを達成し,既存のベースラインを著しく上回りながら,共通変換に対する高い視覚的品質とロバスト性を維持した。
関連論文リスト
- Hierarchical Concept-to-Appearance Guidance for Multi-Subject Image Generation [22.845591588026366]
本稿では,高レベルの概念からきめ細かい外観まで,明示的で構造化された監視を提供するフレームワークを提案する。
概念レベルでは、VAEの参照機能をランダムに省略するVAEドロップアウトトレーニング戦略を導入する。
外観レベルでは、VLM由来の対応文を対応認識型マスキングアテンションモジュールに統合する。
論文 参考訳(メタデータ) (2026-02-03T12:13:29Z) - Nested Attention: Semantic-aware Attention Values for Concept Personalization [78.90196530697897]
我々はNested Attentionを紹介した。これはモデル内の既存のクロスアテンション層にリッチで表現豊かなイメージ表現を注入する新しいメカニズムである。
私たちのキーとなるアイデアは、ネストした注意層から得られたクエリ依存の主観値を生成し、生成した画像の各領域について関連する主観的特徴を選択することである。
論文 参考訳(メタデータ) (2025-01-02T18:52:11Z) - Concept Weaver: Enabling Multi-Concept Fusion in Text-to-Image Models [85.14042557052352]
本研究では,カスタマイズされたテキストと画像の拡散モデルを推論時に作成する方法であるConcept Weaverを紹介する。
概念ウィーバーは、他のアプローチと比較して、アイデンティティの忠実度が高い複数のカスタム概念を生成可能であることを示す。
論文 参考訳(メタデータ) (2024-04-05T06:41:27Z) - Visual Concept-driven Image Generation with Text-to-Image Diffusion Model [65.96212844602866]
テキスト・ツー・イメージ(TTI)モデルは複雑なシーンの高解像度画像を生成するという印象的な結果を示した。
近年のアプローチでは、これらの手法をパーソナライズ技術で拡張し、ユーザ認証の概念の統合を可能にしている。
しかし、人間の被写体のような複数の相互作用する概念を持つ画像を生成する能力は、1つにまたがったり、複数にまたがったりする概念は、いまだに説明がつかないままである。
これらの課題に対処する概念駆動型TTIパーソナライズフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-18T07:28:37Z) - Textual Localization: Decomposing Multi-concept Images for
Subject-Driven Text-to-Image Generation [5.107886283951882]
マルチコンセプト入力画像を扱うための局所化テキスト・ツー・イメージモデルを提案する。
提案手法は,複数概念を分解するための新しいクロスアテンションガイダンスを組み込んだものである。
特に,本手法は,生成した画像の目標概念と整合した横断アテンションマップを生成する。
論文 参考訳(メタデータ) (2024-02-15T14:19:42Z) - Break-A-Scene: Extracting Multiple Concepts from a Single Image [80.47666266017207]
テキストシーン分解の課題を紹介する。
本稿では,対象概念の存在を示すマスクを用いた入力画像の拡張を提案する。
次に、新しい2段階のカスタマイズプロセスを示す。
論文 参考訳(メタデータ) (2023-05-25T17:59:04Z) - Taming Encoder for Zero Fine-tuning Image Customization with
Text-to-Image Diffusion Models [55.04969603431266]
本稿では,ユーザが指定したカスタマイズされたオブジェクトの画像を生成する手法を提案する。
この手法は、従来のアプローチで要求される長大な最適化をバイパスする一般的なフレームワークに基づいている。
提案手法は, 出力品質, 外観の多様性, 被写体忠実度を考慮した画像合成が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-05T17:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。