論文の概要: Fantastic Copyrighted Beasts and How (Not) to Generate Them
- arxiv url: http://arxiv.org/abs/2406.14526v1
- Date: Thu, 20 Jun 2024 17:38:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 12:23:24.033281
- Title: Fantastic Copyrighted Beasts and How (Not) to Generate Them
- Title(参考訳): 幻想的な汚染されたビーストと、その生成方法(ノー)
- Authors: Luxi He, Yangsibo Huang, Weijia Shi, Tinghao Xie, Haotian Liu, Yue Wang, Luke Zettlemoyer, Chiyuan Zhang, Danqi Chen, Peter Henderson,
- Abstract要約: 著作権のある文字は、画像生成サービスにとって難しい課題となる。
少なくとも1つの訴訟は、これらのキャラクターの世代に基づいて損害を受けた。
- 参考スコア(独自算出の注目度): 83.77348858322523
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies show that image and video generation models can be prompted to reproduce copyrighted content from their training data, raising serious legal concerns around copyright infringement. Copyrighted characters, in particular, pose a difficult challenge for image generation services, with at least one lawsuit already awarding damages based on the generation of these characters. Yet, little research has empirically examined this issue. We conduct a systematic evaluation to fill this gap. First, we build CopyCat, an evaluation suite consisting of diverse copyrighted characters and a novel evaluation pipeline. Our evaluation considers both the detection of similarity to copyrighted characters and generated image's consistency with user input. Our evaluation systematically shows that both image and video generation models can still generate characters even if characters' names are not explicitly mentioned in the prompt, sometimes with only two generic keywords (e.g., prompting with "videogame, plumber" consistently generates Nintendo's Mario character). We then introduce techniques to semi-automatically identify such keywords or descriptions that trigger character generation. Using our evaluation suite, we study runtime mitigation strategies, including both existing methods and new strategies we propose. Our findings reveal that commonly employed strategies, such as prompt rewriting in the DALL-E system, are not sufficient as standalone guardrails. These strategies must be coupled with other approaches, like negative prompting, to effectively reduce the unintended generation of copyrighted characters. Our work provides empirical grounding to the discussion of copyright mitigation strategies and offers actionable insights for model deployers actively implementing them.
- Abstract(参考訳): 近年の研究では、画像およびビデオ生成モデルは、トレーニングデータから著作権付きコンテンツを再生するよう促され、著作権侵害に関する重大な法的懸念が提起されている。
特に著作権のある文字は、画像生成サービスにとって難しい課題であり、少なくとも1つの訴訟は、これらの文字の生成に基づいてダメージを与えている。
しかし、この問題を実証的に調べる研究はほとんどない。
私たちはこのギャップを埋めるために体系的な評価を行います。
まず、さまざまな著作権を持つ文字と、新しい評価パイプラインで構成される評価スイートであるCopyCatを構築します。
本評価では,著作権文字との類似性の検出とユーザ入力との整合性について考察する。
画像生成モデルと映像生成モデルの両方が、たとえ文字名がプロンプトに明示的に言及されていなくても、文字を生成できることを系統的に示す。
次に,文字生成を誘導するキーワードや記述を半自動で識別する手法を提案する。
評価スイートを用いて,提案する既存手法と新たな戦略を含むランタイム緩和戦略について検討する。
DALL-Eシステムでの即時書き換えのような一般的な戦略は,スタンドアロンのガードレールとしては不十分であることがわかった。
これらの戦略は、意図しない著作権のある文字の生成を効果的に削減するために、ネガティブなプロンプトのような他のアプローチと結合する必要がある。
我々の研究は、著作権緩和戦略に関する議論の実証的根拠を提供し、モデルデプロイが積極的に実施する上で実行可能な洞察を提供する。
関連論文リスト
- CopyBench: Measuring Literal and Non-Literal Reproduction of Copyright-Protected Text in Language Model Generation [132.00910067533982]
LM世代におけるリテラルコピーと非リテラルコピーの両方を測定するために設計されたベンチマークであるCopyBenchを紹介する。
リテラル複写は比較的稀であるが、イベント複写と文字複写という2種類の非リテラル複写は、7Bパラメータのモデルでも発生する。
論文 参考訳(メタデータ) (2024-07-09T17:58:18Z) - Evaluating Copyright Takedown Methods for Language Models [100.38129820325497]
言語モデル(LM)は、潜在的に著作権のある資料を含む様々なデータに対する広範な訓練からその能力を引き出す。
本稿では,LMの著作権削除の可能性と副作用を初めて評価する。
システムプロンプトの追加、デコード時間フィルタリングの介入、未学習アプローチなど、いくつかの戦略を検討する。
論文 参考訳(メタデータ) (2024-06-26T18:09:46Z) - SHIELD: Evaluation and Defense Strategies for Copyright Compliance in LLM Text Generation [24.644101178288476]
大規模言語モデル(LLM)は機械学習に変化をもたらしたが、重大な法的懸念を引き起こした。
LLMは著作権を侵害したり、著作権のないテキストを過剰に制限したりすることができる。
本稿では,著作権テキストの発生を防止するために,軽量でリアルタイムな防衛手法を提案する。
論文 参考訳(メタデータ) (2024-06-18T18:00:03Z) - Evaluating and Mitigating IP Infringement in Visual Generative AI [54.24196167576133]
最先端のビジュアル生成モデルは、知的財産権によって保護されたキャラクターと著しく類似したコンテンツを生成することができる。
これは、入力プロンプトが文字の名前を含む場合や、その特性に関する記述的な詳細を含む場合に発生する。
我々は、潜在的に侵害される可能性のあるコンテンツを特定し、IP侵害を防止するための修正された生成パラダイムを開発する。
論文 参考訳(メタデータ) (2024-06-07T06:14:18Z) - Tackling GenAI Copyright Issues: Originality Estimation and Genericization [25.703494724823756]
本稿では、生成モデルの出力を一般化し、著作権を侵害しにくくする汎用化手法を提案する。
そこで本研究では,ジェネリゼーション手法と既存の緩和手法を組み合わせたPrepreGenを紹介する。
論文 参考訳(メタデータ) (2024-06-05T14:58:32Z) - LLMs and Memorization: On Quality and Specificity of Copyright Compliance [0.0]
大規模言語モデル(LLM)のメモリ化が懸念されている。
LLMは、著作権のある作品を含むトレーニングデータの一部を容易に再現できることが示されている。
これは、欧州AI法と同様に、既存の著作権法に違反している可能性があるため、解決すべき重要な問題である。
論文 参考訳(メタデータ) (2024-05-28T18:01:52Z) - ©Plug-in Authorization for Human Content Copyright Protection in Text-to-Image Model [71.47762442337948]
最先端のモデルは、オリジナルクリエーターを信用せずに高品質なコンテンツを作成する。
本稿では,3つの操作 – 追加,抽出,組み合わせ – を導入した著作権プラグイン認証フレームワークを提案する。
抽出により、クリエーターは侵害モデルから著作権を回復することができ、組み合わせることでユーザーは異なる著作権プラグインをマージすることができる。
論文 参考訳(メタデータ) (2024-04-18T07:48:00Z) - A Dataset and Benchmark for Copyright Infringement Unlearning from Text-to-Image Diffusion Models [52.49582606341111]
著作権法は、クリエイティブ作品を再生、配布、収益化する排他的権利をクリエイターに与えている。
テキスト・ツー・イメージ・ジェネレーションの最近の進歩は、著作権の執行に重大な課題をもたらしている。
CLIP、ChatGPT、拡散モデルを調和させてデータセットをキュレートする新しいパイプラインを導入する。
論文 参考訳(メタデータ) (2024-01-04T11:14:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。