論文の概要: Fantastic Copyrighted Beasts and How (Not) to Generate Them
- arxiv url: http://arxiv.org/abs/2406.14526v2
- Date: Wed, 26 Mar 2025 12:21:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-27 13:19:18.836169
- Title: Fantastic Copyrighted Beasts and How (Not) to Generate Them
- Title(参考訳): 幻想的な汚染されたビーストと、その生成方法(ノー)
- Authors: Luxi He, Yangsibo Huang, Weijia Shi, Tinghao Xie, Haotian Liu, Yue Wang, Luke Zettlemoyer, Chiyuan Zhang, Danqi Chen, Peter Henderson,
- Abstract要約: 現状のイメージとビデオ生成モデルは,たとえ文字名が明記されていない場合でも,著作権付き文字を生成可能であることを示す。
文字生成を誘導するキーワードや記述を半自動で識別する手法を提案する。
DALL-Eのプロンプトリライトのような一般的な手法は,単独では不十分であり,ネガティブ・プロンプトのような補足的戦略が必要であることが判明した。
- 参考スコア(独自算出の注目度): 83.77348858322523
- License:
- Abstract: Recent studies show that image and video generation models can be prompted to reproduce copyrighted content from their training data, raising serious legal concerns about copyright infringement. Copyrighted characters (e.g., Mario, Batman) present a significant challenge: at least one lawsuit has already awarded damages based on the generation of such characters. Consequently, commercial services like DALL-E have started deploying interventions. However, little research has systematically examined these problems: (1) Can users easily prompt models to generate copyrighted characters, even if it is unintentional?; (2) How effective are the existing mitigation strategies? To address these questions, we introduce a novel evaluation framework with metrics that assess both the generated image's similarity to copyrighted characters and its consistency with user intent, grounded in a set of popular copyrighted characters from diverse studios and regions. We show that state-of-the-art image and video generation models can still generate characters even if characters' names are not explicitly mentioned, sometimes with only two generic keywords (e.g., prompting with "videogame, plumber" consistently generates Nintendo's Mario character). We also introduce semi-automatic techniques to identify such keywords or descriptions that trigger character generation. Using this framework, we evaluate mitigation strategies, including prompt rewriting and new approaches we propose. Our findings reveal that common methods, such as DALL-E's prompt rewriting, are insufficient alone and require supplementary strategies like negative prompting. Our work provides empirical grounding for discussions on copyright mitigation strategies and offers actionable insights for model deployers implementing these safeguards.
- Abstract(参考訳): 近年の研究では、画像およびビデオ生成モデルは、トレーニングデータから著作権付きコンテンツを再生するよう促され、著作権侵害に関する重大な法的懸念が提起されている。
著作権のあるキャラクター(例えばマリオ、バットマン)は、重大な課題を呈している。
その結果、DALL-Eのような商用サービスは介入の展開を開始した。
しかし,(1) 利用者が意図しない場合でも,容易に著作権付き文字の生成を促せるか,という課題を体系的に検討する研究はほとんどない。
; (2)既存の緩和戦略はどの程度有効か?
これらの課題に対処するため,我々は,制作した画像の著作権文字との類似性とユーザ意図との整合性の両方を評価する指標を,多種多様なスタジオや地域から人気ある著作権文字群に組み込んだ,新しい評価フレームワークを導入する。
現状のイメージとビデオ生成モデルは、文字名が明示されていない場合でもキャラクタを生成できることを示し、時には2つのジェネリックキーワード(例:「ビデオゲーム、配管」で任天堂のマリオキャラクタを一貫して生成する)で表現する。
また,文字生成を誘導するキーワードや記述を半自動で識別する手法も導入する。
このフレームワークを用いて、即時書き換えや新しいアプローチを含む緩和戦略を評価する。
DALL-Eのプロンプトリライトのような一般的な手法は,単独では不十分であり,ネガティブ・プロンプトのような補足的戦略が必要であることが判明した。
我々の研究は、著作権緩和戦略に関する議論の実証的根拠を提供し、これらの保護を実装するモデルデプロイ者に対して実行可能な洞察を提供する。
関連論文リスト
- CopyBench: Measuring Literal and Non-Literal Reproduction of Copyright-Protected Text in Language Model Generation [132.00910067533982]
LM世代におけるリテラルコピーと非リテラルコピーの両方を測定するために設計されたベンチマークであるCopyBenchを紹介する。
リテラル複写は比較的稀であるが、イベント複写と文字複写という2種類の非リテラル複写は、7Bパラメータのモデルでも発生する。
論文 参考訳(メタデータ) (2024-07-09T17:58:18Z) - Evaluating Copyright Takedown Methods for Language Models [100.38129820325497]
言語モデル(LM)は、潜在的に著作権のある資料を含む様々なデータに対する広範な訓練からその能力を引き出す。
本稿では,LMの著作権削除の可能性と副作用を初めて評価する。
システムプロンプトの追加、デコード時間フィルタリングの介入、未学習アプローチなど、いくつかの戦略を検討する。
論文 参考訳(メタデータ) (2024-06-26T18:09:46Z) - SHIELD: Evaluation and Defense Strategies for Copyright Compliance in LLM Text Generation [24.644101178288476]
大規模言語モデル(LLM)は機械学習に変化をもたらしたが、重大な法的懸念を引き起こした。
LLMは著作権を侵害したり、著作権のないテキストを過剰に制限したりすることができる。
本稿では,著作権テキストの発生を防止するために,軽量でリアルタイムな防衛手法を提案する。
論文 参考訳(メタデータ) (2024-06-18T18:00:03Z) - Evaluating and Mitigating IP Infringement in Visual Generative AI [54.24196167576133]
最先端のビジュアル生成モデルは、知的財産権によって保護されたキャラクターと著しく類似したコンテンツを生成することができる。
これは、入力プロンプトが文字の名前を含む場合や、その特性に関する記述的な詳細を含む場合に発生する。
我々は、潜在的に侵害される可能性のあるコンテンツを特定し、IP侵害を防止するための修正された生成パラダイムを開発する。
論文 参考訳(メタデータ) (2024-06-07T06:14:18Z) - Tackling GenAI Copyright Issues: Originality Estimation and Genericization [25.703494724823756]
本稿では, 生成モデルの出力を一般化し, 著作権物質を模倣しにくくする汎用化手法を提案する。
そこで本研究では,ジェネリゼーション手法と既存の緩和手法を組み合わせたPrepreGenを紹介する。
論文 参考訳(メタデータ) (2024-06-05T14:58:32Z) - LLMs and Memorization: On Quality and Specificity of Copyright Compliance [0.0]
大規模言語モデル(LLM)のメモリ化が懸念されている。
LLMは、著作権のある作品を含むトレーニングデータの一部を容易に再現できることが示されている。
これは、欧州AI法と同様に、既存の著作権法に違反している可能性があるため、解決すべき重要な問題である。
論文 参考訳(メタデータ) (2024-05-28T18:01:52Z) - ©Plug-in Authorization for Human Content Copyright Protection in Text-to-Image Model [71.47762442337948]
最先端のモデルは、オリジナルクリエーターを信用せずに高品質なコンテンツを作成する。
本稿では,3つの操作 – 追加,抽出,組み合わせ – を導入した著作権プラグイン認証フレームワークを提案する。
アーティストスタイルの複製と漫画IPレクリエーションの実験は、著作権プラグインの有効性を実証している。
論文 参考訳(メタデータ) (2024-04-18T07:48:00Z) - A Dataset and Benchmark for Copyright Infringement Unlearning from Text-to-Image Diffusion Models [52.49582606341111]
著作権法は、クリエイティブ作品を再生、配布、収益化する排他的権利をクリエイターに与えている。
テキスト・ツー・イメージ・ジェネレーションの最近の進歩は、著作権の執行に重大な課題をもたらしている。
CLIP、ChatGPT、拡散モデルを調和させてデータセットをキュレートする新しいパイプラインを導入する。
論文 参考訳(メタデータ) (2024-01-04T11:14:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。