論文の概要: Strong Copyright Protection for Language Models via Adaptive Model Fusion
- arxiv url: http://arxiv.org/abs/2407.20105v1
- Date: Mon, 29 Jul 2024 15:32:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-30 13:15:14.432065
- Title: Strong Copyright Protection for Language Models via Adaptive Model Fusion
- Title(参考訳): 適応モデル融合による言語モデルの強著作権保護
- Authors: Javier Abad, Konstantin Donhauser, Francesco Pinto, Fanny Yang,
- Abstract要約: Copyright-Protecting Fusion (CP-Fuse) は、言語モデルを適応的に組み合わせて保護された物質の再生を最小限にするアルゴリズムである。
その結果,CP-Fuseは高品質なテキストとコード生成を維持しつつ,著作権のあるコンテンツの記憶を著しく減少させることがわかった。
- 参考スコア(独自算出の注目度): 15.48692649098646
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The risk of language models unintentionally reproducing copyrighted material from their training data has led to the development of various protective measures. In this paper, we propose model fusion as an effective solution to safeguard against copyright infringement. In particular, we introduce Copyright-Protecting Fusion (CP-Fuse), an algorithm that adaptively combines language models to minimize the reproduction of protected materials. CP-Fuse is inspired by the recently proposed Near-Access Free (NAF) framework and additionally incorporates a desirable balancing property that we demonstrate prevents the reproduction of memorized training data. Our results show that CP-Fuse significantly reduces the memorization of copyrighted content while maintaining high-quality text and code generation. Furthermore, we demonstrate how CP-Fuse can be integrated with other techniques for enhanced protection.
- Abstract(参考訳): 言語モデルが学習データから意図せず著作権物質を再生するリスクは、様々な保護措置の開発に繋がった。
本稿では,著作権侵害防止のための有効なソリューションとして,モデル融合を提案する。
特に,保護材料の再生を最小化するために,言語モデルを適応的に組み合わせたアルゴリズムであるCP-Fuseを導入する。
CP-Fuseは、最近提案されたNear-Access Free (NAF)フレームワークにインスパイアされ、また、記憶されたトレーニングデータの再生を防止するための望ましいバランス特性も組み込まれている。
その結果,CP-Fuseは高品質なテキストとコード生成を維持しつつ,著作権のあるコンテンツの記憶を著しく減少させることがわかった。
さらに,CP-Fuseを他の技術と統合して保護を強化する方法を示す。
関連論文リスト
- RLCP: A Reinforcement Learning-based Copyright Protection Method for Text-to-Image Diffusion Model [42.77851688874563]
テキスト・画像拡散モデルのための強化学習に基づく著作権保護(RLCP)手法を提案する。
提案手法は,モデル生成データセットの品質を維持しつつ,著作権侵害コンテンツの生成を最小限に抑える。
論文 参考訳(メタデータ) (2024-08-29T15:39:33Z) - Evaluating Copyright Takedown Methods for Language Models [100.38129820325497]
言語モデル(LM)は、潜在的に著作権のある資料を含む様々なデータに対する広範な訓練からその能力を引き出す。
本稿では,LMの著作権削除の可能性と副作用を初めて評価する。
システムプロンプトの追加、デコード時間フィルタリングの介入、未学習アプローチなど、いくつかの戦略を検討する。
論文 参考訳(メタデータ) (2024-06-26T18:09:46Z) - CPR: Retrieval Augmented Generation for Copyright Protection [101.15323302062562]
本稿では,著作権保護の強いRAGの新しい手法であるRetrieval(CPR)を用いたCopyProtected生成について紹介する。
CPRは、取得した画像のセットに拡散モデルの出力を条件付けることができる。
CPRは、攻撃者が生成した画像から抽出できる可能性のある情報の量を制限するNear Access Freeness (NAF) を満たすことを証明している。
論文 参考訳(メタデータ) (2024-03-27T18:09:55Z) - JAMDEC: Unsupervised Authorship Obfuscation using Constrained Decoding
over Small Language Models [53.83273575102087]
著者の難読化に対する教師なし推論時間アプローチを提案する。
本稿では,著者難読化のためのユーザ制御推論時間アルゴリズムであるJAMDECを紹介する。
提案手法は,GPT2-XL などの小型言語モデルに基づいて,オリジナルコンテンツをプロプライエタリな LLM の API に公開するのを防ぐ。
論文 参考訳(メタデータ) (2024-02-13T19:54:29Z) - A Dataset and Benchmark for Copyright Infringement Unlearning from Text-to-Image Diffusion Models [52.49582606341111]
著作権法は、クリエイティブ作品を再生、配布、収益化する排他的権利をクリエイターに与えている。
テキスト・ツー・イメージ・ジェネレーションの最近の進歩は、著作権の執行に重大な課題をもたらしている。
CLIP、ChatGPT、拡散モデルを調和させてデータセットをキュレートする新しいパイプラインを導入する。
論文 参考訳(メタデータ) (2024-01-04T11:14:01Z) - EncryIP: A Practical Encryption-Based Framework for Model Intellectual
Property Protection [17.655627250882805]
本稿では,TextitEncryIPという,実用的な暗号化ベースのフレームワークを紹介する。
公開鍵暗号スキームをモデル学習プロセスにシームレスに統合する。
これは、トレーニングされた保護されたモデルと、許可されていないMLモデルの拡散を効率的に検出する双方において、優れた効果を示す。
論文 参考訳(メタデータ) (2023-12-19T11:11:03Z) - VA3: Virtually Assured Amplification Attack on Probabilistic Copyright Protection for Text-to-Image Generative Models [27.77911368516792]
我々は,新しいオンラインアタックフレームワークであるVirtually Assured Amplification Attack (VA3)を紹介する。
VA3は、生成モデルとの持続的な相互作用において、侵害するコンテンツを生成する確率を増幅する。
これらの知見は,テキスト・ツー・イメージ生成モデルの実践的応用において,確率論的著作権保護を実装する可能性を示している。
論文 参考訳(メタデータ) (2023-11-29T12:10:00Z) - Are You Copying My Model? Protecting the Copyright of Large Language
Models for EaaS via Backdoor Watermark [58.60940048748815]
企業は大規模な言語モデル(LLM)に基づいたEmbeddding as a Service(E)の提供を開始した。
Eはモデル抽出攻撃に弱いため、LLMの所有者に重大な損失をもたらす可能性がある。
埋め込みにバックドアを埋め込むEmbMarkerという埋め込み透かし手法を提案する。
論文 参考訳(メタデータ) (2023-05-17T08:28:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。