論文の概要: Copyright-Protected Language Generation via Adaptive Model Fusion
- arxiv url: http://arxiv.org/abs/2412.06619v1
- Date: Mon, 09 Dec 2024 16:13:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:58:32.708695
- Title: Copyright-Protected Language Generation via Adaptive Model Fusion
- Title(参考訳): 適応モデル融合による著作権保護言語生成
- Authors: Javier Abad, Konstantin Donhauser, Francesco Pinto, Fanny Yang,
- Abstract要約: copyright-Protecting Model Fusion (CP-Fuse) は、推論中に著作権物質の不連続なセットで訓練されたモデルを組み合わせる新しいアプローチである。
CP-Fuseは,テキストの品質やコード生成を損なうことなく,保護された素材の再生を著しく低減することを示す。
- 参考スコア(独自算出の注目度): 15.48692649098646
- License:
- Abstract: The risk of language models reproducing copyrighted material from their training data has led to the development of various protective measures. Among these, inference-time strategies that impose constraints via post-processing have shown promise in addressing the complexities of copyright regulation. However, they often incur prohibitive computational costs or suffer from performance trade-offs. To overcome these limitations, we introduce Copyright-Protecting Model Fusion (CP-Fuse), a novel approach that combines models trained on disjoint sets of copyrighted material during inference. In particular, CP-Fuse adaptively aggregates the model outputs to minimize the reproduction of copyrighted content, adhering to a crucial balancing property that prevents the regurgitation of memorized data. Through extensive experiments, we show that CP-Fuse significantly reduces the reproduction of protected material without compromising the quality of text and code generation. Moreover, its post-hoc nature allows seamless integration with other protective measures, further enhancing copyright safeguards. Lastly, we show that CP-Fuse is robust against common techniques for extracting training data.
- Abstract(参考訳): 教育データから著作権資料を再現する言語モデルのリスクは、様々な保護措置の開発につながっている。
これらのうち、後処理による制約を課す推論時戦略は、著作権規制の複雑さに対処する上で有望であることを示している。
しかし、それらはしばしば禁止的な計算コストを発生させるか、パフォーマンスのトレードオフに悩まされる。
このような制約を克服するために,我々は,著作権物質群にトレーニングされたモデルを推論中に組み合わせた新しいアプローチであるCP-Fuse(Philipic-Protecting Model Fusion)を導入する。
特に、CP-Fuseは、記憶されたデータの再生を防止する重要なバランス特性に固執し、著作権のあるコンテンツの再生を最小限に抑えるために、モデル出力を適応的に集約する。
広範な実験により,CP-Fuseはテキストの品質やコード生成を損なうことなく,保護された素材の再生を著しく低減することを示した。
さらに、ポストホック性により、他の保護措置とのシームレスな統合を可能にし、著作権保護をさらに強化する。
最後に,CP-Fuseはトレーニングデータを抽出する一般的な手法に対して堅牢であることを示す。
関連論文リスト
- RLCP: A Reinforcement Learning-based Copyright Protection Method for Text-to-Image Diffusion Model [42.77851688874563]
テキスト・画像拡散モデルのための強化学習に基づく著作権保護(RLCP)手法を提案する。
提案手法は,モデル生成データセットの品質を維持しつつ,著作権侵害コンテンツの生成を最小限に抑える。
論文 参考訳(メタデータ) (2024-08-29T15:39:33Z) - Strong Copyright Protection for Language Models via Adaptive Model Fusion [15.48692649098646]
Copyright-Protecting Fusion (CP-Fuse) は、言語モデルを適応的に組み合わせて保護された物質の再生を最小限にするアルゴリズムである。
その結果,CP-Fuseは高品質なテキストとコード生成を維持しつつ,著作権のあるコンテンツの記憶を著しく減少させることがわかった。
論文 参考訳(メタデータ) (2024-07-29T15:32:30Z) - Evaluating Copyright Takedown Methods for Language Models [100.38129820325497]
言語モデル(LM)は、潜在的に著作権のある資料を含む様々なデータに対する広範な訓練からその能力を引き出す。
本稿では,LMの著作権削除の可能性と副作用を初めて評価する。
システムプロンプトの追加、デコード時間フィルタリングの介入、未学習アプローチなど、いくつかの戦略を検討する。
論文 参考訳(メタデータ) (2024-06-26T18:09:46Z) - EnTruth: Enhancing the Traceability of Unauthorized Dataset Usage in Text-to-image Diffusion Models with Minimal and Robust Alterations [73.94175015918059]
本稿では、未承認のデータセット使用のトレーサビリティを高める新しいアプローチであるEnTruthを紹介する。
テンプレートの暗記を戦略的に取り入れることで、EnTruthは不正なモデルの特定の振る舞いを侵害の証拠として引き起こすことができる。
本手法は, 暗記の正当性を調査し, 著作権保護に利用し, 呪いを祝福する最初の方法である。
論文 参考訳(メタデータ) (2024-06-20T02:02:44Z) - CPR: Retrieval Augmented Generation for Copyright Protection [101.15323302062562]
本稿では,著作権保護の強いRAGの新しい手法であるRetrieval(CPR)を用いたCopyProtected生成について紹介する。
CPRは、取得した画像のセットに拡散モデルの出力を条件付けることができる。
CPRは、攻撃者が生成した画像から抽出できる可能性のある情報の量を制限するNear Access Freeness (NAF) を満たすことを証明している。
論文 参考訳(メタデータ) (2024-03-27T18:09:55Z) - Copyright Protection in Generative AI: A Technical Perspective [58.84343394349887]
ジェネレーティブAIは近年急速に進歩し、テキスト、画像、オーディオ、コードなどの合成コンテンツを作成する能力を拡大している。
これらのディープ・ジェネレーティブ・モデル(DGM)が生成したコンテンツの忠実さと信頼性が、著作権の重大な懸念を引き起こしている。
この研究は、技術的観点から著作権保護の包括的概要を提供することで、この問題を深く掘り下げている。
論文 参考訳(メタデータ) (2024-02-04T04:00:33Z) - A Dataset and Benchmark for Copyright Infringement Unlearning from Text-to-Image Diffusion Models [52.49582606341111]
著作権法は、クリエイティブ作品を再生、配布、収益化する排他的権利をクリエイターに与えている。
テキスト・ツー・イメージ・ジェネレーションの最近の進歩は、著作権の執行に重大な課題をもたらしている。
CLIP、ChatGPT、拡散モデルを調和させてデータセットをキュレートする新しいパイプラインを導入する。
論文 参考訳(メタデータ) (2024-01-04T11:14:01Z) - Can Copyright be Reduced to Privacy? [23.639303165101385]
アルゴリズムの安定性は、コピーを検出する実用的なツールとして認識されるかもしれないが、そのようなコピーは必ずしも著作権侵害を構成するものではない、と我々は主張する。
著作権侵害の確立の基準として採択された場合、アルゴリズム的安定性は著作権法の意図された目的を損なう可能性がある。
論文 参考訳(メタデータ) (2023-05-24T07:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。