論文の概要: Measuring Copyright Risks of Large Language Model via Partial Information Probing
- arxiv url: http://arxiv.org/abs/2409.13831v1
- Date: Fri, 20 Sep 2024 18:16:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 05:01:49.624697
- Title: Measuring Copyright Risks of Large Language Model via Partial Information Probing
- Title(参考訳): 部分情報探索による大規模言語モデルの著作権リスクの測定
- Authors: Weijie Zhao, Huajie Shao, Zhaozhuo Xu, Suzhen Duan, Denghui Zhang,
- Abstract要約: LLM(Large Language Models)のトレーニングに使用されるデータソースについて検討する。
著作権のあるテキストの一部をLSMに入力し、それを完了するように促し、生成したコンテンツとオリジナルの著作権のある資料の重複を分析します。
これらの部分的な入力に基づいて著作権素材と重なり合うコンテンツをLLMが生成できることが本研究で実証された。
- 参考スコア(独自算出の注目度): 14.067687792633372
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Exploring the data sources used to train Large Language Models (LLMs) is a crucial direction in investigating potential copyright infringement by these models. While this approach can identify the possible use of copyrighted materials in training data, it does not directly measure infringing risks. Recent research has shifted towards testing whether LLMs can directly output copyrighted content. Addressing this direction, we investigate and assess LLMs' capacity to generate infringing content by providing them with partial information from copyrighted materials, and try to use iterative prompting to get LLMs to generate more infringing content. Specifically, we input a portion of a copyrighted text into LLMs, prompt them to complete it, and then analyze the overlap between the generated content and the original copyrighted material. Our findings demonstrate that LLMs can indeed generate content highly overlapping with copyrighted materials based on these partial inputs.
- Abstract(参考訳): LLM(Large Language Models)のトレーニングに使用されるデータソースの探索は、これらのモデルによる著作権侵害の可能性を調査するための重要な方向である。
このアプローチは、トレーニングデータにおける著作権物質の使用の可能性を特定することができるが、侵害リスクを直接測定するものではない。
近年の研究では、LLMが著作権のあるコンテンツを直接出力できるかどうかのテストに移行している。
この方向性に対応するために,著作権資料から部分的な情報を提供することにより,著作権侵害コンテンツを生成するLLMの能力を調査し評価し,著作権侵害コンテンツを生成するために繰り返しプロンプトを使用することを試みる。
具体的には、著作権のあるテキストの一部をLSMに入力し、それを完了するように促し、生成したコンテンツとオリジナルの著作権のある資料との重なりを解析する。
これらの部分的な入力に基づいて著作権素材と重なり合うコンテンツをLLMが生成できることが本研究で実証された。
関連論文リスト
- Do LLMs Know to Respect Copyright Notice? [11.14140288980773]
保護材料を含むユーザ入力を処理する際に,言語モデルが著作権を侵害するか否かを検討する。
我々の研究は、言語モデルが著作権を侵害する可能性の程度を保守的に評価する。
本研究は、LLMが著作権規制を尊重することのさらなる調査の必要性と重要性を強調している。
論文 参考訳(メタデータ) (2024-11-02T04:45:21Z) - Evaluation of Attribution Bias in Retrieval-Augmented Large Language Models [47.694137341509304]
大規模言語モデルにおける著者情報に対する属性感度とバイアスを評価する。
文献に著者情報を追加することで, LLMの属性品質を3%から18%大きく変化させることができることを示す。
その結果,資料のメタデータがLCMの信頼度や回答の属性に影響を及ぼす可能性が示唆された。
論文 参考訳(メタデータ) (2024-10-16T08:55:49Z) - CopyLens: Dynamically Flagging Copyrighted Sub-Dataset Contributions to LLM Outputs [39.425944445393945]
CopyLensは,著作権付きデータセットが大規模言語モデルの応答に与える影響を分析するフレームワークである。
実験の結果、CopyLensは提案したベースラインよりも効率と精度を15.2%向上し、エンジニアリング手法より58.7%、OOD検出ベースラインより0.21AUC向上した。
論文 参考訳(メタデータ) (2024-10-06T11:41:39Z) - Can Watermarking Large Language Models Prevent Copyrighted Text Generation and Hide Training Data? [62.72729485995075]
著作権文書の生成に対する抑止剤としての透かしの有効性について検討する。
我々は、透かしがメンバーシップ推論攻撃(MIA)の成功率に悪影響を及ぼすことを発見した。
透かしにおける最近のMIAの成功率を改善するための適応的手法を提案する。
論文 参考訳(メタデータ) (2024-07-24T16:53:09Z) - Evaluating Copyright Takedown Methods for Language Models [100.38129820325497]
言語モデル(LM)は、潜在的に著作権のある資料を含む様々なデータに対する広範な訓練からその能力を引き出す。
本稿では,LMの著作権削除の可能性と副作用を初めて評価する。
システムプロンプトの追加、デコード時間フィルタリングの介入、未学習アプローチなど、いくつかの戦略を検討する。
論文 参考訳(メタデータ) (2024-06-26T18:09:46Z) - LLMs and Memorization: On Quality and Specificity of Copyright Compliance [0.0]
大規模言語モデル(LLM)のメモリ化が懸念されている。
LLMは、著作権のある作品を含むトレーニングデータの一部を容易に再現できることが示されている。
これは、欧州AI法と同様に、既存の著作権法に違反している可能性があるため、解決すべき重要な問題である。
論文 参考訳(メタデータ) (2024-05-28T18:01:52Z) - LLatrieval: LLM-Verified Retrieval for Verifiable Generation [67.93134176912477]
検証可能な生成は、大きな言語モデル(LLM)がドキュメントをサポートするテキストを生成することを目的としている。
本稿では,LLatrieval (Large Language Model Verified Retrieval)を提案する。
実験により、LLatrievalは幅広いベースラインを著しく上回り、最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2023-11-14T01:38:02Z) - Copyright Violations and Large Language Models [10.251605253237491]
本研究は,動詞の暗記のレンズを通して,著作権侵害や大規模言語モデルの問題を探究する。
一般的な書籍のコレクションやコーディング問題に対して,さまざまな言語モデルを用いて実験を行った。
本研究は,著作権規制の遵守を確実にするために,自然言語処理のさらなる検討の必要性と今後の発展への潜在的影響を強調した。
論文 参考訳(メタデータ) (2023-10-20T19:14:59Z) - Source Attribution for Large Language Model-Generated Data [57.85840382230037]
合成テキストの生成に寄与したデータプロバイダを特定することで、ソース属性を実行できることが不可欠である。
我々はこの問題を透かしによって取り組めることを示した。
本稿では,アルゴリズム設計により,これらの重要な特性を満足する情報源属性フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-01T12:02:57Z) - Are You Copying My Model? Protecting the Copyright of Large Language
Models for EaaS via Backdoor Watermark [58.60940048748815]
企業は大規模な言語モデル(LLM)に基づいたEmbeddding as a Service(E)の提供を開始した。
Eはモデル抽出攻撃に弱いため、LLMの所有者に重大な損失をもたらす可能性がある。
埋め込みにバックドアを埋め込むEmbMarkerという埋め込み透かし手法を提案する。
論文 参考訳(メタデータ) (2023-05-17T08:28:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。