論文の概要: Digger: Detecting Copyright Content Mis-usage in Large Language Model
Training
- arxiv url: http://arxiv.org/abs/2401.00676v1
- Date: Mon, 1 Jan 2024 06:04:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-03 16:19:46.015488
- Title: Digger: Detecting Copyright Content Mis-usage in Large Language Model
Training
- Title(参考訳): Digger:大規模言語モデルトレーニングにおける著作権侵害の検知
- Authors: Haodong Li, Gelei Deng, Yi Liu, Kailong Wang, Yuekang Li, Tianwei
Zhang, Yang Liu, Guoai Xu, Guosheng Xu, Haoyu Wang
- Abstract要約: 本稿では,Large Language Models (LLMs) のトレーニングデータセット内で著作権のある書籍のコンテンツの存在を検知し,評価するためのフレームワークを提案する。
このフレームワークはまた、各コンテンツサンプルのインクルージョンの可能性の信頼度推定も提供する。
- 参考スコア(独自算出の注目度): 23.99093718956372
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-training, which utilizes extensive and varied datasets, is a critical
factor in the success of Large Language Models (LLMs) across numerous
applications. However, the detailed makeup of these datasets is often not
disclosed, leading to concerns about data security and potential misuse. This
is particularly relevant when copyrighted material, still under legal
protection, is used inappropriately, either intentionally or unintentionally,
infringing on the rights of the authors.
In this paper, we introduce a detailed framework designed to detect and
assess the presence of content from potentially copyrighted books within the
training datasets of LLMs. This framework also provides a confidence estimation
for the likelihood of each content sample's inclusion. To validate our
approach, we conduct a series of simulated experiments, the results of which
affirm the framework's effectiveness in identifying and addressing instances of
content misuse in LLM training processes. Furthermore, we investigate the
presence of recognizable quotes from famous literary works within these
datasets. The outcomes of our study have significant implications for ensuring
the ethical use of copyrighted materials in the development of LLMs,
highlighting the need for more transparent and responsible data management
practices in this field.
- Abstract(参考訳): 広範囲で多様なデータセットを利用する事前トレーニングは、多数のアプリケーションにわたる大規模言語モデル(LLM)の成功の重要な要因である。
しかし、これらのデータセットの詳細な構成は公開されていないことが多く、データセキュリティと潜在的な誤用に関する懸念につながっている。
これは、著作権のある素材が故意に、意図的に、または意図せず、著者の権利を侵害している場合に特に適切である。
本稿では,LLMのトレーニングデータセット内で著作権のある書籍のコンテンツの存在を検知し,評価するための詳細なフレームワークを提案する。
このフレームワークはまた、各コンテンツサンプルの包摂可能性の信頼度推定も提供する。
提案手法の有効性を検証するため,LLMトレーニングプロセスにおけるコンテンツ誤用事例の特定と対処におけるフレームワークの有効性を検証したシミュレーション実験を行った。
さらに,これらのデータセットに含まれる有名な文学作品の引用文の存在について検討する。
本研究の結果は, LLMの発展における著作権資料の倫理的利用の確保に重要な意味を持ち, この分野における透明性と責任を負うデータ管理の実践の必要性を強調している。
関連論文リスト
- Lazy Data Practices Harm Fairness Research [49.02318458244464]
本稿では,公正な機械学習データセットを包括的に分析し,不反射的手法がアルゴリズム的公正度発見の到達度と信頼性をいかに妨げているかを示す。
本分析では,(1)データと評価における特定の保護属性の表現のテクスブフラック,(2)データ前処理におけるマイノリティの広汎なテキストbf,(3)フェアネス研究の一般化を脅かすテキストbfopaqueデータ処理の3つの分野について検討した。
この研究は、公正なMLにおけるデータプラクティスの批判的な再評価の必要性を強調し、データセットのソーシングと使用の両方を改善するための指針を提供する。
論文 参考訳(メタデータ) (2024-04-26T09:51:24Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - LLM In-Context Recall is Prompt Dependent [0.0]
これを行うモデルの能力は、実世界のアプリケーションにおける実用性と信頼性に大きな影響を及ぼす。
本研究は, LLMのリコール能力がプロンプトの内容に影響を及ぼすだけでなく, トレーニングデータのバイアスによって損なわれる可能性があることを示す。
論文 参考訳(メタデータ) (2024-04-13T01:13:59Z) - Data Poisoning for In-context Learning [49.77204165250528]
In-context Learning (ICL)は、新しいタスクに適応する革新的な能力として認識されている。
本論文は、ICLのデータ中毒に対する感受性の重大な問題について述べる。
ICLの学習メカニズムを活用するために考案された特殊攻撃フレームワークであるICLPoisonを紹介する。
論文 参考訳(メタデータ) (2024-02-03T14:20:20Z) - Breaking the Silence: the Threats of Using LLMs in Software Engineering [12.368546216271382]
大規模言語モデル(LLM)は、ソフトウェア工学(SE)コミュニティ内で大きな注目を集めています。
本稿では,LSMに基づく研究の有効性に対する潜在的な脅威について,オープンな議論を開始する。
論文 参考訳(メタデータ) (2023-12-13T11:02:19Z) - Assessing Privacy Risks in Language Models: A Case Study on
Summarization Tasks [65.21536453075275]
我々は要約作業に焦点をあて、会員推測(MI)攻撃について調査する。
テキストの類似性や文書修正に対するモデルの抵抗をMI信号として活用する。
我々は、MI攻撃から保護するための要約モデルの訓練と、プライバシとユーティリティの本質的にのトレードオフについて議論する。
論文 参考訳(メタデータ) (2023-10-20T05:44:39Z) - Large Language Models Can Be Good Privacy Protection Learners [53.07930843882592]
本稿では,プライバシ保護言語モデル(PPLM)を紹介する。
本研究は, コーパスキュレーション, ペナルティに基づくトレーニング損失の相違, 命令に基づくチューニングなど, モデル設計の理論的解析を行う。
特に、肯定的な例と否定的な例の両方による命令チューニングは、モデルの知識を高めながら、個人データを効果的に保護する、有望な方法として際立っている。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - WASA: WAtermark-based Source Attribution for Large Language
Model-Generated Data [60.759755177369364]
大言語モデル(LLM)は、ソースに関する情報を含む埋め込み透かしを持つ合成テキストを生成する。
本稿では,我々のアルゴリズム設計により鍵特性を満たすWAtermarking for Source Attribution (WASA)フレームワークを提案する。
我々のフレームワークは、効果的な情報源の属性とデータの出所を達成します。
論文 参考訳(メタデータ) (2023-10-01T12:02:57Z) - Ground-Truth, Whose Truth? -- Examining the Challenges with Annotating
Toxic Text Datasets [26.486492641924226]
本研究は,本質的な問題に光を当てることを目的として,選択された有毒なテキストデータセットについて検討する。
3つの有毒テキストデータセットからサンプルを再アノテートし、有毒テキストサンプルにアノテートするマルチラベルアプローチがデータセットの品質向上に役立ちます。
論文 参考訳(メタデータ) (2021-12-07T06:58:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。