論文の概要: Exploring Memorization and Copyright Violation in Frontier LLMs: A Study of the New York Times v. OpenAI 2023 Lawsuit
- arxiv url: http://arxiv.org/abs/2412.06370v1
- Date: Mon, 09 Dec 2024 10:44:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:57:15.306300
- Title: Exploring Memorization and Copyright Violation in Frontier LLMs: A Study of the New York Times v. OpenAI 2023 Lawsuit
- Title(参考訳): The New York Times v. OpenAI 2023 Lawsuit
- Authors: Joshua Freeman, Chloe Rippe, Edoardo Debenedetti, Maksym Andriushchenko,
- Abstract要約: 我々は,OpenAI の LLM の妥当性を測定し,他の LLM と比較して,その出力に冗長な記憶を示す。
私たちは現在、OpenAIモデルはMeta、Mistral、Anthropicのモデルよりも、導入する傾向が低いことに気付きました。
非常に大きなモデルでは,動詞の暗記を防ぐことに注意を払わなければならない。
- 参考スコア(独自算出の注目度): 12.047768134980474
- License:
- Abstract: Copyright infringement in frontier LLMs has received much attention recently due to the New York Times v. OpenAI lawsuit, filed in December 2023. The New York Times claims that GPT-4 has infringed its copyrights by reproducing articles for use in LLM training and by memorizing the inputs, thereby publicly displaying them in LLM outputs. Our work aims to measure the propensity of OpenAI's LLMs to exhibit verbatim memorization in its outputs relative to other LLMs, specifically focusing on news articles. We discover that both GPT and Claude models use refusal training and output filters to prevent verbatim output of the memorized articles. We apply a basic prompt template to bypass the refusal training and show that OpenAI models are currently less prone to memorization elicitation than models from Meta, Mistral, and Anthropic. We find that as models increase in size, especially beyond 100 billion parameters, they demonstrate significantly greater capacity for memorization. Our findings have practical implications for training: more attention must be placed on preventing verbatim memorization in very large models. Our findings also have legal significance: in assessing the relative memorization capacity of OpenAI's LLMs, we probe the strength of The New York Times's copyright infringement claims and OpenAI's legal defenses, while underscoring issues at the intersection of generative AI, law, and policy.
- Abstract(参考訳): LLMsにおける著作権侵害は、2023年12月に起こされたNew York Times対OpenAI訴訟により、最近注目を集めている。
ニューヨーク・タイムズは、GPT-4はLSMトレーニングで使用する記事の再生と入力を記憶することで著作権を侵害し、LSM出力に公開していると主張している。
本研究の目的は,OpenAI の LLM の妥当性を測定し,他の LLM と比較して,特にニュース記事に焦点をあてることである。
GPTモデルとClaudeモデルの両方がリファレンストレーニングと出力フィルタを用いて,記憶された記事の冗長な出力を防止することを発見した。
基本的プロンプトテンプレートを用いて、拒絶訓練を回避し、現在、OpenAIモデルはMeta、Mistral、Anthhropicのモデルよりも記憶の誘発の傾向が低いことを示す。
モデルのサイズが大きくなるにつれて、特に1000億以上のパラメータが記憶される。
非常に大きなモデルでは,動詞の暗記を防ぐことに注意を払わなければならない。
われわれは、OpenAIのLLMの相対記憶能力を評価する際に、ニューヨーク・タイムズの著作権侵害の主張とOpenAIの法的防御の強さを調査するとともに、生成的AI、法律、ポリシーの交差点における問題を裏付ける。
関連論文リスト
- Data Defenses Against Large Language Models [19.337209235295063]
データディフェンス"により、データ所有者は、大きな言語モデルがデータに対する推論の実行をブロックできる。
本研究では, 逆方向のインジェクションを自動生成する手法を開発した。
このような推論に対する直接的な抵抗を可能にする倫理について検討する。
論文 参考訳(メタデータ) (2024-10-17T01:51:56Z) - HarmAug: Effective Data Augmentation for Knowledge Distillation of Safety Guard Models [92.85175340702125]
本研究では,大規模な教師の安全ガードモデルを,バイナリ有害度ラベル付き命令応答ペアのラベル付きデータセットを用いて,より小さなモデルに蒸留する。
本稿では,LLMをジェイルブレイクして有害な命令を発生させる単純なデータ拡張手法であるHarmAugを提案する。
私たちのHarmAugは、70億以上のパラメータを持つ大規模モデルに匹敵するF1スコアを達成し、計算コストの25%未満で運用しながら、AUPRCでそれを上回るパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-10-02T13:12:13Z) - Can Watermarking Large Language Models Prevent Copyrighted Text Generation and Hide Training Data? [62.72729485995075]
著作権文書の生成に対する抑止剤としての透かしの有効性について検討する。
我々は、透かしがメンバーシップ推論攻撃(MIA)の成功率に悪影響を及ぼすことを発見した。
透かしにおける最近のMIAの成功率を改善するための適応的手法を提案する。
論文 参考訳(メタデータ) (2024-07-24T16:53:09Z) - Scaling Laws for Fact Memorization of Large Language Models [67.94080978627363]
我々は,大規模言語モデルにおける事実知識のスケーリング法則と,異なる種類の事実を記憶する行動について分析する。
LLMの事実知識能力は,モデルサイズや訓練のエポックと線形かつ負の指数法則関係を持つことがわかった。
本研究は,LLMのファクト・ナレッジ・ナレッジ・ラーニングの能力と特徴を明らかにし,LLMのファクト・ナレッジ・アジュメンテーションの方向性を示した。
論文 参考訳(メタデータ) (2024-06-22T03:32:09Z) - Avoiding Copyright Infringement via Large Language Model Unlearning [24.050754626661124]
本稿では,複数段階にわたる大規模言語モデルから著作権付きコンテンツを解放するための新しいフレームワークを提案する。
ランダムなラベリング損失を導入し、モデルの汎用的知識を確実に維持することにより、未学習の有効性を向上させる。
実験結果から,SSUは未学習の有効性と汎用言語能力とのトレードオフを効果的に達成できることが示された。
論文 参考訳(メタデータ) (2024-06-16T14:12:37Z) - MAP-Neo: Highly Capable and Transparent Bilingual Large Language Model Series [86.31735321970481]
私たちはMAP-Neoをオープンソースにしました。これは、4.5Tの高品質トークン上で、スクラッチからトレーニングされた7Bパラメータを持つバイリンガル言語モデルです。
MAP-Neo は,既存の最先端 LLM と比較して性能が劣る初の完全オープンソースバイリンガル LLM である。
論文 参考訳(メタデータ) (2024-05-29T17:57:16Z) - Second-Order Information Matters: Revisiting Machine Unlearning for Large Language Models [1.443696537295348]
プライバシーの漏洩と著作権侵害はまだ未発見だ。
我々の未学習のアルゴリズムは、データに依存しない/モデルに依存しないだけでなく、ユーティリティの保存やプライバシー保証の観点からも堅牢であることが証明されている。
論文 参考訳(メタデータ) (2024-03-13T18:57:30Z) - Large Language Models: A Survey [69.72787936480394]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。
LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文 参考訳(メタデータ) (2024-02-09T05:37:09Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Make Them Spill the Beans! Coercive Knowledge Extraction from
(Production) LLMs [31.80386572346993]
LLMが有害な要求を拒絶しても、有害な応答が出力ロジットの奥深くに隠されることがよくあります。
このアプローチは、脱獄方法と異なり、有効性は62%に対して92%、高速性は10~20倍である。
本研究は, コーディングタスクに特化して設計されたモデルから, 有毒な知識を抽出できることを示唆する。
論文 参考訳(メタデータ) (2023-12-08T01:41:36Z) - Did the Neurons Read your Book? Document-level Membership Inference for Large Language Models [17.993892458845124]
文書レベルのメンバシップを予測し,OpenLLaMA-7B上でインスタンス化するブラックボックス手法を提案する。
本稿では,文書レベルのメンバシップタスクにおいて,プライバシ文献で使用される文レベルのメンバシップ推論攻撃よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-10-23T15:00:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。