論文の概要: Beyond Public Access in LLM Pre-Training Data
- arxiv url: http://arxiv.org/abs/2505.00020v1
- Date: Thu, 24 Apr 2025 15:49:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:55.097573
- Title: Beyond Public Access in LLM Pre-Training Data
- Title(参考訳): LLM事前試験データにおける公開アクセスを超えて
- Authors: Sruly Rosenblat, Tim O'Reilly, Ilan Strauss,
- Abstract要約: OpenAIのより最新かつ有能なモデルであるGPT-4oは、ペイウォールされたO'Reillyの書籍コンテンツを強く認識している。
GPT-3.5 Turboは、O'Reillyの書籍のサンプルを広く認識している。
GPT-4o Miniは、はるかに小さなモデルであり、パブリックまたは非パブリックなオライリーメディアのコンテンツに関する知識は示していない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Using a legally obtained dataset of 34 copyrighted O'Reilly Media books, we apply the DE-COP membership inference attack method to investigate whether OpenAI's large language models were trained on copyrighted content without consent. Our AUROC scores show that GPT-4o, OpenAI's more recent and capable model, demonstrates strong recognition of paywalled O'Reilly book content (AUROC = 82\%), compared to OpenAI's earlier model GPT-3.5 Turbo. In contrast, GPT-3.5 Turbo shows greater relative recognition of publicly accessible O'Reilly book samples. GPT-4o Mini, as a much smaller model, shows no knowledge of public or non-public O'Reilly Media content when tested (AUROC $\approx$ 50\%). Testing multiple models, with the same cutoff date, helps us account for potential language shifts over time that might bias our findings. These results highlight the urgent need for increased corporate transparency regarding pre-training data sources as a means to develop formal licensing frameworks for AI content training
- Abstract(参考訳): 合法的に得られた34冊の著作権付きO'Reilly Media書籍のデータセットを用いて,OpenAIの大規模言語モデルが著作権付きコンテンツに対して同意なくトレーニングされたかどうかを調べるために,DE-COPメンバシップ推論手法を適用した。
我々のAUROCスコアは、OpenAIのより最新かつ有能なモデルであるGPT-4oが、OpenAIの以前のモデルであるGPT-3.5 Turboと比較して、ペイウォールド・オライリーの書籍コンテンツ(AUROC = 82\%)を強く認識していることを示している。
対照的に、GPT-3.5 Turboは、一般にアクセス可能なO'Reillyの本サンプルの相対的な認識をより高めている。
GPT-4o Miniは、はるかに小さなモデルであり、テスト時にパブリックまたは非パブリックなO'Reilly Mediaコンテンツに関する知識は示していない(AUROC $\approx$ 50\%)。
複数のモデルを同じカットオフ日でテストすることは、私たちの発見をバイアスする可能性のある、時間とともに言語の変化の可能性を考慮するのに役立ちます。
これらの結果は、AIコンテンツトレーニングのための正式なライセンスフレームワークを開発する手段として、事前トレーニングデータソースに関する企業透明性の急激な向上の必要性を強調している。
関連論文リスト
- DIS-CO: Discovering Copyrighted Content in VLMs Training Data [24.15936677068714]
モデルの開発において,著作権付きコンテンツの含意を推測する新しいアプローチであるdis-COを提案する。
対象とする著作権物質から特定のフレームでVLMを何度もクエリすることで、dis-COは自由形式のテキスト補完を通じてコンテンツのアイデンティティを抽出する。
以上の結果から,dis-COは検出性能を著しく向上し,最良先行法の平均AUCをほぼ倍増させることがわかった。
論文 参考訳(メタデータ) (2025-02-24T17:36:49Z) - Trustless Audits without Revealing Data or Models [49.23322187919369]
モデルプロバイダが(アーキテクチャではなく)モデルウェイトとデータシークレットを維持しながら、他のパーティがモデルとデータプロパティを信頼性のない監査を行うことが可能であることを示す。
私たちはZkAuditと呼ばれるプロトコルを設計し、モデルプロバイダがデータセットとモデルの重みの暗号的コミットメントを公開します。
論文 参考訳(メタデータ) (2024-04-06T04:43:06Z) - Using Large Language Models to Enrich the Documentation of Datasets for Machine Learning [1.8270184406083445]
大規模言語モデル(LLM)を用いて,文書から次元を自動的に抽出する戦略について検討する。
当社のアプローチは、データパブリッシャや実践者がマシン可読なドキュメントを作成するのに役立ちます。
我々は、我々のアプローチを実装するオープンソースツールと、実験のコードと結果を含むレプリケーションパッケージをリリースした。
論文 参考訳(メタデータ) (2024-04-04T10:09:28Z) - ExaRanker-Open: Synthetic Explanation for IR using Open-Source LLMs [60.81649785463651]
ExaRanker-Openを導入し、オープンソース言語モデルを適用して、説明を生成する。
以上の結果から,LLMのサイズが大きくなるにつれて,説明の組み込みが神経ランク付けを継続的に促進することが明らかとなった。
論文 参考訳(メタデータ) (2024-02-09T11:23:14Z) - Reproducing Whisper-Style Training Using an Open-Source Toolkit and
Publicly Available Data [75.7383558074758]
本研究はWhisperスタイル音声モデル(OWSM)を提案する。
OWSMはオープンソースツールキットと公開データを使ってWhisperスタイルのトレーニングを再現する。
データ準備、トレーニング、推論、スコアリングに使用されるすべてのスクリプトと、オープンサイエンスを促進するための事前訓練されたモデルとトレーニングログを公開します。
論文 参考訳(メタデータ) (2023-09-25T05:01:34Z) - SILO Language Models: Isolating Legal Risk In a Nonparametric Datastore [159.21914121143885]
推論中にこのリスクパフォーマンストレードオフを管理する新しい言語モデルであるSILOを提案する。
SILOは(1)オープンライセンスコーパス(OLC)上でパラメトリックLMをトレーニングすることで構築されます。
データストアへのアクセスはドメインのパフォーマンスを大幅に改善し、PileでトレーニングされたLMでパフォーマンスギャップの90%を閉じる。
論文 参考訳(メタデータ) (2023-08-08T17:58:15Z) - Opening up ChatGPT: Tracking openness, transparency, and accountability
in instruction-tuned text generators [0.11470070927586018]
コードのオープン性、トレーニングデータ、モデルウェイト、RLHFデータ、ライセンス、科学文書、アクセス方法の観点からプロジェクトを評価する。
オープンソース”と自称するプロジェクトのリストが急速に伸びているのに対して、多くのプロジェクトは、疑わしい合法性の文書化されていないデータを継承している。
オープン性の度合いは、あらゆる点で公平性と説明責任に関係している。
論文 参考訳(メタデータ) (2023-07-08T07:08:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。