論文の概要: Can Performant LLMs Be Ethical? Quantifying the Impact of Web Crawling Opt-Outs
- arxiv url: http://arxiv.org/abs/2504.06219v1
- Date: Tue, 08 Apr 2025 17:08:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-09 13:31:27.904932
- Title: Can Performant LLMs Be Ethical? Quantifying the Impact of Web Crawling Opt-Outs
- Title(参考訳): パフォーマンスのLLMは倫理的であるか? Webクローリングのオプトアウトの影響を定量化する
- Authors: Dongyang Fan, Vinko Sabolčec, Matin Ansaripour, Ayush Kumar Tarun, Martin Jaggi, Antoine Bosselut, Imanol Schlag,
- Abstract要約: 我々は、Webクローリングオプトアウトに準拠したデータセットでトレーニングされたモデルと、そうでないデータセットのパフォーマンス差を定量化する。
1.5Bモデルを用いた実験の結果,2025年1月現在,Webデータオプトアウトの遵守は一般知識獲得を損なうものではないことがわかった。
しかし、医学研究などの専門分野では、大手出版社を除くと性能が低下する。
- 参考スコア(独自算出の注目度): 42.58914814153536
- License:
- Abstract: The increasing adoption of web crawling opt-outs by copyright holders of online content raises critical questions about the impact of data compliance on large language model (LLM) performance. However, little is known about how these restrictions (and the resultant filtering of pretraining datasets) affect the capabilities of models trained using these corpora. In this work, we conceptualize this effect as the $\textit{data compliance gap}$ (DCG), which quantifies the performance difference between models trained on datasets that comply with web crawling opt-outs, and those that do not. We measure the data compliance gap in two settings: pretraining models from scratch and continual pretraining from existing compliant models (simulating a setting where copyrighted data could be integrated later in pretraining). Our experiments with 1.5B models show that, as of January 2025, compliance with web data opt-outs does not degrade general knowledge acquisition (close to 0\% DCG). However, in specialized domains such as biomedical research, excluding major publishers leads to performance declines. These findings suggest that while general-purpose LLMs can be trained to perform equally well using fully open data, performance in specialized domains may benefit from access to high-quality copyrighted sources later in training. Our study provides empirical insights into the long-debated trade-off between data compliance and downstream model performance, informing future discussions on AI training practices and policy decisions.
- Abstract(参考訳): オンラインコンテンツの著作権保持者によるWebクローリングオプトアウトの導入の増加は、データコンプライアンスが大規模言語モデル(LLM)のパフォーマンスに与える影響について批判的な疑問を提起する。
しかしながら、これらの制限(および事前トレーニングデータセットの結果としてのフィルタリング)が、これらのコーパスを使用してトレーニングされたモデルの能力にどのように影響するかは、ほとんど分かっていない。
本研究では、この効果を$\textit{data compliance gap}$ (DCG)として概念化し、Webクローリングオプトアウトに対応するデータセットでトレーニングされたモデルと、そうでないモデルのパフォーマンス差を定量化する。
データコンプライアンスのギャップを2つの設定で測定する: モデルのスクラッチからの事前トレーニングと、既存の準拠モデルからの継続事前トレーニング(事前トレーニングにおいて、著作権付きデータが後から統合されるような設定をシミュレーションする)である。
1.5Bモデルを用いた実験の結果,2025年1月現在,Webデータオプトアウトの遵守は一般知識獲得(DCGが0\%に近づいた)を損なうことはないことがわかった。
しかし、医学研究などの専門分野では、大手出版社を除くと性能が低下する。
これらの結果から, 汎用LLMは, 完全オープンデータを用いて等しく動作するように訓練することができる一方で, 専門領域における性能は, 訓練後の高品質な著作権ソースへのアクセスから恩恵を受ける可能性が示唆された。
我々の研究は、データコンプライアンスとダウンストリームモデルパフォーマンスの長年にわたるトレードオフに関する実証的な洞察を提供し、AIトレーニングプラクティスとポリシー決定に関する今後の議論を報告します。
関連論文リスト
- The interplay between domain specialization and model size [8.653321928148547]
計算制約シナリオ下での継続事前学習におけるドメインサイズとモデルサイズ間の相互作用について検討する。
我々の目標は、このシナリオに最適なトレーニング体制を特定し、異なるモデルサイズとドメインにまたがって一般化可能な、この相互作用のパターンを検出することです。
論文 参考訳(メタデータ) (2025-01-03T19:28:53Z) - Generate to Discriminate: Expert Routing for Continual Learning [59.71853576559306]
Generate to Discriminate (G2D) は、合成データを利用してドメイン識別器を訓練する連続学習手法である。
我々は、G2Dが視覚と言語の両方におけるタスクにおいて、競争力のあるドメイン・インクリメンタル・ラーニング手法より優れていることを観察する。
論文 参考訳(メタデータ) (2024-12-22T13:16:28Z) - TransformLLM: Adapting Large Language Models via LLM-Transformed Reading Comprehension Text [5.523385345486362]
法的な応用に特化して設計された言語モデルを開発した。
我々の革新的なアプローチは、Large Language Models (LLMs) を用いて、生のトレーニングデータを読解テキストに変換することによって、法的タスクの能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-28T19:32:18Z) - CAP: Detecting Unauthorized Data Usage in Generative Models via Prompt Generation [1.6141139250981018]
Copyright Audit via Prompts Generation (CAP)は、MLモデルが不正なデータでトレーニングされているかどうかを自動的にテストするフレームワークである。
具体的には、著作権のあるコンテンツを明らかにするためのモデルに適切なキーを生成するアプローチを考案する。
有効性を証明するため,4つのIoTシナリオで収集した測定値について広範な評価を行った。
論文 参考訳(メタデータ) (2024-10-08T08:49:41Z) - Data Shapley in One Training Run [88.59484417202454]
Data Shapleyは、機械学習コンテキストにおけるデータのコントリビューションに寄与するための、原則化されたフレームワークを提供する。
既存のアプローチでは、計算集約的な異なるデータサブセット上の再学習モデルが必要である。
本稿では、対象とするデータモデルに対するスケーラブルなデータ属性を提供することにより、これらの制限に対処するIn-Run Data Shapleyを紹介する。
論文 参考訳(メタデータ) (2024-06-16T17:09:24Z) - The Frontier of Data Erasure: Machine Unlearning for Large Language Models [56.26002631481726]
大規模言語モデル(LLM)はAIの進歩の基礎となっている。
LLMは機密情報、偏見情報、著作権情報を記憶し、広めることによってリスクを生じさせる。
機械学習は、これらの懸念を軽減するための最先端のソリューションとして現れます。
論文 参考訳(メタデータ) (2024-03-23T09:26:15Z) - Adapting Large Language Models for Content Moderation: Pitfalls in Data
Engineering and Supervised Fine-tuning [79.53130089003986]
大規模言語モデル(LLM)は、様々なドメインでタスクを処理するための実現可能なソリューションとなっている。
本稿では、コンテンツモデレーションのためにプライベートにデプロイ可能なLLMモデルを微調整する方法を紹介する。
論文 参考訳(メタデータ) (2023-10-05T09:09:44Z) - SILO Language Models: Isolating Legal Risk In a Nonparametric Datastore [159.21914121143885]
推論中にこのリスクパフォーマンストレードオフを管理する新しい言語モデルであるSILOを提案する。
SILOは(1)オープンライセンスコーパス(OLC)上でパラメトリックLMをトレーニングすることで構築されます。
データストアへのアクセスはドメインのパフォーマンスを大幅に改善し、PileでトレーニングされたLMでパフォーマンスギャップの90%を閉じる。
論文 参考訳(メタデータ) (2023-08-08T17:58:15Z) - Forecasting Workload in Cloud Computing: Towards Uncertainty-Aware
Predictions and Transfer Learning [1.5749416770494704]
予測の不確かさをモデル化することは、性能に肯定的な影響を及ぼすことを示す。
モデルが異なるドメイン間での伝達学習能力に有益かどうかを検討する。
論文 参考訳(メタデータ) (2023-02-24T14:51:30Z) - Data-Centric Machine Learning in the Legal Domain [0.2624902795082451]
本稿では,データセットの変化がモデルの性能に与える影響について考察する。
法律ドメインから公開されている3つのデータセットを用いて,そのサイズ,列車/テストの分割,および人間のラベル付け精度がパフォーマンスに与える影響について検討する。
観察された効果は、特にクラスごとのパフォーマンスを考慮した場合、驚くほど顕著である。
論文 参考訳(メタデータ) (2022-01-17T23:05:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。