論文の概要: Towards Best Practices for Open Datasets for LLM Training
- arxiv url: http://arxiv.org/abs/2501.08365v1
- Date: Tue, 14 Jan 2025 17:18:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-16 15:53:48.166732
- Title: Towards Best Practices for Open Datasets for LLM Training
- Title(参考訳): LLMトレーニングにおけるオープンデータセットのベストプラクティス
- Authors: Stefan Baack, Stella Biderman, Kasia Odrozek, Aviya Skowron, Ayah Bdeir, Jillian Bommarito, Jennifer Ding, Maximilian Gahntz, Paul Keller, Pierre-Carl Langlais, Greg Lindahl, Sebastian Majstorovic, Nik Marda, Guilherme Penedo, Maarten Van Segbroeck, Jennifer Wang, Leandro von Werra, Mitchell Baker, Julie Belião, Kasia Chmielinski, Marzieh Fadaee, Lisa Gutermuth, Hynek Kydlíček, Greg Leppert, EM Lewis-Jong, Solana Larsen, Shayne Longpre, Angela Oduor Lungati, Cullen Miller, Victor Miller, Max Ryabinin, Kathleen Siminyu, Andrew Strait, Mark Surman, Anna Tumadóttir, Maurice Weber, Rebecca Weiss, Lee White, Thomas Wolf,
- Abstract要約: 多くのAI企業は、著作権所有者の許可なく、データ上で大きな言語モデル(LLM)をトレーニングしています。
創造的なプロデューサーは、いくつかの著名な著作権訴訟を引き起こした。
データ情報を制限するこの傾向は、透明性、説明責任、革新を妨げることによって害をもたらす。
- 参考スコア(独自算出の注目度): 21.448011162803866
- License:
- Abstract: Many AI companies are training their large language models (LLMs) on data without the permission of the copyright owners. The permissibility of doing so varies by jurisdiction: in countries like the EU and Japan, this is allowed under certain restrictions, while in the United States, the legal landscape is more ambiguous. Regardless of the legal status, concerns from creative producers have led to several high-profile copyright lawsuits, and the threat of litigation is commonly cited as a reason for the recent trend towards minimizing the information shared about training datasets by both corporate and public interest actors. This trend in limiting data information causes harm by hindering transparency, accountability, and innovation in the broader ecosystem by denying researchers, auditors, and impacted individuals access to the information needed to understand AI models. While this could be mitigated by training language models on open access and public domain data, at the time of writing, there are no such models (trained at a meaningful scale) due to the substantial technical and sociological challenges in assembling the necessary corpus. These challenges include incomplete and unreliable metadata, the cost and complexity of digitizing physical records, and the diverse set of legal and technical skills required to ensure relevance and responsibility in a quickly changing landscape. Building towards a future where AI systems can be trained on openly licensed data that is responsibly curated and governed requires collaboration across legal, technical, and policy domains, along with investments in metadata standards, digitization, and fostering a culture of openness.
- Abstract(参考訳): 多くのAI企業は、著作権所有者の許可なく、データ上で大きな言語モデル(LLM)をトレーニングしています。
EUや日本のような国では、一定の制限の下で許可されるが、米国では、法的な状況はより曖昧である。
法的地位にかかわらず、クリエイティブプロデューサーの懸念はいくつかの著名な著作権訴訟を引き起こしており、訴訟の脅威は、企業と公共の利害関係者の両方が共有するデータセットに関する情報の最小化に向けた最近の傾向の理由として、一般的に引用されている。
データ情報を制限するこのトレンドは、研究者、監査官、そして影響のある個人がAIモデルを理解するために必要な情報にアクセスすることを否定して、透明性、説明責任、そしてより広範なエコシステムにおけるイノベーションを妨げることによって、害をもたらす。
これはオープンアクセスとパブリックドメインデータに関する言語モデルのトレーニングによって緩和される可能性があるが、執筆時点では、必要なコーパスを組み立てる上での技術的、社会学的課題のために(意味のある規模で訓練された)そのようなモデルは存在しない。
これらの課題には、不完全で信頼性の低いメタデータ、物理レコードのデジタル化のコストと複雑さ、急速に変化する状況における関連性と責任を保証するために必要な様々な法的および技術的なスキルが含まれる。
責任を持ってキュレーションされ、管理されるオープンライセンスのデータに基づいてAIシステムがトレーニングできる未来に向けて構築するには、法的、技術的、政策的な領域をまたいだコラボレーションと、メタデータ標準、デジタル化、オープンな文化の育成が必要です。
関連論文リスト
- Assessing Privacy Policies with AI: Ethical, Legal, and Technical Challenges [6.916147439085307]
大きな言語モデル(LLM)は、ユーザのプライバシポリシを自動評価するために使用することができる。
このアプローチの課題を,技術的実現性,倫理的意味,法的適合性の3つの柱で検討する。
本研究は,今後の研究の可能性を特定し,LLM技術の利用に関する議論を促進することを目的としている。
論文 参考訳(メタデータ) (2024-10-10T21:36:35Z) - The Future of International Data Transfers: Managing Legal Risk with a User-Held Data Model [0.0]
一般データ保護規則(General Data Protection Regulation)は、厳格な要件が満たさない限り、欧州経済圏外の個人データの転送を禁止している。
新しい技術は国際データ転送を標準とし、例外ではない。
この記事では、ユーザが所有するデータモデルという、そのような選択肢について検討する。
論文 参考訳(メタデータ) (2024-07-30T03:15:36Z) - Unlearning Targeted Information via Single Layer Unlearning Gradient [15.374381635334897]
無許可のプライバシー関連計算は社会にとって重要な関心事である。
EUの一般保護規則には「忘れられる権利」が含まれている
本研究では,SLUG(Single Layer Unlearning Gradient)を提案する。
論文 参考訳(メタデータ) (2024-07-16T15:52:36Z) - InternLM-Law: An Open Source Chinese Legal Large Language Model [72.2589401309848]
InternLM-Lawは、中国法に関する様々な法的クエリに対処するための特殊なLLMである。
われわれは、中国法域に100万以上のクエリを含むデータセットを慎重に構築する。
InternLM-LawはLawBench上で最高の平均性能を達成し、20サブタスク中13サブタスクでGPT-4を含む最先端モデルを上回っている。
論文 参考訳(メタデータ) (2024-06-21T06:19:03Z) - Data Authenticity, Consent, & Provenance for AI are all broken: what will it take to fix them? [11.040101172803727]
基礎モデルの新機能は、大部分が大規模で、広くオープンソース化され、文書化されていないトレーニングデータ収集に負っている。
既存のデータ収集の実践は、信頼性の追跡、同意の検証、プライバシーの保護、表現と偏見への対処、著作権の尊重、倫理的かつ信頼できる基礎モデルを総合的に開発するという課題に繋がった。
論文 参考訳(メタデータ) (2024-04-19T07:42:35Z) - The Frontier of Data Erasure: Machine Unlearning for Large Language Models [56.26002631481726]
大規模言語モデル(LLM)はAIの進歩の基礎となっている。
LLMは機密情報、偏見情報、著作権情報を記憶し、広めることによってリスクを生じさせる。
機械学習は、これらの懸念を軽減するための最先端のソリューションとして現れます。
論文 参考訳(メタデータ) (2024-03-23T09:26:15Z) - The Data Provenance Initiative: A Large Scale Audit of Dataset Licensing
& Attribution in AI [41.32981860191232]
法的および機械学習の専門家は、1800以上のテキストデータセットを体系的に監査し、追跡する。
私たちのランドスケープ分析は、コンポジションの急激な分断と、商業的にオープンなデータセットとクローズドなデータセットの焦点を浮き彫りにしています。
広く使用されているデータセットホスティングサイトでは、ライセンスが70%以上、エラー率が50%以上である。
論文 参考訳(メタデータ) (2023-10-25T17:20:26Z) - SILO Language Models: Isolating Legal Risk In a Nonparametric Datastore [159.21914121143885]
推論中にこのリスクパフォーマンストレードオフを管理する新しい言語モデルであるSILOを提案する。
SILOは(1)オープンライセンスコーパス(OLC)上でパラメトリックLMをトレーニングすることで構築されます。
データストアへのアクセスはドメインのパフォーマンスを大幅に改善し、PileでトレーニングされたLMでパフォーマンスギャップの90%を閉じる。
論文 参考訳(メタデータ) (2023-08-08T17:58:15Z) - Distributed Machine Learning and the Semblance of Trust [66.1227776348216]
フェデレートラーニング(FL)により、データ所有者はデータを共有することなく、データガバナンスを維持し、モデルトレーニングをローカルで行うことができる。
FLと関連する技術は、しばしばプライバシー保護と表現される。
この用語が適切でない理由を説明し、プライバシの形式的定義を念頭に設計されていないプロトコルに対する過度な信頼に関連するリスクを概説する。
論文 参考訳(メタデータ) (2021-12-21T08:44:05Z) - Representative & Fair Synthetic Data [68.8204255655161]
公平性制約を自己監督学習プロセスに組み込むためのフレームワークを提示する。
私たちはuci成人国勢調査データセットの代表者および公正版を作成します。
我々は、代表的かつ公正な合成データを将来有望なビルディングブロックとみなし、歴史的世界ではなく、私たちが生きようとしている世界についてアルゴリズムを教える。
論文 参考訳(メタデータ) (2021-04-07T09:19:46Z) - A vision for global privacy bridges: Technical and legal measures for
international data markets [77.34726150561087]
データ保護法とプライバシーの権利が認められているにもかかわらず、個人情報の取引は「トレーディング・オイル」と同等のビジネスになっている。
オープンな対立は、データに対するビジネスの要求とプライバシーへの欲求の間に生じている。
プライバシを備えたパーソナル情報市場のビジョンを提案し,テストする。
論文 参考訳(メタデータ) (2020-05-13T13:55:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。