論文の概要: Building Legal Datasets
- arxiv url: http://arxiv.org/abs/2111.02034v1
- Date: Wed, 3 Nov 2021 06:28:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-04 21:13:13.367264
- Title: Building Legal Datasets
- Title(参考訳): 法的データセットの構築
- Authors: Jerrold Soh
- Abstract要約: データ中心のAIは、単に大きなデータセットではなく、よりよいデータを要求する。
治外法が世界規模で普及するにつれ、データセットが合法であることは、ますます重要で見落とされがちな要素である」と記している。
本稿では、MLデータセットを取り巻く重要な法的義務を概観し、MLパイプラインにおけるデータ法則の実践的影響を検証し、法的データセットを構築するための枠組みを提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Data-centric AI calls for better, not just bigger, datasets. As data
protection laws with extra-territorial reach proliferate worldwide, ensuring
datasets are legal is an increasingly crucial yet overlooked component of
``better''. To help dataset builders become more willing and able to navigate
this complex legal space, this paper reviews key legal obligations surrounding
ML datasets, examines the practical impact of data laws on ML pipelines, and
offers a framework for building legal datasets.
- Abstract(参考訳): データ中心のAIは、単に大きなデータセットではなく、よりよいデータを要求する。
地球外到達可能なデータ保護法が世界中で拡大するにつれ、データセットが合法であることは、‘better’の重要かつ見過ごされているコンポーネントとしてますます重要になっている。
この論文では、データセット構築者がこの複雑な法的空間をナビゲートしやすくするために、MLデータセットを取り巻く重要な法的義務をレビューし、MLパイプラインにおけるデータ法律の実践的影響を調べ、法的データセットを構築するためのフレームワークを提供する。
関連論文リスト
- Data Advisor: Dynamic Data Curation for Safety Alignment of Large Language Models [79.65071553905021]
所望のデータセットの特徴を考慮したデータ生成手法であるデータアドバイザを提案する。
Data Advisorは生成されたデータの状態を監視し、現在のデータセットの弱点を特定し、データ生成の次のイテレーションをアドバイスする。
論文 参考訳(メタデータ) (2024-10-07T17:59:58Z) - LegiLM: A Fine-Tuned Legal Language Model for Data Compliance [5.256747140296861]
LegiLMは、データや情報コンプライアンスに関するコンサルティングに特化した、新しい法的言語モデルである。
特定のアクションやイベントがデータセキュリティとプライバシ規則に違反しているかどうかを自動的に評価するように調整されている。
LegiLMは、データ規制違反の検出、健全な法的正当性の提供、必要なコンプライアンス修正の推奨に優れています。
論文 参考訳(メタデータ) (2024-09-09T02:06:52Z) - How to Drill Into Silos: Creating a Free-to-Use Dataset of Data Subject Access Packages [0.0]
欧州連合(EU)の一般データ保護規則は、個人データへのアクセス権を強化した。
コントローラが提供する被写体アクセス要求パッケージ(SARP)を実際に使用する可能性は非常に制限されている。
このデータセットは一般に提供され、将来、SARPの実用化に向けた新しいアプローチの研究および比較の出発点として機能する。
論文 参考訳(メタデータ) (2024-07-05T12:39:51Z) - InternLM-Law: An Open Source Chinese Legal Large Language Model [72.2589401309848]
InternLM-Lawは、中国法に関する様々な法的クエリに対処するための特殊なLLMである。
われわれは、中国法域に100万以上のクエリを含むデータセットを慎重に構築する。
InternLM-LawはLawBench上で最高の平均性能を達成し、20サブタスク中13サブタスクでGPT-4を含む最先端モデルを上回っている。
論文 参考訳(メタデータ) (2024-06-21T06:19:03Z) - The Data Provenance Initiative: A Large Scale Audit of Dataset Licensing
& Attribution in AI [41.32981860191232]
法的および機械学習の専門家は、1800以上のテキストデータセットを体系的に監査し、追跡する。
私たちのランドスケープ分析は、コンポジションの急激な分断と、商業的にオープンなデータセットとクローズドなデータセットの焦点を浮き彫りにしています。
広く使用されているデータセットホスティングサイトでは、ライセンスが70%以上、エラー率が50%以上である。
論文 参考訳(メタデータ) (2023-10-25T17:20:26Z) - On Responsible Machine Learning Datasets with Fairness, Privacy, and Regulatory Norms [56.119374302685934]
AI技術の信頼性に関する深刻な懸念があった。
機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。
本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-24T14:01:53Z) - FedJudge: Federated Legal Large Language Model [10.70953602515144]
大規模言語モデル(LLMs)は、法律専門家や平民を支援するための潜在的な応用を提供する法的な知能の分野で有名になった。
本稿では,LLMとFederated Learning(FL)の方法論の統合について検討する。
本稿では,FedJudge(Federated Legal Large Language Model)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-15T05:45:44Z) - SILO Language Models: Isolating Legal Risk In a Nonparametric Datastore [159.21914121143885]
推論中にこのリスクパフォーマンストレードオフを管理する新しい言語モデルであるSILOを提案する。
SILOは(1)オープンライセンスコーパス(OLC)上でパラメトリックLMをトレーニングすることで構築されます。
データストアへのアクセスはドメインのパフォーマンスを大幅に改善し、PileでトレーニングされたLMでパフォーマンスギャップの90%を閉じる。
論文 参考訳(メタデータ) (2023-08-08T17:58:15Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - DataPerf: Benchmarks for Data-Centric AI Development [81.03754002516862]
DataPerfは、MLデータセットとデータ中心アルゴリズムを評価するための、コミュニティ主導のベンチマークスイートである。
私たちは、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。
ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースである。
論文 参考訳(メタデータ) (2022-07-20T17:47:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。