論文の概要: Building Legal Datasets
- arxiv url: http://arxiv.org/abs/2111.02034v1
- Date: Wed, 3 Nov 2021 06:28:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-04 21:13:13.367264
- Title: Building Legal Datasets
- Title(参考訳): 法的データセットの構築
- Authors: Jerrold Soh
- Abstract要約: データ中心のAIは、単に大きなデータセットではなく、よりよいデータを要求する。
治外法が世界規模で普及するにつれ、データセットが合法であることは、ますます重要で見落とされがちな要素である」と記している。
本稿では、MLデータセットを取り巻く重要な法的義務を概観し、MLパイプラインにおけるデータ法則の実践的影響を検証し、法的データセットを構築するための枠組みを提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Data-centric AI calls for better, not just bigger, datasets. As data
protection laws with extra-territorial reach proliferate worldwide, ensuring
datasets are legal is an increasingly crucial yet overlooked component of
``better''. To help dataset builders become more willing and able to navigate
this complex legal space, this paper reviews key legal obligations surrounding
ML datasets, examines the practical impact of data laws on ML pipelines, and
offers a framework for building legal datasets.
- Abstract(参考訳): データ中心のAIは、単に大きなデータセットではなく、よりよいデータを要求する。
地球外到達可能なデータ保護法が世界中で拡大するにつれ、データセットが合法であることは、‘better’の重要かつ見過ごされているコンポーネントとしてますます重要になっている。
この論文では、データセット構築者がこの複雑な法的空間をナビゲートしやすくするために、MLデータセットを取り巻く重要な法的義務をレビューし、MLパイプラインにおけるデータ法律の実践的影響を調べ、法的データセットを構築するためのフレームワークを提供する。
関連論文リスト
- Dataset Protection via Watermarked Canaries in Retrieval-Augmented LLMs [67.0310240737424]
本稿では,テキストデータセットの所有権を保護し,RA-LLMによる不正使用を効果的に検出するための新しいアプローチを提案する。
提案手法では,IPデータセットに特別に設計されたカナリア文書を挿入することにより,元のデータを完全に変更することなく保護する。
検出プロセス中、カナリア文書をクエリし、RA-LLMの応答を分析することにより、不正使用を識別する。
論文 参考訳(メタデータ) (2025-02-15T04:56:45Z) - LawGPT: Knowledge-Guided Data Generation and Its Application to Legal LLM [41.31814587755912]
本稿では,法的推論のための知識誘導型データ生成フレームワークを提案する。
当社の枠組みは,法的な知識を活用して生成の多様性を高めることを可能にし,改良と検証プロセスを導入する。
我々の学習モデルであるLawGPTは、既存の法的なLLMよりも優れており、プロプライエタリなLLMに匹敵する性能を実現している。
論文 参考訳(メタデータ) (2025-02-10T15:40:35Z) - Data Advisor: Dynamic Data Curation for Safety Alignment of Large Language Models [79.65071553905021]
所望のデータセットの特徴を考慮したデータ生成手法であるデータアドバイザを提案する。
Data Advisorは生成されたデータの状態を監視し、現在のデータセットの弱点を特定し、データ生成の次のイテレーションをアドバイスする。
論文 参考訳(メタデータ) (2024-10-07T17:59:58Z) - LegiLM: A Fine-Tuned Legal Language Model for Data Compliance [5.256747140296861]
LegiLMは、データや情報コンプライアンスに関するコンサルティングに特化した、新しい法的言語モデルである。
特定のアクションやイベントがデータセキュリティとプライバシ規則に違反しているかどうかを自動的に評価するように調整されている。
LegiLMは、データ規制違反の検出、健全な法的正当性の提供、必要なコンプライアンス修正の推奨に優れています。
論文 参考訳(メタデータ) (2024-09-09T02:06:52Z) - InternLM-Law: An Open Source Chinese Legal Large Language Model [72.2589401309848]
InternLM-Lawは、中国法に関する様々な法的クエリに対処するための特殊なLLMである。
われわれは、中国法域に100万以上のクエリを含むデータセットを慎重に構築する。
InternLM-LawはLawBench上で最高の平均性能を達成し、20サブタスク中13サブタスクでGPT-4を含む最先端モデルを上回っている。
論文 参考訳(メタデータ) (2024-06-21T06:19:03Z) - The Data Provenance Initiative: A Large Scale Audit of Dataset Licensing
& Attribution in AI [41.32981860191232]
法的および機械学習の専門家は、1800以上のテキストデータセットを体系的に監査し、追跡する。
私たちのランドスケープ分析は、コンポジションの急激な分断と、商業的にオープンなデータセットとクローズドなデータセットの焦点を浮き彫りにしています。
広く使用されているデータセットホスティングサイトでは、ライセンスが70%以上、エラー率が50%以上である。
論文 参考訳(メタデータ) (2023-10-25T17:20:26Z) - On Responsible Machine Learning Datasets with Fairness, Privacy, and Regulatory Norms [56.119374302685934]
AI技術の信頼性に関する深刻な懸念があった。
機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。
本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-24T14:01:53Z) - FedJudge: Federated Legal Large Language Model [10.70953602515144]
大規模言語モデル(LLMs)は、法律専門家や平民を支援するための潜在的な応用を提供する法的な知能の分野で有名になった。
本稿では,LLMとFederated Learning(FL)の方法論の統合について検討する。
本稿では,FedJudge(Federated Legal Large Language Model)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-15T05:45:44Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - DataPerf: Benchmarks for Data-Centric AI Development [81.03754002516862]
DataPerfは、MLデータセットとデータ中心アルゴリズムを評価するための、コミュニティ主導のベンチマークスイートである。
私たちは、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。
ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースである。
論文 参考訳(メタデータ) (2022-07-20T17:47:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。