Fugu-MT 論文翻訳(概要): Building Legal Datasets

論文の概要: Building Legal Datasets

arxiv url: http://arxiv.org/abs/2111.02034v1
Date: Wed, 3 Nov 2021 06:28:30 GMT
ステータス: 翻訳完了
システム内更新日: 2021-11-04 21:13:13.367264
Title: Building Legal Datasets
Title（参考訳）: 法的データセットの構築
Authors: Jerrold Soh
Abstract要約: データ中心のAIは、単に大きなデータセットではなく、よりよいデータを要求する。治外法が世界規模で普及するにつれ、データセットが合法であることは、ますます重要で見落とされがちな要素である」と記している。本稿では、MLデータセットを取り巻く重要な法的義務を概観し、MLパイプラインにおけるデータ法則の実践的影響を検証し、法的データセットを構築するための枠組みを提供する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Data-centric AI calls for better, not just bigger, datasets. As data protection laws with extra-territorial reach proliferate worldwide, ensuring datasets are legal is an increasingly crucial yet overlooked component of ``better''. To help dataset builders become more willing and able to navigate this complex legal space, this paper reviews key legal obligations surrounding ML datasets, examines the practical impact of data laws on ML pipelines, and offers a framework for building legal datasets.
Abstract（参考訳）: データ中心のAIは、単に大きなデータセットではなく、よりよいデータを要求する。地球外到達可能なデータ保護法が世界中で拡大するにつれ、データセットが合法であることは、‘better’の重要かつ見過ごされているコンポーネントとしてますます重要になっている。この論文では、データセット構築者がこの複雑な法的空間をナビゲートしやすくするために、MLデータセットを取り巻く重要な法的義務をレビューし、MLパイプラインにおけるデータ法律の実践的影響を調べ、法的データセットを構築するためのフレームワークを提供する。

関連論文リスト

Compliance Rating Scheme: A Data Provenance Framework for Generative AI Datasets [2.707154152696381]
我々は、重要な透明性、説明責任、セキュリティ原則によるデータセットコンプライアンスを評価するために設計されたフレームワークである、コンプライアンスレーティングスキーム(CRS)を紹介します。このフレームワークを実装するために,データプロファイランス技術を中心に構築された,オープンソースのPythonライブラリもリリースしています。
論文参考訳（メタデータ） (2025-12-25T20:13:46Z)
The Massive Legal Embedding Benchmark (MLEB) [0.0]
MLEB(Massive Legal Embedding Benchmark)について述べる。 MLEBは、これまでで最大の、最も多様な、そして最も包括的なオープンソースベンチマークである。それは、複数の管轄区域にまたがる10のエキスパートアノテートデータセットで構成されている。
論文参考訳（メタデータ） (2025-10-22T08:38:44Z)
TaP: A Taxonomy-Guided Framework for Automated and Scalable Preference Data Generation [50.319535974012]
大規模言語モデル(LLM)の教師付き微調整と選好微調整を行うには、高品質なデータセットが必要である。教師付きおよび好みの微調整のためのほとんどのデータセットは英語で提供されている。本稿では、アンダーラインtextbfTaxonomy-Guided underlinetextbfPreference Data Generationフレームワークを提案する。
論文参考訳（メタデータ） (2025-06-30T15:45:28Z)
SynLexLM: Scaling Legal LLMs with Synthetic Data and Curriculum Learning [0.0]
法的なLLMを効率的に事前訓練するための新しいアプローチであるSynLexLMを紹介する。本手法では, 簡単な法的テキストから複雑なクエリへ, 合成データ拡張と組み合わせて, カリキュラム学習を採用する。予備的な作業は、法的推論を反映した合成QAペアの生成である。
論文参考訳（メタデータ） (2025-04-26T01:42:22Z)
Do Not Trust Licenses You See: Dataset Compliance Requires Massive-Scale AI-Powered Lifecycle Tracing [45.6582862121583]
本稿では,データセットの法的リスクは,ライセンス条項だけでは正確に評価できないことを論じる。データセットの再配布と完全なライフサイクルの追跡が不可欠である、と同社は主張する。我々は、AIが人間の専門家よりも高い精度、効率、コスト効率でこれらのタスクを実行できることを示した。
論文参考訳（メタデータ） (2025-03-04T16:57:53Z)
Dataset Protection via Watermarked Canaries in Retrieval-Augmented LLMs [67.0310240737424]
本稿では,テキストデータセットの所有権を保護し,RA-LLMによる不正使用を効果的に検出するための新しいアプローチを提案する。提案手法では,IPデータセットに特別に設計されたカナリア文書を挿入することにより,元のデータを完全に変更することなく保護する。検出プロセス中、カナリア文書をクエリし、RA-LLMの応答を分析することにより、不正使用を識別する。
論文参考訳（メタデータ） (2025-02-15T04:56:45Z)
LawGPT: Knowledge-Guided Data Generation and Its Application to Legal LLM [41.31814587755912]
本稿では,法的推論のための知識誘導型データ生成フレームワークを提案する。当社の枠組みは,法的な知識を活用して生成の多様性を高めることを可能にし,改良と検証プロセスを導入する。我々の学習モデルであるLawGPTは、既存の法的なLLMよりも優れており、プロプライエタリなLLMに匹敵する性能を実現している。
論文参考訳（メタデータ） (2025-02-10T15:40:35Z)
Data Advisor: Dynamic Data Curation for Safety Alignment of Large Language Models [79.65071553905021]
所望のデータセットの特徴を考慮したデータ生成手法であるデータアドバイザを提案する。 Data Advisorは生成されたデータの状態を監視し、現在のデータセットの弱点を特定し、データ生成の次のイテレーションをアドバイスする。
論文参考訳（メタデータ） (2024-10-07T17:59:58Z)
LegiLM: A Fine-Tuned Legal Language Model for Data Compliance [5.256747140296861]
LegiLMは、データや情報コンプライアンスに関するコンサルティングに特化した、新しい法的言語モデルである。特定のアクションやイベントがデータセキュリティとプライバシ規則に違反しているかどうかを自動的に評価するように調整されている。 LegiLMは、データ規制違反の検出、健全な法的正当性の提供、必要なコンプライアンス修正の推奨に優れています。
論文参考訳（メタデータ） (2024-09-09T02:06:52Z)
How to Drill Into Silos: Creating a Free-to-Use Dataset of Data Subject Access Packages [0.0]
欧州連合(EU)の一般データ保護規則は、個人データへのアクセス権を強化した。コントローラが提供する被写体アクセス要求パッケージ(SARP)を実際に使用する可能性は非常に制限されている。このデータセットは一般に提供され、将来、SARPの実用化に向けた新しいアプローチの研究および比較の出発点として機能する。
論文参考訳（メタデータ） (2024-07-05T12:39:51Z)
InternLM-Law: An Open Source Chinese Legal Large Language Model [72.2589401309848]
InternLM-Lawは、中国法に関する様々な法的クエリに対処するための特殊なLLMである。われわれは、中国法域に100万以上のクエリを含むデータセットを慎重に構築する。 InternLM-LawはLawBench上で最高の平均性能を達成し、20サブタスク中13サブタスクでGPT-4を含む最先端モデルを上回っている。
論文参考訳（メタデータ） (2024-06-21T06:19:03Z)
The Data Provenance Initiative: A Large Scale Audit of Dataset Licensing & Attribution in AI [41.32981860191232]
法的および機械学習の専門家は、1800以上のテキストデータセットを体系的に監査し、追跡する。私たちのランドスケープ分析は、コンポジションの急激な分断と、商業的にオープンなデータセットとクローズドなデータセットの焦点を浮き彫りにしています。広く使用されているデータセットホスティングサイトでは、ライセンスが70%以上、エラー率が50%以上である。
論文参考訳（メタデータ） (2023-10-25T17:20:26Z)
On Responsible Machine Learning Datasets with Fairness, Privacy, and Regulatory Norms [56.119374302685934]
AI技術の信頼性に関する深刻な懸念があった。機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
論文参考訳（メタデータ） (2023-10-24T14:01:53Z)
FedJudge: Federated Legal Large Language Model [10.70953602515144]
大規模言語モデル(LLMs)は、法律専門家や平民を支援するための潜在的な応用を提供する法的な知能の分野で有名になった。本稿では,LLMとFederated Learning(FL)の方法論の統合について検討する。本稿では,FedJudge(Federated Legal Large Language Model)フレームワークを提案する。
論文参考訳（メタデータ） (2023-09-15T05:45:44Z)
SILO Language Models: Isolating Legal Risk In a Nonparametric Datastore [159.21914121143885]
推論中にこのリスクパフォーマンストレードオフを管理する新しい言語モデルであるSILOを提案する。 SILOは(1)オープンライセンスコーパス(OLC)上でパラメトリックLMをトレーニングすることで構築されます。データストアへのアクセスはドメインのパフォーマンスを大幅に改善し、PileでトレーニングされたLMでパフォーマンスギャップの90%を閉じる。
論文参考訳（メタデータ） (2023-08-08T17:58:15Z)
TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文参考訳（メタデータ） (2022-08-16T20:46:08Z)
DataPerf: Benchmarks for Data-Centric AI Development [81.03754002516862]
DataPerfは、MLデータセットとデータ中心アルゴリズムを評価するための、コミュニティ主導のベンチマークスイートである。私たちは、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースである。
論文参考訳（メタデータ） (2022-07-20T17:47:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。