論文の概要: Pile of Law: Learning Responsible Data Filtering from the Law and a
256GB Open-Source Legal Dataset
- arxiv url: http://arxiv.org/abs/2207.00220v1
- Date: Fri, 1 Jul 2022 06:25:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-04 13:47:00.719344
- Title: Pile of Law: Learning Responsible Data Filtering from the Law and a
256GB Open-Source Legal Dataset
- Title(参考訳): Pile of Law: 256GBのオープンソース法定データセットと法から責任のあるデータフィルタリングを学ぶ
- Authors: Peter Henderson, Mark S. Krass, Lucia Zheng, Neel Guha, Christopher D.
Manning, Dan Jurafsky, Daniel E. Ho
- Abstract要約: 我々は, フィルター材料におけるトレードオフに直接対処する法則に基づくフィルタリングへのアプローチを提案する。
まず、256GBのオープンソース英語および行政データのデータセットであるPile of Lawを収集、利用可能にします。
第二に、政府が有毒または私的コンテンツを含めることを規制するために開発した法規範を精査する。
第3に、Pile of Lawが研究者に、このようなフィルタリングルールを直接データから学習する機会を提供する方法を示します。
- 参考スコア(独自算出の注目度): 46.156169284961045
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One concern with the rise of large language models lies with their potential
for significant harm, particularly from pretraining on biased, obscene,
copyrighted, and private information. Emerging ethical approaches have
attempted to filter pretraining material, but such approaches have been ad hoc
and failed to take into account context. We offer an approach to filtering
grounded in law, which has directly addressed the tradeoffs in filtering
material. First, we gather and make available the Pile of Law, a 256GB (and
growing) dataset of open-source English-language legal and administrative data,
covering court opinions, contracts, administrative rules, and legislative
records. Pretraining on the Pile of Law may potentially help with legal tasks
that have the promise to improve access to justice. Second, we distill the
legal norms that governments have developed to constrain the inclusion of toxic
or private content into actionable lessons for researchers and discuss how our
dataset reflects these norms. Third, we show how the Pile of Law offers
researchers the opportunity to learn such filtering rules directly from the
data, providing an exciting new research direction in model-based processing.
- Abstract(参考訳): 大規模言語モデルの台頭に対する懸念の1つは、特に偏見のある、わいせつな、著作権のある、プライベートな情報の事前学習から、大きな損害をもたらす可能性があることである。
新たな倫理的アプローチは事前学習材料をフィルタリングしようと試みているが、そのようなアプローチはアドホックであり、文脈を考慮に入れなかった。
我々は, フィルター材料におけるトレードオフに直接対処する法則に基づくフィルタリングへのアプローチを提案する。
まず、裁判所の意見、契約、行政規則、および立法記録を網羅した256GBのオープンソースな法的および行政データのデータセットであるPile of Lawを収集、利用可能にします。
法律の山への事前訓練は、司法へのアクセスを改善すると約束する法的タスクに役立つ可能性がある。
第二に、政府が有毒なコンテンツや私的コンテンツを含めることを規制するために開発した法規範を、研究者のための実用的なレッスンに精査し、我々のデータセットがこれらの規範をどう反映しているかについて議論する。
第三に、Pile of Lawは研究者たちに、データから直接フィルタリングルールを学習する機会を与え、モデルベースの処理におけるエキサイティングな新しい研究方向を提供する。
関連論文リスト
- LegiLM: A Fine-Tuned Legal Language Model for Data Compliance [5.256747140296861]
LegiLMは、データや情報コンプライアンスに関するコンサルティングに特化した、新しい法的言語モデルである。
特定のアクションやイベントがデータセキュリティとプライバシ規則に違反しているかどうかを自動的に評価するように調整されている。
LegiLMは、データ規制違反の検出、健全な法的正当性の提供、必要なコンプライアンス修正の推奨に優れています。
論文 参考訳(メタデータ) (2024-09-09T02:06:52Z) - LawLLM: Law Large Language Model for the US Legal System [43.13850456765944]
我々は,米国法域に特化して設計されたマルチタスクモデルであるLawLLM(Law Large Language Model)を紹介する。
類似症例検索(SCR)、PCR(Precedent Case Recommendation)、LJP(Lawal Judgment Prediction)においてLawLLMが優れている
そこで本研究では,各タスクに対して,生の法定データをトレーニング可能な形式に変換する,カスタマイズされたデータ前処理手法を提案する。
論文 参考訳(メタデータ) (2024-07-27T21:51:30Z) - It Cannot Be Right If It Was Written by AI: On Lawyers' Preferences of Documents Perceived as Authored by an LLM vs a Human [0.6827423171182154]
大きな言語モデル(LLM)は、ある種類の法律文書を自動的に生成する未来を可能にする。
この研究は、成熟した生成AIシステムへの継続的な移行の必要な分析である。
我々の分析では、AIによって生成されたと考えられるものよりも、人間によって作成されたと考えられる文書が明らかに好まれていた。
論文 参考訳(メタデータ) (2024-07-09T12:11:25Z) - InternLM-Law: An Open Source Chinese Legal Large Language Model [72.2589401309848]
InternLM-Lawは、中国法に関する様々な法的クエリに対処するための特殊なLLMである。
われわれは、中国法域に100万以上のクエリを含むデータセットを慎重に構築する。
InternLM-LawはLawBench上で最高の平均性能を達成し、20サブタスク中13サブタスクでGPT-4を含む最先端モデルを上回っている。
論文 参考訳(メタデータ) (2024-06-21T06:19:03Z) - Precedent-Enhanced Legal Judgment Prediction with LLM and Domain-Model
Collaboration [52.57055162778548]
法的判断予測(LJP)は、法律AIにおいてますます重要な課題となっている。
先行は、同様の事実を持つ以前の訴訟であり、国家法制度におけるその後の事件の判断の基礎となっている。
近年のディープラーニングの進歩により、LJPタスクの解決に様々なテクニックが使えるようになった。
論文 参考訳(メタデータ) (2023-10-13T16:47:20Z) - SILO Language Models: Isolating Legal Risk In a Nonparametric Datastore [159.21914121143885]
推論中にこのリスクパフォーマンストレードオフを管理する新しい言語モデルであるSILOを提案する。
SILOは(1)オープンライセンスコーパス(OLC)上でパラメトリックLMをトレーニングすることで構築されます。
データストアへのアクセスはドメインのパフォーマンスを大幅に改善し、PileでトレーニングされたLMでパフォーマンスギャップの90%を閉じる。
論文 参考訳(メタデータ) (2023-08-08T17:58:15Z) - Should I disclose my dataset? Caveats between reproducibility and
individual data rights [5.816090284071069]
裁判所文書のデジタル利用は研究者の可能性を増大させる。
しかし、個人データ保護法は、データ露出に制限を課している。
我々は,この問題に関する法的・倫理的考察と研究者のガイドラインを提示する。
論文 参考訳(メタデータ) (2022-11-01T14:42:11Z) - Having your Privacy Cake and Eating it Too: Platform-supported Auditing
of Social Media Algorithms for Public Interest [70.02478301291264]
ソーシャルメディアプラットフォームは、情報や機会へのアクセスをキュレートするので、公衆の言論を形成する上で重要な役割を果たす。
これまでの研究では、これらのアルゴリズムが偏見や差別的な結果をもたらすことを示すためにブラックボックス法が用いられてきた。
本稿では,提案法の目標を満たすプラットフォーム支援型監査手法を提案する。
論文 参考訳(メタデータ) (2022-07-18T17:32:35Z) - Lawformer: A Pre-trained Language Model for Chinese Legal Long Documents [56.40163943394202]
我々は,中国法定長文理解のためのLongformerベースの事前学習言語モデル,Lawformerをリリースする。
判決の予測,類似事例の検索,法的読解,法的質問の回答など,さまざまな法務上の課題について法務担当者を評価した。
論文 参考訳(メタデータ) (2021-05-09T09:39:25Z) - A Legal Approach to Hate Speech: Operationalizing the EU's Legal
Framework against the Expression of Hatred as an NLP Task [2.248133901806859]
本稿では,刑法に従属するか否かの判断を運用することで,音声検出を嫌う「法的アプローチ」を提案する。
法的な判断を一連の単純なサブ決定に分解することで、素人でさえ一貫して注釈を付けることができることを示す。
論文 参考訳(メタデータ) (2020-04-07T14:13:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。