論文の概要: Bye-bye, Bluebook? Automating Legal Procedure with Large Language Models
- arxiv url: http://arxiv.org/abs/2505.02763v1
- Date: Mon, 05 May 2025 16:18:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.738786
- Title: Bye-bye, Bluebook? Automating Legal Procedure with Large Language Models
- Title(参考訳): バイバイ、ブルーブック? 大規模言語モデルによる法的手続きの自動化
- Authors: Matthew Dahl,
- Abstract要約: アメリカ合衆国では、『The Bluebook: A Uniform System of Citation』より複雑であるものはほとんどない。
大規模言語モデル(LLM)がそのような複雑なシステムの手順に準拠できるかどうかを評価するため,OpenAI, Anthropic, Google, Meta, DeepSeek の 866 Bluebook タスクとテストフラグシップ LLM のデータセットを構築した。
これらのモデルが完全に準拠するBluebookの引用を生成するのは69%-74%に過ぎず、Bluebookの基本的なルールシステムにおけるコンテキスト内学習は精度を77%に向上させる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Legal practice requires careful adherence to procedural rules. In the United States, few are more complex than those found in The Bluebook: A Uniform System of Citation. Compliance with this system's 500+ pages of byzantine formatting instructions is the raison d'etre of thousands of student law review editors and the bete noire of lawyers everywhere. To evaluate whether large language models (LLMs) are able to adhere to the procedures of such a complicated system, we construct an original dataset of 866 Bluebook tasks and test flagship LLMs from OpenAI, Anthropic, Google, Meta, and DeepSeek. We show (1) that these models produce fully compliant Bluebook citations only 69%-74% of the time and (2) that in-context learning on the Bluebook's underlying system of rules raises accuracy only to 77%. These results caution against using off-the-shelf LLMs to automate aspects of the law where fidelity to procedure is paramount.
- Abstract(参考訳): 法律実務は、手続き規則に慎重に従わなければならない。
アメリカ合衆国では、『The Bluebook: A Uniform System of Citation』より複雑であるものはほとんどない。
このシステムの500ページ以上にわたるビザンチンの書式指示への準拠は、何千人もの学生法レビュー編集者と、至る所で弁護士のベイト・ノワールによるレイソン・デットルである。
大規模言語モデル(LLM)がそのような複雑なシステムの手順に準拠できるかどうかを評価するため,OpenAI, Anthropic, Google, Meta, DeepSeek の 866 Bluebook タスクとテストフラグシップ LLM のデータセットを構築した。
これらのモデルが完全に準拠するBluebookの引用を生成しているのは69%-74%に過ぎず,(2)Bluebookの基本的なルールシステムにおけるコンテキスト内学習は,精度を77%に向上させる。
これらの結果は、市販のLCMを使用して、手順への忠実度が最重要である法面の自動化に注意するものである。
関連論文リスト
- SecAlign: Defending Against Prompt Injection with Preference Optimization [52.48001255555192]
アドリアルプロンプトは外部データソースに注入され、システムの意図した命令をオーバーライドし、悪意のある命令を実行する。
我々は、好みの最適化技術に基づくSecAlignと呼ばれる新しいディフェンスを提案する。
本手法は,訓練中に見られたものよりもはるかに高度な攻撃に対しても,様々なプロンプトインジェクションの成功率を約0%に低下させる。
論文 参考訳(メタデータ) (2024-10-07T19:34:35Z) - HarmAug: Effective Data Augmentation for Knowledge Distillation of Safety Guard Models [92.85175340702125]
本研究では,大規模な教師の安全ガードモデルを,バイナリ有害度ラベル付き命令応答ペアのラベル付きデータセットを用いて,より小さなモデルに蒸留する。
本稿では,LLMをジェイルブレイクして有害な命令を発生させる単純なデータ拡張手法であるHarmAugを提案する。
私たちのHarmAugは、70億以上のパラメータを持つ大規模モデルに匹敵するF1スコアを達成し、計算コストの25%未満で運用しながら、AUPRCでそれを上回るパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-10-02T13:12:13Z) - DeliLaw: A Chinese Legal Counselling System Based on a Large Language Model [16.63238943983347]
DeliLawは、大きな言語モデルに基づく中国の法律カウンセリングシステムである。
ユーザーはDeliLawシステム上で、専門家の法的質問や法的記事の検索、関連する判断事例などを対話モードで参照することができる。
論文 参考訳(メタデータ) (2024-08-01T07:54:52Z) - Codebook LLMs: Evaluating LLMs as Measurement Tools for Political Science Concepts [7.005758904228446]
抗議イベントや政治暴力、マニフェストなど、現実世界の3つの政治科学のコードブックを収集し、キュレートしています。
我々は,コードブック-LLM計測のための5段階のフレームワークを提案する。人間とLLMの両方のためのコードブックを作成し,LLMの基本機能をコードブック上でテストし,ゼロショット計測精度を評価する。
現在のオープンウェイトLLMは、以下のコードブックのゼロショットに制限があるが、教師あり指導チューニングは性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2024-07-15T14:20:09Z) - Can LLMs Follow Simple Rules? [28.73820874333199]
ルール追従言語評価シナリオ(ルール追従言語評価シナリオ、RuLES)は、大規模言語モデルにおけるルール追従能力を測定するためのフレームワークである。
RuLESは14の単純なテキストシナリオで構成され、そこではモデルがユーザと対話しながら様々なルールに従うように指示される。
現在のほとんどのモデルは、単純なテストケースであっても、シナリオルールに従うのに苦労しています。
論文 参考訳(メタデータ) (2023-11-06T08:50:29Z) - Large Language Models can Learn Rules [106.40747309894236]
大規模言語モデル(LLM)を用いた推論のためのルールライブラリを学習するフレームワークであるHtTを提案する。
リレーショナル推論、数値推論、概念学習に関する実験は、HtTが既存のプロンプト法を改善することを示す。
学習されたルールは、異なるモデルや同じ問題の異なる形式にも転送可能である。
論文 参考訳(メタデータ) (2023-10-10T23:07:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。