論文の概要: Bye-bye, Bluebook? Automating Legal Procedure with Large Language Models
- arxiv url: http://arxiv.org/abs/2505.02763v1
- Date: Mon, 05 May 2025 16:18:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.738786
- Title: Bye-bye, Bluebook? Automating Legal Procedure with Large Language Models
- Title(参考訳): バイバイ、ブルーブック? 大規模言語モデルによる法的手続きの自動化
- Authors: Matthew Dahl,
- Abstract要約: アメリカ合衆国では、『The Bluebook: A Uniform System of Citation』より複雑であるものはほとんどない。
大規模言語モデル(LLM)がそのような複雑なシステムの手順に準拠できるかどうかを評価するため,OpenAI, Anthropic, Google, Meta, DeepSeek の 866 Bluebook タスクとテストフラグシップ LLM のデータセットを構築した。
これらのモデルが完全に準拠するBluebookの引用を生成するのは69%-74%に過ぎず、Bluebookの基本的なルールシステムにおけるコンテキスト内学習は精度を77%に向上させる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Legal practice requires careful adherence to procedural rules. In the United States, few are more complex than those found in The Bluebook: A Uniform System of Citation. Compliance with this system's 500+ pages of byzantine formatting instructions is the raison d'etre of thousands of student law review editors and the bete noire of lawyers everywhere. To evaluate whether large language models (LLMs) are able to adhere to the procedures of such a complicated system, we construct an original dataset of 866 Bluebook tasks and test flagship LLMs from OpenAI, Anthropic, Google, Meta, and DeepSeek. We show (1) that these models produce fully compliant Bluebook citations only 69%-74% of the time and (2) that in-context learning on the Bluebook's underlying system of rules raises accuracy only to 77%. These results caution against using off-the-shelf LLMs to automate aspects of the law where fidelity to procedure is paramount.
- Abstract(参考訳): 法律実務は、手続き規則に慎重に従わなければならない。
アメリカ合衆国では、『The Bluebook: A Uniform System of Citation』より複雑であるものはほとんどない。
このシステムの500ページ以上にわたるビザンチンの書式指示への準拠は、何千人もの学生法レビュー編集者と、至る所で弁護士のベイト・ノワールによるレイソン・デットルである。
大規模言語モデル(LLM)がそのような複雑なシステムの手順に準拠できるかどうかを評価するため,OpenAI, Anthropic, Google, Meta, DeepSeek の 866 Bluebook タスクとテストフラグシップ LLM のデータセットを構築した。
これらのモデルが完全に準拠するBluebookの引用を生成しているのは69%-74%に過ぎず,(2)Bluebookの基本的なルールシステムにおけるコンテキスト内学習は,精度を77%に向上させる。
これらの結果は、市販のLCMを使用して、手順への忠実度が最重要である法面の自動化に注意するものである。
関連論文リスト
- LLMPR: A Novel LLM-Driven Transfer Learning based Petition Ranking Model [0.0699049312989311]
本稿では,その文脈的緊急性に基づいて,優先格付けを法的請願に割り当てる自動フレームワークを提案する。
実験の結果,ランダムフォレストモデルと決定木モデルの方が優れた性能を示した。
これらの結果から, 自動請願ランキングは, 司法を効果的に合理化し, 訴訟バックログを減らし, 法的優先順位付けの公平性を向上させることが示唆された。
論文 参考訳(メタデータ) (2025-05-27T19:25:24Z) - SecAlign: Defending Against Prompt Injection with Preference Optimization [52.48001255555192]
アドリアルプロンプトは外部データソースに注入され、システムの意図した命令をオーバーライドし、悪意のある命令を実行する。
我々は、好みの最適化技術に基づくSecAlignと呼ばれる新しいディフェンスを提案する。
本手法は,訓練中に見られたものよりもはるかに高度な攻撃に対しても,様々なプロンプトインジェクションの成功率を約0%に低下させる。
論文 参考訳(メタデータ) (2024-10-07T19:34:35Z) - HarmAug: Effective Data Augmentation for Knowledge Distillation of Safety Guard Models [92.85175340702125]
本研究では,大規模な教師の安全ガードモデルを,バイナリ有害度ラベル付き命令応答ペアのラベル付きデータセットを用いて,より小さなモデルに蒸留する。
本稿では,LLMをジェイルブレイクして有害な命令を発生させる単純なデータ拡張手法であるHarmAugを提案する。
私たちのHarmAugは、70億以上のパラメータを持つ大規模モデルに匹敵するF1スコアを達成し、計算コストの25%未満で運用しながら、AUPRCでそれを上回るパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-10-02T13:12:13Z) - Model Tells Itself Where to Attend: Faithfulness Meets Automatic Attention Steering [108.2131720470005]
大規模言語モデル(LLM)は、様々な現実世界のタスクで顕著なパフォーマンスを示している。
彼らはしばしば、入力コンテキストを完全に理解し、効果的に利用するのに苦労し、不信または幻覚的な反応をもたらす。
本稿では,重要な文脈情報を自動的に識別し,LLMの注意点を制御して強調する手法であるAutoPASTAを提案する。
論文 参考訳(メタデータ) (2024-09-16T23:52:41Z) - DeliLaw: A Chinese Legal Counselling System Based on a Large Language Model [16.63238943983347]
DeliLawは、大きな言語モデルに基づく中国の法律カウンセリングシステムである。
ユーザーはDeliLawシステム上で、専門家の法的質問や法的記事の検索、関連する判断事例などを対話モードで参照することができる。
論文 参考訳(メタデータ) (2024-08-01T07:54:52Z) - Codebook LLMs: Evaluating LLMs as Measurement Tools for Political Science Concepts [7.005758904228446]
抗議イベントや政治暴力、マニフェストなど、現実世界の3つの政治科学のコードブックを収集し、キュレートしています。
我々は,コードブック-LLM計測のための5段階のフレームワークを提案する。人間とLLMの両方のためのコードブックを作成し,LLMの基本機能をコードブック上でテストし,ゼロショット計測精度を評価する。
現在のオープンウェイトLLMは、以下のコードブックのゼロショットに制限があるが、教師あり指導チューニングは性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2024-07-15T14:20:09Z) - OR-Bench: An Over-Refusal Benchmark for Large Language Models [65.34666117785179]
大きな言語モデル(LLM)は、悪意のある出力を防ぐために慎重に安全アライメントを必要とする。
本研究では,大規模なオーバーリファレンスデータセットの自動生成手法を提案する。
OR-Benchは,最初の大規模オーバーリファレンスベンチマークである。
論文 参考訳(メタデータ) (2024-05-31T15:44:33Z) - Fake Alignment: Are LLMs Really Aligned Well? [91.26543768665778]
本研究では,複数質問とオープンエンド質問の相違点について検討した。
ジェイルブレイク攻撃パターンの研究にインスパイアされた我々は、これが不一致の一般化によって引き起こされたと論じている。
論文 参考訳(メタデータ) (2023-11-10T08:01:23Z) - Can LLMs Follow Simple Rules? [28.73820874333199]
ルール追従言語評価シナリオ(ルール追従言語評価シナリオ、RuLES)は、大規模言語モデルにおけるルール追従能力を測定するためのフレームワークである。
RuLESは14の単純なテキストシナリオで構成され、そこではモデルがユーザと対話しながら様々なルールに従うように指示される。
現在のほとんどのモデルは、単純なテストケースであっても、シナリオルールに従うのに苦労しています。
論文 参考訳(メタデータ) (2023-11-06T08:50:29Z) - From Text to Structure: Using Large Language Models to Support the
Development of Legal Expert Systems [0.6249768559720122]
法律に焦点をあてたルールベースのエキスパートシステムは、法制が法律にどのように適用されるかを理解して、有益なコンテキストと情報を提供するのを支援することができる。
本稿では,GPT-4のような大規模言語モデル(LLM)が,法律から構造化表現を自動的に抽出できる程度について検討する。
法律決定支援システムのJoursBotの方法論によれば、LSMを使って法律から経路を作成し、その経路を評価し、それらを手作業で作成した経路と比較する。
論文 参考訳(メタデータ) (2023-11-01T18:31:02Z) - Large Language Models can Learn Rules [106.40747309894236]
大規模言語モデル(LLM)を用いた推論のためのルールライブラリを学習するフレームワークであるHtTを提案する。
リレーショナル推論、数値推論、概念学習に関する実験は、HtTが既存のプロンプト法を改善することを示す。
学習されたルールは、異なるモデルや同じ問題の異なる形式にも転送可能である。
論文 参考訳(メタデータ) (2023-10-10T23:07:01Z) - Universal and Transferable Adversarial Attacks on Aligned Language
Models [118.41733208825278]
本稿では,アライメント言語モデルに反抗的な振る舞いを生じさせる,シンプルで効果的な攻撃手法を提案する。
驚いたことに、我々のアプローチによって生じる敵のプロンプトは、かなり伝達可能である。
論文 参考訳(メタデータ) (2023-07-27T17:49:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。