論文の概要: LLMs Provide Unstable Answers to Legal Questions
- arxiv url: http://arxiv.org/abs/2502.05196v1
- Date: Tue, 28 Jan 2025 23:39:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-16 05:04:39.257458
- Title: LLMs Provide Unstable Answers to Legal Questions
- Title(参考訳): LLMは、法的問題に対する不安定な回答を提供する
- Authors: Andrew Blair-Stanek, Benjamin Van Durme,
- Abstract要約: 温度を0。
我々は、事実、競合する法的議論、どの党が優位に立つべきかという2つの当事者を含む、実例から抽出した500件の法的な質問の新たなデータセットをキュレートし、リリースする。
- 参考スコア(独自算出の注目度): 42.78833522423609
- License:
- Abstract: An LLM is stable if it reaches the same conclusion when asked the identical question multiple times. We find leading LLMs like gpt-4o, claude-3.5, and gemini-1.5 are unstable when providing answers to hard legal questions, even when made as deterministic as possible by setting temperature to 0. We curate and release a novel dataset of 500 legal questions distilled from real cases, involving two parties, with facts, competing legal arguments, and the question of which party should prevail. When provided the exact same question, we observe that LLMs sometimes say one party should win, while other times saying the other party should win. This instability has implications for the increasing numbers of legal AI products, legal processes, and lawyers relying on these LLMs.
- Abstract(参考訳): LLMは、同じ質問を何度も繰り返した時に同じ結論に達した場合、安定である。
gpt-4o, claude-3.5, gemini-1.5などのLLMは, 温度を0。
我々は、事実、競合する法的議論、どの党が優位に立つべきかという2つの当事者を含む、実例から抽出した500件の法的な質問の新たなデータセットをキュレートし、リリースする。
まったく同じ質問を下すと、ある政党が勝つべきだとLDMが言うことがあるのに対し、別の政党が勝つべきだと言うことがあるのを観察します。
この不安定さは、法的なAI製品の増加、法的なプロセス、そしてこれらのLLMに依存する弁護士に影響を及ぼす。
関連論文リスト
- Are LLMs Aware that Some Questions are not Open-ended? [58.93124686141781]
大規模言語モデルでは、いくつかの質問が限定的な回答を持ち、より決定論的に答える必要があることを認識しているかどうかを調査する。
LLMにおける疑問認識の欠如は,(1)非オープンな質問に答えるにはカジュアルすぎる,(2)オープンな質問に答えるには退屈すぎる,という2つの現象をもたらす。
論文 参考訳(メタデータ) (2024-10-01T06:07:00Z) - InternLM-Law: An Open Source Chinese Legal Large Language Model [72.2589401309848]
InternLM-Lawは、中国法に関する様々な法的クエリに対処するための特殊なLLMである。
われわれは、中国法域に100万以上のクエリを含むデータセットを慎重に構築する。
InternLM-LawはLawBench上で最高の平均性能を達成し、20サブタスク中13サブタスクでGPT-4を含む最先端モデルを上回っている。
論文 参考訳(メタデータ) (2024-06-21T06:19:03Z) - GTBench: Uncovering the Strategic Reasoning Limitations of LLMs via Game-Theoretic Evaluations [87.99872683336395]
大規模言語モデル(LLM)は、重要な現実世界のアプリケーションに統合される。
本稿では,LLMの競合環境における推論能力について検討する。
まず,広く認識されている10のタスクを構成する言語駆動型環境であるGTBenchを提案する。
論文 参考訳(メタデータ) (2024-02-19T18:23:36Z) - When Do LLMs Need Retrieval Augmentation? Mitigating LLMs' Overconfidence Helps Retrieval Augmentation [66.01754585188739]
大規模言語モデル(LLM)は、特定の知識を持っていないことを知るのが困難であることが判明した。
Retrieval Augmentation (RA)はLLMの幻覚を緩和するために広く研究されている。
本稿では,LLMの知識境界に対する認識を高めるためのいくつかの手法を提案する。
論文 参考訳(メタデータ) (2024-02-18T04:57:19Z) - Better Call GPT, Comparing Large Language Models Against Lawyers [0.0]
本稿では,契約審査において,大規模言語モデルが人間の精度,速度,コスト効率を上回りうるかどうかを論じる。
スピードでは、LSMは人間に必要な時間を取り除き、ほんの数秒でレビューを完了します。
コスト面では、LSMは価格のごく一部で運用されており、従来の方法よりも99.97パーセントのコスト削減を実現している。
論文 参考訳(メタデータ) (2024-01-24T03:53:28Z) - Large Legal Fictions: Profiling Legal Hallucinations in Large Language Models [8.04008608493335]
大規模言語モデル(LLM)は、法律の実践、教育、研究の強化にますます利用されている。
幻覚に関する最初の体系的な証拠を提示し, LLMの管轄区域, 裁判所, 期間, 事件にまたがる様々な業績を報告した。
また,ChatGPT 4では58%,Llama 2では88%であった。
論文 参考訳(メタデータ) (2024-01-02T17:28:06Z) - A Comprehensive Evaluation of Large Language Models on Legal Judgment
Prediction [60.70089334782383]
大規模言語モデル(LLM)は、ドメイン固有のアプリケーションに大きな可能性を示している。
GPT-4の法律評価をめぐる近年の論争は、現実の法的タスクにおけるパフォーマンスに関する疑問を提起している。
我々は,LLMに基づく実践的ベースラインソリューションを設計し,法的判断予測の課題を検証した。
論文 参考訳(メタデータ) (2023-10-18T07:38:04Z) - LawBench: Benchmarking Legal Knowledge of Large Language Models [35.2812008533622]
大規模言語モデル(LLM)は様々な面で強力な能力を示している。
法的知識がどの程度あるか、そして法的関連タスクを確実に実行できるかは不明だ。
ローベンチは、3つの認知レベルからLLMの法的な能力を正確に評価するために細心の注意を払って設計されている。
論文 参考訳(メタデータ) (2023-09-28T09:35:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。