論文の概要: Place Matters: Comparing LLM Hallucination Rates for Place-Based Legal Queries
- arxiv url: http://arxiv.org/abs/2511.06700v1
- Date: Mon, 10 Nov 2025 04:42:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.076916
- Title: Place Matters: Comparing LLM Hallucination Rates for Place-Based Legal Queries
- Title(参考訳): Place Matters: Place-based Legal Queries における LLM 幻覚率の比較
- Authors: Damian Curran, Vanessa Sporne, Lea Frermann, Jeannie Paterson,
- Abstract要約: 本研究は, クローズドソースLPMによる法情報の幻覚の頻度が, 場所と大きく関連していることを示す。
このことは、これらのモデルによって提供される法的な解の質が地理的に均等に分散していないことを示唆している。
- 参考スコア(独自算出の注目度): 8.865671688076574
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: How do we make a meaningful comparison of a large language model's knowledge of the law in one place compared to another? Quantifying these differences is critical to understanding if the quality of the legal information obtained by users of LLM-based chatbots varies depending on their location. However, obtaining meaningful comparative metrics is challenging because legal institutions in different places are not themselves easily comparable. In this work we propose a methodology to obtain place-to-place metrics based on the comparative law concept of functionalism. We construct a dataset of factual scenarios drawn from Reddit posts by users seeking legal advice for family, housing, employment, crime and traffic issues. We use these to elicit a summary of a law from the LLM relevant to each scenario in Los Angeles, London and Sydney. These summaries, typically of a legislative provision, are manually evaluated for hallucinations. We show that the rate of hallucination of legal information by leading closed-source LLMs is significantly associated with place. This suggests that the quality of legal solutions provided by these models is not evenly distributed across geography. Additionally, we show a strong negative correlation between hallucination rate and the frequency of the majority response when the LLM is sampled multiple times, suggesting a measure of uncertainty of model predictions of legal facts.
- Abstract(参考訳): 大規模言語モデルの法律に関する知識を、ある場所と別の場所で有意義に比較するにはどうすればよいのか?
これらの違いを定量化することは、LLMベースのチャットボットのユーザによって得られる法的な情報の質が、その位置によって異なるかどうかを理解する上で重要である。
しかし、異なる場所の法律機関がそれ自体と簡単に比較できないため、有意義な比較指標を得ることは困難である。
本研究は,機能主義の法則的概念に基づく位置間距離を求める手法を提案する。
我々は、家族、住宅、雇用、犯罪、交通問題に対する法的助言を求めるユーザーがReddit投稿から引き起こした事実シナリオのデータセットを構築した。
我々は、ロサンゼルス、ロンドン、シドニーの各シナリオに関連するLLMの法則を要約するためにこれらを使用します。
これらの要約は典型的には立法条項であり、幻覚のために手作業で評価される。
本研究は, クローズドソースLPMによる法情報の幻覚の頻度が, 場所と大きく関連していることを示す。
このことは、これらのモデルによって提供される法的な解の質が地理的に均等に分散していないことを示唆している。
さらに, LLMを複数回サンプリングした場合の幻覚率と多数応答の頻度との間には負の相関が強く, 法的事実のモデル予測の不確実性の尺度が示唆された。
関連論文リスト
- Verifying the Verifiers: Unveiling Pitfalls and Potentials in Fact Verifiers [59.168391398830515]
我々は,14のファクトチェックベンチマークのサンプルを用いて,12の事前学習LDMと1つの特殊ファクト検証器を評価した。
データセットにおけるアノテーションエラーとあいまいさに対処することの重要性を強調します。
最上位のパフォーマンスを実現するために、前作でしばしば見落とされがちな、数ショットのインコンテキストの例を持つフロンティアLSM。
論文 参考訳(メタデータ) (2025-06-16T10:32:10Z) - J&H: Evaluating the Robustness of Large Language Models Under Knowledge-Injection Attacks in Legal Domain [12.550611136062722]
本稿では,ロバストネステストのための法的な知識注入攻撃法を提案する。
本フレームワークの目的は,LLMが法的タスクを遂行する際の演能的推論を行うかどうかを検討することである。
我々は、法律の専門家が現実世界の司法判断で犯す可能性のある誤りを収集した。
論文 参考訳(メタデータ) (2025-03-24T05:42:05Z) - Fine-tuning Large Language Models for Improving Factuality in Legal Question Answering [30.795942355722797]
幻覚(英: Hallucination、または誤った情報や偽造情報の生成)は、大きな言語モデルにおいて重要な課題である。
行動クローニングと新しいハードサンプル認識反復的直接選好最適化(HIPO)を統合した幻覚緩和手法を提案する。
本研究は,新たに提案された非半減期統計率など,様々な指標において顕著な改善を示すものである。
論文 参考訳(メタデータ) (2025-01-11T12:08:15Z) - Scaling Laws for Fact Memorization of Large Language Models [67.94080978627363]
我々は,大規模言語モデルにおける事実知識のスケーリング法則と,異なる種類の事実を記憶する行動について分析する。
LLMの事実知識能力は,モデルサイズや訓練のエポックと線形かつ負の指数法則関係を持つことがわかった。
本研究は,LLMのファクト・ナレッジ・ナレッジ・ラーニングの能力と特徴を明らかにし,LLMのファクト・ナレッジ・アジュメンテーションの方向性を示した。
論文 参考訳(メタデータ) (2024-06-22T03:32:09Z) - Better Call GPT, Comparing Large Language Models Against Lawyers [0.0]
本稿では,契約審査において,大規模言語モデルが人間の精度,速度,コスト効率を上回りうるかどうかを論じる。
スピードでは、LSMは人間に必要な時間を取り除き、ほんの数秒でレビューを完了します。
コスト面では、LSMは価格のごく一部で運用されており、従来の方法よりも99.97パーセントのコスト削減を実現している。
論文 参考訳(メタデータ) (2024-01-24T03:53:28Z) - Large Legal Fictions: Profiling Legal Hallucinations in Large Language Models [8.04008608493335]
大規模言語モデル(LLM)は、法律の実践、教育、研究の強化にますます利用されている。
幻覚に関する最初の体系的な証拠を提示し, LLMの管轄区域, 裁判所, 期間, 事件にまたがる様々な業績を報告した。
また,ChatGPT 4では58%,Llama 2では88%であった。
論文 参考訳(メタデータ) (2024-01-02T17:28:06Z) - FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文 参考訳(メタデータ) (2023-10-18T16:27:49Z) - A Comprehensive Evaluation of Large Language Models on Legal Judgment
Prediction [60.70089334782383]
大規模言語モデル(LLM)は、ドメイン固有のアプリケーションに大きな可能性を示している。
GPT-4の法律評価をめぐる近年の論争は、現実の法的タスクにおけるパフォーマンスに関する疑問を提起している。
我々は,LLMに基づく実践的ベースラインソリューションを設計し,法的判断予測の課題を検証した。
論文 参考訳(メタデータ) (2023-10-18T07:38:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。