論文の概要: Measuring Faithfulness and Abstention: An Automated Pipeline for Evaluating LLM-Generated 3-ply Case-Based Legal Arguments
- arxiv url: http://arxiv.org/abs/2506.00694v2
- Date: Tue, 03 Jun 2025 03:22:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.487947
- Title: Measuring Faithfulness and Abstention: An Automated Pipeline for Evaluating LLM-Generated 3-ply Case-Based Legal Arguments
- Title(参考訳): 忠実度と留意度の測定:LLM生成3-ply判例に基づく口頭弁論の評価のための自動パイプライン
- Authors: Li Zhang, Morgan Gray, Jaromir Savelka, Kevin D. Ashley,
- Abstract要約: 大規模言語モデル(LLM)は、引数生成のような複雑な法的タスクの可能性を実証する。
本稿では,LLMの性能を評価するための自動パイプラインを提案する。
我々は、幻覚を、入力ケース素材に存在しない要因の生成と、モデルが引数の生成を控える能力と定義する。
- 参考スコア(独自算出の注目度): 4.151328330778482
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) demonstrate potential in complex legal tasks like argument generation, yet their reliability remains a concern. Building upon pilot work assessing LLM generation of 3-ply legal arguments using human evaluation, this paper introduces an automated pipeline to evaluate LLM performance on this task, specifically focusing on faithfulness (absence of hallucination), factor utilization, and appropriate abstention. We define hallucination as the generation of factors not present in the input case materials and abstention as the model's ability to refrain from generating arguments when instructed and no factual basis exists. Our automated method employs an external LLM to extract factors from generated arguments and compares them against the ground-truth factors provided in the input case triples (current case and two precedent cases). We evaluated eight distinct LLMs on three tests of increasing difficulty: 1) generating a standard 3-ply argument, 2) generating an argument with swapped precedent roles, and 3) recognizing the impossibility of argument generation due to lack of shared factors and abstaining. Our findings indicate that while current LLMs achieve high accuracy (over 90%) in avoiding hallucination on viable argument generation tests (Tests 1 & 2), they often fail to utilize the full set of relevant factors present in the cases. Critically, on the abstention test (Test 3), most models failed to follow instructions to stop, instead generating spurious arguments despite the lack of common factors. This automated pipeline provides a scalable method for assessing these crucial LLM behaviors, highlighting the need for improvements in factor utilization and robust abstention capabilities before reliable deployment in legal settings. Link: https://lizhang-aiandlaw.github.io/An-Automated-Pipeline-for-Evaluating-LLM-Generated-3-ply-Case-Bas ed-Legal-Arguments/
- Abstract(参考訳): 大規模言語モデル(LLM)は、引数生成のような複雑な法的タスクの可能性を秘めているが、信頼性は依然として懸念されている。
本稿では,人間評価を用いたLLM生成のパイロット作業に基づいて,LLMの性能評価を行う自動パイプラインを提案し,特に忠実度(幻覚の有無),要因利用,適切な棄権に焦点をあてる。
我々は、幻覚を、入力事例資料に存在しない要因の生成と、棄権を、指示された時に議論を起こさないようにするモデルの能力として定義する。
自動解法では, 外部LPMを用いて生成した引数から因子を抽出し, 入力ケース三重項(現在のケースと2つの前例)で提供される基礎的真理因子と比較する。
難易度が増大する3つの試験において, 8つの異なるLCMを評価した。
1) 標準の3-ply引数を生成する。
2 前代役の入れ替えによる口論の発生、及び
3)共有要因の欠如や棄権による議論生成の不可能性を認識すること。
以上の結果から,既存のLCMは実効性引数生成テスト(テスト1と2)の幻覚を回避する上で高い精度(90%以上)を達成できたが,本症例に現れる関連因子の完全セットを活用できなかったことが示唆された。
重要なことに、禁断テスト(Test 3)では、ほとんどのモデルは停止する指示に従うことができず、代わりに共通の要因が欠如しているにもかかわらず、急激な議論を引き起こしました。
この自動パイプラインは、これらの重要なLCM動作を評価するためのスケーラブルな方法を提供する。
リンク:https://lizhang-aiandlaw.github.io/An-Automated-Pipeline-for-evaluating-LLM-Generated-3-ply-Case-ba sed-Legal-Arguments/
関連論文リスト
- Unveiling the Magic of Code Reasoning through Hypothesis Decomposition and Amendment [54.62926010621013]
我々は,大規模言語モデルの推論能力に対する新たな視点を提供するために,新しいタスクであるコード推論を導入する。
論理的推論の確立した形式に基づいて3つのメタベンチマークを要約し、8つの特定のベンチマークタスクにインスタンス化する。
本稿では,人間の複雑な問題解決手法に触発された新たな経路探索パイプラインを提案する。
論文 参考訳(メタデータ) (2025-02-17T10:39:58Z) - Calling a Spade a Heart: Gaslighting Multimodal Large Language Models via Negation [65.92001420372007]
本稿では,様々なベンチマークにおいて最先端MLLMを体系的に評価する。
本稿では,MLLMの脆弱性を否定的議論に対して評価するために設計された,最初のベンチマークであるGaslightingBenchを紹介する。
論文 参考訳(メタデータ) (2025-01-31T10:37:48Z) - Aligning Large Language Models for Faithful Integrity Against Opposing Argument [71.33552795870544]
大規模言語モデル(LLM)は複雑な推論タスクにおいて印象的な機能を示している。
原文が正しい場合でも、会話中に不誠実な議論によって容易に誤解される。
本稿では,信頼度と信頼度を両立させる新しい枠組みを提案する。
論文 参考訳(メタデータ) (2025-01-02T16:38:21Z) - Counterfactual Debating with Preset Stances for Hallucination Elimination of LLMs [45.38821594541265]
大規模言語モデル(LLM)は様々な自然言語処理タスクに優れるが、幻覚に苦しむ。
本稿では, LLM 固有のバイアスをオーバーライドして解答検査を行うために, CFMAD フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-17T13:21:23Z) - Assessing the Reasoning Capabilities of LLMs in the context of Evidence-based Claim Verification [22.92500697622486]
証拠と組み合わせた主張を原子推論タイプに分解するフレームワークを提案する。
私たちはこのフレームワークを使って、最初のクレーム検証ベンチマークであるRECV(Reasoning in Evidence-based Claim Verification)を作成します。
我々は、複数のプロンプト設定の下で、最先端のLLMを3つ評価する。
論文 参考訳(メタデータ) (2024-02-16T14:52:05Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。