Fugu-MT 論文翻訳(概要): Measuring Faithfulness and Abstention: An Automated Pipeline for Evaluating LLM-Generated 3-ply Case-Based Legal Arguments

論文の概要: Measuring Faithfulness and Abstention: An Automated Pipeline for Evaluating LLM-Generated 3-ply Case-Based Legal Arguments

arxiv url: http://arxiv.org/abs/2506.00694v2
Date: Tue, 03 Jun 2025 03:22:48 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-04 21:47:33.487947
Title: Measuring Faithfulness and Abstention: An Automated Pipeline for Evaluating LLM-Generated 3-ply Case-Based Legal Arguments
Title（参考訳）: 忠実度と留意度の測定:LLM生成3-ply判例に基づく口頭弁論の評価のための自動パイプライン
Authors: Li Zhang, Morgan Gray, Jaromir Savelka, Kevin D. Ashley,
Abstract要約: 大規模言語モデル(LLM)は、引数生成のような複雑な法的タスクの可能性を実証する。本稿では,LLMの性能を評価するための自動パイプラインを提案する。我々は、幻覚を、入力ケース素材に存在しない要因の生成と、モデルが引数の生成を控える能力と定義する。
参考スコア（独自算出の注目度）: 4.151328330778482
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Large Language Models (LLMs) demonstrate potential in complex legal tasks like argument generation, yet their reliability remains a concern. Building upon pilot work assessing LLM generation of 3-ply legal arguments using human evaluation, this paper introduces an automated pipeline to evaluate LLM performance on this task, specifically focusing on faithfulness (absence of hallucination), factor utilization, and appropriate abstention. We define hallucination as the generation of factors not present in the input case materials and abstention as the model's ability to refrain from generating arguments when instructed and no factual basis exists. Our automated method employs an external LLM to extract factors from generated arguments and compares them against the ground-truth factors provided in the input case triples (current case and two precedent cases). We evaluated eight distinct LLMs on three tests of increasing difficulty: 1) generating a standard 3-ply argument, 2) generating an argument with swapped precedent roles, and 3) recognizing the impossibility of argument generation due to lack of shared factors and abstaining. Our findings indicate that while current LLMs achieve high accuracy (over 90%) in avoiding hallucination on viable argument generation tests (Tests 1 & 2), they often fail to utilize the full set of relevant factors present in the cases. Critically, on the abstention test (Test 3), most models failed to follow instructions to stop, instead generating spurious arguments despite the lack of common factors. This automated pipeline provides a scalable method for assessing these crucial LLM behaviors, highlighting the need for improvements in factor utilization and robust abstention capabilities before reliable deployment in legal settings. Link: https://lizhang-aiandlaw.github.io/An-Automated-Pipeline-for-Evaluating-LLM-Generated-3-ply-Case-Bas ed-Legal-Arguments/
Abstract（参考訳）: 大規模言語モデル(LLM)は、引数生成のような複雑な法的タスクの可能性を秘めているが、信頼性は依然として懸念されている。本稿では,人間評価を用いたLLM生成のパイロット作業に基づいて,LLMの性能評価を行う自動パイプラインを提案し,特に忠実度(幻覚の有無),要因利用,適切な棄権に焦点をあてる。我々は、幻覚を、入力事例資料に存在しない要因の生成と、棄権を、指示された時に議論を起こさないようにするモデルの能力として定義する。自動解法では, 外部LPMを用いて生成した引数から因子を抽出し, 入力ケース三重項(現在のケースと2つの前例)で提供される基礎的真理因子と比較する。難易度が増大する3つの試験において, 8つの異なるLCMを評価した。 1) 標準の3-ply引数を生成する。 2 前代役の入れ替えによる口論の発生、及び 3)共有要因の欠如や棄権による議論生成の不可能性を認識すること。以上の結果から,既存のLCMは実効性引数生成テスト(テスト1と2)の幻覚を回避する上で高い精度(90%以上)を達成できたが,本症例に現れる関連因子の完全セットを活用できなかったことが示唆された。重要なことに、禁断テスト(Test 3)では、ほとんどのモデルは停止する指示に従うことができず、代わりに共通の要因が欠如しているにもかかわらず、急激な議論を引き起こしました。この自動パイプラインは、これらの重要なLCM動作を評価するためのスケーラブルな方法を提供する。リンク:https://lizhang-aiandlaw.github.io/An-Automated-Pipeline-for-evaluating-LLM-Generated-3-ply-Case-ba sed-Legal-Arguments/

関連論文リスト

MArgE: Meshing Argumentative Evidence from Multiple Large Language Models for Justifiable Claim Verification [12.449402503089164]
本稿では,各大規模言語モデルの証拠に形式的構造を提供する新しいフレームワークであるMArgEを紹介する。実験により,MArgEは単一LLMよりも有意に優れることが示された。
論文参考訳（メタデータ） (2025-08-04T16:40:02Z)
Verifying the Verifiers: Unveiling Pitfalls and Potentials in Fact Verifiers [59.168391398830515]
我々は,14のファクトチェックベンチマークのサンプルを用いて,12の事前学習LDMと1つの特殊ファクト検証器を評価した。データセットにおけるアノテーションエラーとあいまいさに対処することの重要性を強調します。最上位のパフォーマンスを実現するために、前作でしばしば見落とされがちな、数ショットのインコンテキストの例を持つフロンティアLSM。
論文参考訳（メタデータ） (2025-06-16T10:32:10Z)
Don't Take the Premise for Granted: Evaluating the Premise Critique Ability of Large Language Models [11.379764847748378]
大規模言語モデル(LLM)は、しばしば欠陥や矛盾した前提を受け入れ、非効率な推論と信頼できない出力をもたらす。このことは、入力前提におけるエラーを積極的に識別し、明示する能力として定義されたLSMのためのtextbfPremise Critique Aabilities を持つことの重要性を強調している。我々は,3つの難易度に4つのエラータイプを組み込んで設計したtextbfPremise Critique Bench (PCBench) を,多面的評価指標と組み合わせて紹介する。
論文参考訳（メタデータ） (2025-05-29T17:49:44Z)
Unveiling the Magic of Code Reasoning through Hypothesis Decomposition and Amendment [54.62926010621013]
我々は,大規模言語モデルの推論能力に対する新たな視点を提供するために,新しいタスクであるコード推論を導入する。論理的推論の確立した形式に基づいて3つのメタベンチマークを要約し、8つの特定のベンチマークタスクにインスタンス化する。本稿では,人間の複雑な問題解決手法に触発された新たな経路探索パイプラインを提案する。
論文参考訳（メタデータ） (2025-02-17T10:39:58Z)
Calling a Spade a Heart: Gaslighting Multimodal Large Language Models via Negation [65.92001420372007]
本稿では,様々なベンチマークにおいて最先端MLLMを体系的に評価する。本稿では,MLLMの脆弱性を否定的議論に対して評価するために設計された,最初のベンチマークであるGaslightingBenchを紹介する。
論文参考訳（メタデータ） (2025-01-31T10:37:48Z)
Aligning Large Language Models for Faithful Integrity Against Opposing Argument [71.33552795870544]
大規模言語モデル(LLM)は複雑な推論タスクにおいて印象的な機能を示している。原文が正しい場合でも、会話中に不誠実な議論によって容易に誤解される。本稿では,信頼度と信頼度を両立させる新しい枠組みを提案する。
論文参考訳（メタデータ） (2025-01-02T16:38:21Z)
LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。 LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文参考訳（メタデータ） (2024-12-29T06:32:36Z)
Counterfactual Debating with Preset Stances for Hallucination Elimination of LLMs [45.38821594541265]
大規模言語モデル(LLM)は様々な自然言語処理タスクに優れるが、幻覚に苦しむ。本稿では, LLM 固有のバイアスをオーバーライドして解答検査を行うために, CFMAD フレームワークを提案する。
論文参考訳（メタデータ） (2024-06-17T13:21:23Z)
Think Twice Before Trusting: Self-Detection for Large Language Models through Comprehensive Answer Reflection [90.71323430635593]
本稿では, LLM生成解を超える包括的解答空間を考察した, 新たな自己検出パラダイムを提案する。このパラダイムに基づいて、2段階のフレームワークを導入し、まずまずLLMに各候補の回答を反映し、正当化するように指示する。このフレームワークは、優れた自己検出のための既存のアプローチとシームレスに統合できる。
論文参考訳（メタデータ） (2024-03-15T02:38:26Z)
Assessing the Reasoning Capabilities of LLMs in the context of Evidence-based Claim Verification [22.92500697622486]
証拠と組み合わせた主張を原子推論タイプに分解するフレームワークを提案する。私たちはこのフレームワークを使って、最初のクレーム検証ベンチマークであるRECV(Reasoning in Evidence-based Claim Verification)を作成します。我々は、複数のプロンプト設定の下で、最先端のLLMを3つ評価する。
論文参考訳（メタデータ） (2024-02-16T14:52:05Z)
ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文参考訳（メタデータ） (2023-10-19T06:37:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。