論文の概要: Asking For An Old Friend: Diagnosing and Mitigating Temporal Failure Modes in LLM-based Statutory Question Answering
- arxiv url: http://arxiv.org/abs/2605.23497v1
- Date: Fri, 22 May 2026 11:02:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.322124
- Title: Asking For An Old Friend: Diagnosing and Mitigating Temporal Failure Modes in LLM-based Statutory Question Answering
- Title(参考訳): 古い友人に尋ねる: LLMによる統計質問応答における時間的障害モードの診断と緩和
- Authors: Max Prior, Andreas Schultz, Matthias Grabmair,
- Abstract要約: 本研究は,2つの時間的障害モードについて検討する。
専門家が検証した、時間に敏感なドイツの法令QAペアのベンチマークを提示する。
以上の結果から,信頼性の高い法的QAには時間的妥当性を厳しい制約として扱う必要があることが示唆された。
- 参考スコア(独自算出の注目度): 8.81921009098836
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models are increasingly used for legal research, yet their fixed training cutoffs and reliance on static parametric knowledge are at odds with the evolving nature of statutory law. We study two temporal failure modes: post-cutoff staleness, where models apply superseded rules after legislative amendments, and recency bias, where models prefer newer provisions even when a historical version governs the fact pattern. To this end, we present a benchmark of 312 expert-validated, time-sensitive German statutory QA pairs spanning three categories: Post-Cutoff Amendment Questions, Pre-Amendment Questions, and Multi-Provision Pre-Amendment Questions. We evaluate five LLMs by OpenAI, Anthropic and DeepSeek under four inference settings: Vanilla, Web-search, and two retrieval-augmented variants that enforce temporal validity via a fact date extraction and version filtering. Using an LLM-as-a-judge validated against human expert ratings, we find severe degradation in the Vanilla post-cutoff setting. Both RAG approaches substantially improve performance across all question types, while web search yields unstable gains and exhibits a marked recency bias on historically anchored tasks. Our results indicate that reliable legal QA requires treating temporal validity as a hard constraint.
- Abstract(参考訳): 大規模言語モデルは法的な研究にますます使われてきているが、それらの定性訓練のカットオフと静的パラメトリックな知識への依存は、法則の進化する性質とは相反する。
本稿では,2つの時間的障害モードについて検討する: 削減後の安定度, 法律改正後の優越規則を適用するモデル, 傾向バイアス, 歴史的バージョンが事実パターンを支配下に置いた場合でも, モデルがより新しい規定を優先するモデル。
そこで本稿では,3つのカテゴリにまたがる312の専門資格を持つ,時間に敏感なドイツ法QAペアのベンチマークを示す。
我々は,OpenAI, Anthropic, DeepSeek の5つの LLM を,Vanilla, Web-search,および2つの検索拡張版を用いて評価した。
LLM-as-a-judge をヒトの専門家評価に対して評価した結果,Vanilla のポストカットオフ設定では深刻な劣化がみられた。
どちらのRAGも全ての質問タイプのパフォーマンスを大幅に改善する一方、Web検索は不安定なゲインをもたらし、歴史的に固定されたタスクに対して顕著な相対バイアスを示す。
以上の結果から,信頼性の高い法的QAには時間的妥当性を厳しい制約として扱う必要があることが示唆された。
関連論文リスト
- FRESCO: Benchmarking and Optimizing Re-rankers for Evolving Semantic Conflict in Retrieval-Augmented Generation [73.22935457705057]
時間的動的文脈における再ランカ評価のためのベンチマークであるFRESCOを紹介する。
レクエンシ検索クエリと過去のウィキペディアのリビジョンを組み合わせることで、FRESCOは、セマンティックな関連性を維持しながら、リランカが事実として最新の証拠を優先順位付けできるかどうかをテストする。
我々の評価では、既存の再ランカ間で一貫した障害モードが明らかになっている。
論文 参考訳(メタデータ) (2026-04-14T17:04:25Z) - Precedent-Informed Reasoning: Mitigating Overthinking in Large Reasoning Models via Test-Time Precedent Learning [37.40951956513094]
大規模言語モデル(LLM)における推論は、しばしば、冗長な自己探索と検証を伴う非効率な長い連鎖トレースに悩まされる。
過去の事例を利用して検索空間を制約し、試行錯誤を減らすという人間の推論パターンに着想を得て、先行インフォームド推論(PIR)を提案する。
PIRは、LEMの推論パラダイムを、徹底的な自己探索から、前例からの指導的学習に転換する。
論文 参考訳(メタデータ) (2026-02-16T04:17:46Z) - When Silence Is Golden: Can LLMs Learn to Abstain in Temporal QA and Beyond? [34.471723373734605]
大型言語モデル(LLM)は、しばしば不確実性を認めず、(答えを拒否する)棄却するよりも、しばしば流動的であるが誤解を招く答えを生み出す。
この弱点は、時間差のある証拠や事実を、異なる期間にわたってしばしば無視する時間差質問応答においてさえ明らかである。
キャリブレーションのような既存のアプローチは、複雑な推論において不確実性を捉えるには信頼できないかもしれない。
我々は、禁忌を教育可能なスキルとみなし、禁忌を意識した報酬によって導かれる強化学習(RL)とCoT(Chain-of-Thought)の監督を結びつけるパイプラインを導入する。
論文 参考訳(メタデータ) (2026-02-04T16:54:47Z) - CaseFacts: A Benchmark for Legal Fact-Checking and Precedent Retrieval [5.305110876082343]
CaseFactsは、アメリカ合衆国最高裁判所の判例に対する法的主張を検証するためのベンチマークである。
データセットは、Supported、Refuted、Overruledに分類される6,294のクレームで構成されている。
論文 参考訳(メタデータ) (2026-01-23T23:41:46Z) - Hybrid Retrieval-Augmented Generation Agent for Trustworthy Legal Question Answering in Judicial Forensics [30.232667436008978]
司法設定に適した混成法的QAエージェントを提示する。
検索強化世代(RAG)とマルチモデルアンサンブルを統合し、信頼性、監査性、継続的なアップグレード可能なカウンセラーを提供する。
論文 参考訳(メタデータ) (2025-11-03T15:30:58Z) - LEXam: Benchmarking Legal Reasoning on 340 Law Exams [76.3521146499006]
textscLEXamは,法科116科の法科試験を対象とする340件の法科試験を対象とする,新しいベンチマークである。
このデータセットは、英語とドイツ語で4,886の法試験質問で構成されており、その中には2,841の長文のオープンエンド質問と2,045の多重選択質問が含まれている。
この結果から,モデル間の差分化におけるデータセットの有効性が示唆された。
論文 参考訳(メタデータ) (2025-05-19T08:48:12Z) - Interpretable Long-Form Legal Question Answering with
Retrieval-Augmented Large Language Models [10.834755282333589]
長文の法的問合せデータセットは、専門家によるフランス語の法的質問1,868件からなる。
実験結果から,自動評価指標について有望な性能を示した。
LLeQAは、専門家によって注釈付けされた唯一の包括的なロングフォームLQAデータセットの1つであり、重要な現実世界の問題を解決するために研究を加速するだけでなく、特殊な領域におけるNLPモデルを評価するための厳密なベンチマークとしても機能する可能性がある。
論文 参考訳(メタデータ) (2023-09-29T08:23:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。