Fugu-MT 論文翻訳(概要): Beyond Case Law: Evaluating Structure-Aware Retrieval and Safety in Statute-Centric Legal QA

論文の概要: Beyond Case Law: Evaluating Structure-Aware Retrieval and Safety in Statute-Centric Legal QA

arxiv url: http://arxiv.org/abs/2604.06173v1
Date: Sat, 24 Jan 2026 06:48:09 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-19 19:09:11.364538
Title: Beyond Case Law: Evaluating Structure-Aware Retrieval and Safety in Statute-Centric Legal QA
Title（参考訳）: 判例法を超えて: 法律QAにおける構造意識の検索と安全性の評価
Authors: Kyubyung Chae, Jewon Yeom, Jeongjae Park, Seunghyun Bae, Ijun Jang, Hyunbin Jin, Jinkwan Jang, Taesup Kim,
Abstract要約: ルール中心の法的QAのための構造と安全性を意識したベンチマークであるSearchFireSafetyを紹介した。このベンチマークは、モデルが階層的に断片化された証拠を回収し、法的な文脈が不十分な場合に安全に棄却できるかどうかを評価する。
参考スコア（独自算出の注目度）: 8.4220629804904
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Legal QA benchmarks have predominantly focused on case law, overlooking the unique challenges of statute-centric regulatory reasoning. In statutory domains, relevant evidence is distributed across hierarchically linked documents, creating a statutory retrieval gap where conventional retrievers fail and models often hallucinate under incomplete context. We introduce SearchFireSafety, a structure- and safety-aware benchmark for statute-centric legal QA. Instantiated on fire-safety regulations as a representative case, the benchmark evaluates whether models can retrieve hierarchically fragmented evidence and safely abstain when statutory context is insufficient. SearchFireSafety adopts a dual-source evaluation framework combining real-world questions that require citation-aware retrieval and synthetic partial-context scenarios that stress-test hallucination and refusal behavior. Experiments across multiple large language models show that graph-guided retrieval substantially improves performance, but also reveal a critical safety trade-off: domain-adapted models are more likely to hallucinate when key statutory evidence is missing. Our findings highlight the need for benchmarks that jointly evaluate hierarchical retrieval and model safety in statute-centric regulatory settings.
Abstract（参考訳）: 法的なQAベンチマークは、法律中心の規制推論のユニークな課題を見越して、ケースローに重点を置いている。法定領域では、関連する証拠は階層的にリンクされた文書に分散され、従来のレトリバーが失敗し、しばしば不完全コンテキスト下で幻覚する法定検索ギャップが形成される。ルール中心の法的QAのための構造と安全性を意識したベンチマークであるSearchFireSafetyを紹介した。代表的な事例として, 火災安全規制に基づき, モデルが階層的に断片化された証拠を回収し, 法的な文脈が不十分な場合に安全に棄却できるかどうかを評価する。 SearchFireSafetyは、引用認識検索を必要とする現実世界の質問と、ストレステストの幻覚と拒否行動の合成部分コンテキストシナリオを組み合わせた、デュアルソース評価フレームワークを採用している。複数の大きな言語モデルに対する実験では、グラフ誘導検索はパフォーマンスを大幅に改善するだけでなく、重要な安全性のトレードオフも示している。本研究は,ルール中心の規制設定において,階層的検索とモデル安全性を共同で評価するベンチマークの必要性を強調した。

関連論文リスト

CaseFacts: A Benchmark for Legal Fact-Checking and Precedent Retrieval [5.305110876082343]
CaseFactsは、アメリカ合衆国最高裁判所の判例に対する法的主張を検証するためのベンチマークである。データセットは、Supported、Refuted、Overruledに分類される6,294のクレームで構成されている。
論文参考訳（メタデータ） (2026-01-23T23:41:46Z)
Doc-PP: Document Policy Preservation Benchmark for Large Vision-Language Models [13.70855540464427]
我々は、厳密な非開示ポリシーの下で、異質な視覚的およびテキスト的要素の推論を必要とする実世界のレポートから構築された新しいベンチマークDoc-PPを紹介する。モデルでは、複雑な合成によって答えが推測されなければならない場合や、モダリティにまたがって集約された場合、機密情報を頻繁にリークする。政策検証から推論を分離する構造推論フレームワークであるDVAを提案する。
論文参考訳（メタデータ） (2026-01-07T13:45:39Z)
Demystifying deep search: a holistic evaluation with hint-free multi-hop questions and factorised metrics [89.1999907891494]
We present WebDetective, a benchmark of hint-free multi-hop questions with a control Wikipedia sandbox。 25の最先端モデルに対する我々の評価は、すべてのアーキテクチャにまたがる体系的な弱点を明らかにしている。私たちはエージェントワークフローであるEvidenceLoopを開発し、ベンチマークが特定する課題を明示的にターゲットしています。
論文参考訳（メタデータ） (2025-10-01T07:59:03Z)
An Ontology-Driven Graph RAG for Legal Norms: A Structural, Temporal, and Deterministic Approach [0.0]
標準、平文検索は、法の階層的、横行的、因果的構造に盲目である。本稿では,法則の形式構造とダイアクロニックな性質を明示的にモデル化することにより,これらの制約を克服するためのオントロジー駆動型フレームワークSAT-Graph RAGを紹介する。
論文参考訳（メタデータ） (2025-04-29T18:36:57Z)
JudgeRank: Leveraging Large Language Models for Reasoning-Intensive Reranking [81.88787401178378]
本稿では,文書関連性を評価する際に,人間の認知過程をエミュレートする新しいエージェント・リランカであるJiceRankを紹介する。我々は,推論集約型BRIGHTベンチマークを用いて判定Rankを評価し,第1段階の検索手法よりも性能が大幅に向上したことを示す。さらに、JiceRankは、人気の高いBEIRベンチマークの細調整された最先端リランカと同等に動作し、ゼロショットの一般化能力を検証している。
論文参考訳（メタデータ） (2024-10-31T18:43:12Z)
DELTA: Pre-train a Discriminative Encoder for Legal Case Retrieval via Structural Word Alignment [55.91429725404988]
判例検索のための識別モデルであるDELTAを紹介する。我々は浅層デコーダを利用して情報ボトルネックを作り、表現能力の向上を目指しています。本手法は, 判例検索において, 既存の最先端手法よりも優れている。
論文参考訳（メタデータ） (2024-03-27T10:40:14Z)
SAILER: Structure-aware Pre-trained Language Model for Legal Case Retrieval [75.05173891207214]
判例検索は知的法体系において中心的な役割を果たす。既存の言語モデルの多くは、異なる構造間の長距離依存関係を理解するのが難しい。本稿では, LEgal ケース検索のための構造対応プレトランザクショナル言語モデルを提案する。
論文参考訳（メタデータ） (2023-04-22T10:47:01Z)
Legal Element-oriented Modeling with Multi-view Contrastive Learning for Legal Case Retrieval [3.909749182759558]
本稿では,多視点コントラスト学習目標を用いた訴訟検索のための対話型ネットワークを提案する。ケースビューコントラスト学習は、関連する訴訟表現の間の隠れた空間距離を最小化する。ケースの法的な要素を検出するために、法的な要素の知識を意識した指標を用いています。
論文参考訳（メタデータ） (2022-10-11T06:47:23Z)
GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。 FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文参考訳（メタデータ） (2022-04-12T03:49:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。