論文の概要: Gavel: Agent Meets Checklist for Evaluating LLMs on Long-Context Legal Summarization
- arxiv url: http://arxiv.org/abs/2601.04424v1
- Date: Wed, 07 Jan 2026 22:08:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:52.939886
- Title: Gavel: Agent Meets Checklist for Evaluating LLMs on Long-Context Legal Summarization
- Title(参考訳): Gavel: AgentがLLMを評価するためのチェックリストを公開
- Authors: Yao Dou, Wei Xu,
- Abstract要約: 大規模言語モデル(LLM)は、最大100万個のトークンのコンテキストをサポートするようになったが、複雑な長文タスクにおけるそれらの有効性はまだ不明である。
本研究は,100K-500Kトークンの多文書にまたがる多文書の判例要約について検討する。
本稿では,26項目以上の多値チェックリスト評価を行う参照ベース評価フレームワークであるGavel-Refを紹介する。
- 参考スコア(独自算出の注目度): 10.935436958494245
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) now support contexts of up to 1M tokens, but their effectiveness on complex long-context tasks remains unclear. In this paper, we study multi-document legal case summarization, where a single case often spans many documents totaling 100K-500K tokens. We introduce Gavel-Ref, a reference-based evaluation framework with multi-value checklist evaluation over 26 items, as well as residual fact and writing-style evaluations. Using Gavel-Ref, we go beyond the single aggregate scores reported in prior work and systematically evaluate 12 frontier LLMs on 100 legal cases ranging from 32K to 512K tokens, primarily from 2025. Our results show that even the strongest model, Gemini 2.5 Pro, achieves only around 50 of $S_{\text{Gavel-Ref}}$, highlighting the difficulty of the task. Models perform well on simple checklist items (e.g., filing date) but struggle on multi-value or rare ones such as settlements and monitor reports. As LLMs continue to improve and may surpass human-written summaries -- making human references less reliable -- we develop Gavel-Agent, an efficient and autonomous agent scaffold that equips LLMs with six tools to navigate and extract checklists directly from case documents. With Qwen3, Gavel-Agent reduces token usage by 36% while resulting in only a 7% drop in $S_{\text{checklist}}$ compared to end-to-end extraction with GPT-4.1.
- Abstract(参考訳): 大規模言語モデル(LLM)は、最大100万個のトークンのコンテキストをサポートするようになったが、複雑な長文タスクにおけるそれらの有効性はまだ不明である。
本稿では,100K-500Kトークンの多文書にまたがる多文書の判例要約について検討する。
本稿では,26項目以上の多値チェックリスト評価を行う参照ベース評価フレームワークであるGavel-Refを紹介する。
Gavel-Refを用いて、先行研究で報告された1つの集計スコアを超え、主に2025年までの32Kから512Kのトークンを含む100の訴訟に対して、12のフロンティアLSMを体系的に評価する。
我々の結果は、最強モデルであるGemini 2.5 Proでさえ、タスクの難しさを強調するために$S_{\text{Gavel-Ref}}$の50しか達成していないことを示している。
モデルは、単純なチェックリストアイテム(例えば、申請日)でうまく機能するが、解決や監視レポートのような、多値または稀な項目に苦労する。
LLMは改善を続けており、人間による要約(人間の参照の信頼性を低下させる)を上回る可能性があるため、私たちは、ケース文書から直接チェックリストをナビゲートし抽出する6つのツールを備えた、効率的で自律的なエージェントの足場であるGavel-Agentを開発した。
Qwen3では、Gavel-Agentはトークン使用量を36%削減し、その結果、GPT-4.1によるエンドツーエンド抽出と比較して、$S_{\text{checklist}}$が7%低下した。
関連論文リスト
- Prompt-Based One-Shot Exact Length-Controlled Generation with LLMs [56.47577824219207]
本稿では,既製の大規模言語モデルを補完して,希望するトークン数を正確に生成するプロンプトベースの戦略を提案する。
プロンプトはカウントダウンマーカーと明示的なカウントルールを付加し、モデルが"カウント中に書き込む"。
MT-Bench-LI では、GPT-4.1 の厳格な長さコンプライアンスは、単純なプロンプトの30%以下から、カウントダウンプロンプトの95%以上へと飛躍する。
論文 参考訳(メタデータ) (2025-08-19T13:12:01Z) - Expanding Relevance Judgments for Medical Case-based Retrieval Task with Multimodal LLMs [0.032771631221674334]
我々は、MLLM(Multimodal Large Language Model)を用いて、関連判断を拡張し、新しい自動判断データセットを作成する。
以上の結果から,MLLMが関連判断の規模を拡大する可能性を示し,医療・マルチモーダルIRタスクにおける検索評価を支援する上で有望な方向性を提供する。
論文 参考訳(メタデータ) (2025-06-21T18:29:33Z) - Evaluating the Use of LLMs for Documentation to Code Traceability [3.076436880934678]
大規模言語モデルは、様々なソフトウェアドキュメンテーションとソースコードの間のトレースリンクを確立することができる。
私たちは2つのオープンソースプロジェクト(Unity CatalogとCrawl4AI)から2つの新しいデータセットを作成します。
その結果、最高の性能のLLMは2つのデータセットで79.4%と80.4%のF1スコアを達成した。
論文 参考訳(メタデータ) (2025-06-19T16:18:53Z) - An Empirical Study of Many-to-Many Summarization with Large Language Models [82.10000188179168]
大規模言語モデル(LLM)は強い多言語能力を示しており、実アプリケーションでM2MS(Multi-to-Many summarization)を実行する可能性を秘めている。
本研究は,LLMのM2MS能力に関する系統的研究である。
論文 参考訳(メタデータ) (2025-05-19T11:18:54Z) - LLMSR@XLLM25: An Empirical Study of LLM for Structural Reasoning [6.700515856842664]
We present Team asdfo123's submit to the LLMSR@XLLM25 shared task。
我々は、粒度、制御性、解釈可能な推論プロセスを生成する上で、大きな言語モデルを評価する。
提案手法は, マクロF1スコアを, より複雑で資源消費の少ないパイプラインと同等に達成し, 総合5位にランク付けする。
論文 参考訳(メタデータ) (2025-05-18T09:46:30Z) - NoLiMa: Long-Context Evaluation Beyond Literal Matching [100.00398424275501]
NoLiMaは、NIAHテストを拡張したベンチマークである。
干し草の山の中に針を見つけるためには、潜伏関係を推測するモデルが必要である。
我々は、少なくとも128Kトークンのコンテキストをサポートすると主張する13の人気のある大規模言語モデルを評価する。
論文 参考訳(メタデータ) (2025-02-07T18:49:46Z) - Scaling Up Membership Inference: When and How Attacks Succeed on Large Language Models [37.420266437306374]
メンバーシップ推論アタック(MIA)は、モデルのトレーニングセットで与えられたデータサンプルのメンバシップを検証する。
最近の研究は、現在のMIA法は大規模言語モデル(LLM)では機能しないと結論付けている。
論文 参考訳(メタデータ) (2024-10-31T18:59:46Z) - Unleashing Multi-Hop Reasoning Potential in Large Language Models through Repetition of Misordered Context [31.091013417498825]
文脈反復(CoRe)という,シンプルで効果的な手法を提案する。
これにより、サポートドキュメント内の連続した推論セグメントが最適な順序で提示されることが保証される。
CoReを用いて,マルチホップQAタスクのF1スコアを最大30%改善し,合成タスクの精度を最大70%向上する。
論文 参考訳(メタデータ) (2024-10-09T17:41:53Z) - FABLES: Evaluating faithfulness and content selection in book-length summarization [55.50680057160788]
本稿では,本書の忠実度と内容選択の大規模評価を行う。
LLMが生成した26冊のサマリーで作成した3,158冊の注釈のデータセットであるFABLESを5.2KUSDで収集する。
注釈の分析によると、ほとんどの不誠実な主張は出来事や登場人物の状態に関係しており、物語を無効にするために間接的推論を必要とする。
論文 参考訳(メタデータ) (2024-04-01T17:33:38Z) - BooookScore: A systematic exploration of book-length summarization in the era of LLMs [53.42917858142565]
我々は,識別されたエラータイプを一切含まない要約文の割合を計測する自動測度BooookScoreを開発した。
GPT-4 や 2 のようなクローズドソース LLM は,オープンソースモデルよりも BooookScore の高いサマリーを生成することがわかった。
論文 参考訳(メタデータ) (2023-10-01T20:46:44Z) - Language Models Enable Simple Systems for Generating Structured Views of Heterogeneous Data Lakes [54.13559879916708]
EVAPORATEは大規模言語モデル(LLM)を利用したプロトタイプシステムである。
コード合成は安価だが、各文書をLSMで直接処理するよりもはるかに正確ではない。
直接抽出よりも優れた品質を実現する拡張コード実装EVAPORATE-CODE+を提案する。
論文 参考訳(メタデータ) (2023-04-19T06:00:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。