論文の概要: Can LLMs Time Travel? Enhancing Temporal Consistency in Legal Agentic Search through Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2605.25920v1
- Date: Mon, 25 May 2026 14:57:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:20.341813
- Title: Can LLMs Time Travel? Enhancing Temporal Consistency in Legal Agentic Search through Reinforcement Learning
- Title(参考訳): LLMのタイムトラベルは可能か? 強化学習による法的エージェント探索における時間的整合性を高める
- Authors: Wei Fan, Yining Zhou, Mufan Zhang, Yanbing Weng, Yiran HU, Tianshi Zheng, Baixuan Xu, Chunyang Li, Jianhui Yang, Haoran Li, Yangqiu Song,
- Abstract要約: 法律は、法律の遡及的適用が中核的な法的原則に違反し、誤った結論に至るため、各事件の時間的文脈と一致しなければならない。
我々の観察では、現在の法的LLMはトレーニングの遮断に固定された時間的バイアスに悩まされているのに対し、検索エージェントはクエリに時間的制約を組み込むことは滅多にない。
我々は,複数の修正期間にまたがる時間的インデクシングデータに基づいて学習し,時間的整合性を確保するために,オンラインWeb検索に適合する厳密な記事に局所法規RAGを併用する,エンドツーエンドの強化学習フレームワークであるLegalSearch-R1を提案する。
- 参考スコア(独自算出の注目度): 45.13302016493955
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While large language models (LLMs) augmented with agentic search capabilities show promise for legal reasoning, they overlook a fundamental constraint that applicable law must match the temporal context of each case, as retroactive application of statutes violates core legal principles and leads to erroneous conclusions. Our observations reveal that current legal LLMs suffer from temporal bias anchored to their training cutoff, while search agents rarely incorporate temporal constraints into queries, and that web search alone cannot provide the precise statute and precedent citations that legal reasoning demands. To address these challenges, we propose LegalSearch-R1, an end-to-end reinforcement learning framework that pairs local statute RAG for precise article matching with online web search for broader legal knowledge, trained on temporally-indexed data spanning multiple amendment periods to enforce temporal consistency. Extensive experiments on our benchmark covering 13 legal tasks demonstrate that our 7B-parameter agent outperforms state-of-the-art deep research frameworks and specialized legal LLMs by 12.9% to 29.8%, surpasses baselines by 57.7% to 80.3% on temporal consistency, and exhibits robust out-of-domain generalization. The code and data are available at https://github.com/AlexFanw/LegalSearch-R1.
- Abstract(参考訳): エージェント検索機能を付加した大規模言語モデル(LLM)は法的推論の約束を示すが、法令の遡及的適用は基本的法原則に反し、誤った結論に至るため、適用法が各事件の時間的文脈に合致しなければならないという根本的な制約を見落としている。
一方,検索エージェントは時間的制約をクエリに組み込むことは稀であり,Web検索だけでは法的な理由付けを求める正確な法規や前例的な引用は得られない。
これらの課題に対処するために、LegalSearch-R1を提案する。これは、時間的整合性を確保するために、複数の修正期間にまたがる時間的インデクシングデータに基づいて訓練された、より広い法的知識のために、オンラインウェブ検索に適合する厳密な記事にローカルな法令RAGをペアリングするエンドツーエンドの強化学習フレームワークである。
13の法的なタスクをカバーするベンチマークにおいて、我々の7Bパラメーターエージェントは、最先端のディープ・リサーチ・フレームワークと特殊法的なLSMを12.9%から29.8%、ベースラインを57.7%から80.3%、時間的一貫性を57.7%から80.3%で上回り、ドメイン外の堅牢な一般化を示すことを示した。
コードとデータはhttps://github.com/AlexFanw/LegalSearch-R1.comで公開されている。
関連論文リスト
- LegalOne: A Family of Foundation Models for Reliable Legal Reasoning [54.57434222018289]
我々は、中国の法律ドメインに特化された基礎モデルのファミリーであるLegalOneを紹介します。
LegalOneは、法的推論をマスターするために設計された包括的な3フェーズパイプラインを通じて開発されている。
LegalOneの重み付けとLegalKit評価フレームワークを公開して、Legal AIの分野を前進させます。
論文 参考訳(メタデータ) (2026-01-31T10:18:32Z) - PLawBench: A Rubric-Based Benchmark for Evaluating LLMs in Real-World Legal Practice [67.71760070255425]
本稿では,大規模言語モデル (LLM) を評価するための実践的ベンチマークであるPLawBenchを紹介する。
PLawBenchは、13の実践的な法的シナリオにわたる850の質問で構成され、各質問には専門家が設計した評価ルーブが伴っている。
人間の専門的判断に合わせたLLMに基づく評価器を用いて,10種類の最先端のLLMを評価した。
論文 参考訳(メタデータ) (2026-01-23T11:36:10Z) - CLaw: Benchmarking Chinese Legal Knowledge in Large Language Models - A Fine-grained Corpus and Reasoning Analysis [13.067377421250557]
大規模言語モデル (LLM) は、法的テキストを分析し、関連する法令を引用するタスクが増えている。
本稿では,中国法学におけるLLMの厳密な評価と推論への応用を目的とした新しいベンチマークであるCLawを紹介する。
論文 参考訳(メタデータ) (2025-09-25T14:19:51Z) - L-MARS: Legal Multi-Agent Workflow with Orchestrated Reasoning and Agentic Search [3.662162441273026]
L-MARS(Legal Multi-Agent with Orchestrated Reasoning and Agentic Search)は、法的な質問応答における幻覚と不確実性を低減するシステムである。
単一パス検索拡張生成(RAG)とは異なり、L-MARSはクエリをサブプロブレムに分解する。
審査員を雇い、回答合成前の十分性、司法権、時間的妥当性を検証する。
論文 参考訳(メタデータ) (2025-08-31T09:23:26Z) - GLARE: Agentic Reasoning for Legal Judgment Prediction [60.13483016810707]
法学分野では、法的判断予測(LJP)がますます重要になっている。
既存の大規模言語モデル (LLM) には、法的な知識が不足しているため、推論に不十分な重大な問題がある。
GLAREは,異なるモジュールを呼び出し,重要な法的知識を動的に獲得するエージェント的法的推論フレームワークである。
論文 参考訳(メタデータ) (2025-08-22T13:38:12Z) - LegalSearchLM: Rethinking Legal Case Retrieval as Legal Elements Generation [9.894351313663874]
LCR(Lawal Case Retrieval)は、法律専門家の基本的な課題である。
LCRに関する既存の研究は2つの大きな制限に直面している。
まず,比較的小規模な検索コーパスを用いて評価を行った。
第二に、埋め込み方式や語彙マッチング方式への依存は、しばしば限定的な表現と法的に無関係な一致をもたらす。
論文 参考訳(メタデータ) (2025-05-28T09:02:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。