論文の概要: L-MARS: Legal Multi-Agent Workflow with Orchestrated Reasoning and Agentic Search
- arxiv url: http://arxiv.org/abs/2509.00761v2
- Date: Wed, 03 Sep 2025 00:57:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.380669
- Title: L-MARS: Legal Multi-Agent Workflow with Orchestrated Reasoning and Agentic Search
- Title(参考訳): L-MARS: オーケストレーション推論とエージェント検索による法的マルチエージェントワークフロー
- Authors: Ziqi Wang, Boqin Yuan,
- Abstract要約: L-MARS(Legal Multi-Agent with Orchestrated Reasoning and Agentic Search)は、法的な質問応答における幻覚と不確実性を低減するシステムである。
単一パス検索拡張生成(RAG)とは異なり、L-MARSはクエリをサブプロブレムに分解する。
審査員を雇い、回答合成前の十分性、司法権、時間的妥当性を検証する。
- 参考スコア(独自算出の注目度): 3.662162441273026
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present L-MARS (Legal Multi-Agent Workflow with Orchestrated Reasoning and Agentic Search), a system that reduces hallucination and uncertainty in legal question answering through coordinated multi-agent reasoning and retrieval. Unlike single-pass retrieval-augmented generation (RAG), L-MARS decomposes queries into subproblems, issues targeted searches across heterogeneous sources (Serper web, local RAG, CourtListener case law), and employs a Judge Agent to verify sufficiency, jurisdiction, and temporal validity before answer synthesis. This iterative reasoning-search-verification loop maintains coherence, filters noisy evidence, and grounds answers in authoritative law. We evaluated L-MARS on LegalSearchQA, a new benchmark of 200 up-to-date multiple choice legal questions in 2025. Results show that L-MARS substantially improves factual accuracy, reduces uncertainty, and achieves higher preference scores from both human experts and LLM-based judges. Our work demonstrates that multi-agent reasoning with agentic search offers a scalable and reproducible blueprint for deploying LLMs in high-stakes domains requiring precise legal retrieval and deliberation.
- Abstract(参考訳): 本稿では,L-MARS(Legal Multi-Agent Workflow with Orchestrated Reasoning and Agentic Search)を提案する。
単一パス検索拡張世代(RAG)とは異なり、L-MARSはクエリをサブプロブレム(サブプロブレム)に分解する。
この反復的推論-探索-検証ループは、コヒーレンスを維持し、ノイズの多い証拠をフィルタリングし、権威法における答えを根拠とする。
L-MARSは,2025年に行われた複数選択肢の法的な問題に対して,200件の新しいベンチマークであるLegalSearchQAで評価した。
その結果、L-MARSは事実精度を大幅に向上し、不確実性を低減し、人間の専門家とLLMベースの審査員の嗜好スコアを高くすることがわかった。
エージェント検索を用いたマルチエージェント推論は,高精度な法的検索と検討を必要とする高い領域にLSMを展開するための,スケーラブルで再現可能な青写真を提供することを示す。
関連論文リスト
- LegalOne: A Family of Foundation Models for Reliable Legal Reasoning [54.57434222018289]
我々は、中国の法律ドメインに特化された基礎モデルのファミリーであるLegalOneを紹介します。
LegalOneは、法的推論をマスターするために設計された包括的な3フェーズパイプラインを通じて開発されている。
LegalOneの重み付けとLegalKit評価フレームワークを公開して、Legal AIの分野を前進させます。
論文 参考訳(メタデータ) (2026-01-31T10:18:32Z) - LegalMALR:Multi-Agent Query Understanding and LLM-Based Reranking for Chinese Statute Retrieval [10.997604609194033]
法定検索は法的援助と司法決定支援に不可欠である。
現実の法的なクエリは暗黙的で、複数発行され、口語または未特定の形で表現されることが多い。
本稿では,マルチエージェントクエリ理解システムとゼロショット大文字生成モジュールを統合した検索フレームワークであるLegalMALRを提案する。
論文 参考訳(メタデータ) (2026-01-25T04:44:56Z) - LRAS: Advanced Legal Reasoning with Agentic Search [48.281150948187786]
Legal Reasoning with Agentic Search (LRAS)は、静的かつパラメトリックな「クローズドループ思考」から動的かつインタラクティブな「アクティベート問い合わせ」への移行を目的としたフレームワークである。
Introspective LearningとDifficulty-aware Reinforcement Learningを統合することで、LRASはLRMが知識境界を特定し、法的推論を扱うことを可能にする。
実証実験の結果、LRASは最先端のベースラインを8.2-32%上回っている。
論文 参考訳(メタデータ) (2026-01-12T08:07:35Z) - AppellateGen: A Benchmark for Appellate Legal Judgment Generation [30.9030336647868]
7,351対のケースペアからなる第2のインスタンス法定判断生成のためのベンチマークであるAppellateGenを紹介する。
このタスクは、最初の評決と明らかな更新について推論することで、法的に拘束力のある判断を起草するモデルを必要とする。
本稿では,SOPに基づく法的マルチエージェントシステム(SLMAS)を提案し,その生成過程を個別の課題識別,検索,起草の段階に分解する。
論文 参考訳(メタデータ) (2026-01-04T02:15:17Z) - Evaluating Legal Reasoning Traces with Legal Issue Tree Rubrics [49.3262123849242]
LEGIT(LEGal Issue Trees)は,新しい大規模(24Kインスタンス)の専門家レベルの法的推論データセットである。
我々は、裁判判決を、当事者の議論と裁判所の結論の階層的な木に変換する。
論文 参考訳(メタデータ) (2025-11-30T18:32:43Z) - Hybrid Retrieval-Augmented Generation Agent for Trustworthy Legal Question Answering in Judicial Forensics [30.232667436008978]
司法設定に適した混成法的QAエージェントを提示する。
検索強化世代(RAG)とマルチモデルアンサンブルを統合し、信頼性、監査性、継続的なアップグレード可能なカウンセラーを提供する。
論文 参考訳(メタデータ) (2025-11-03T15:30:58Z) - A Reasoning-Focused Legal Retrieval Benchmark [28.607778538115642]
本稿では,Bar Exam QAとHousing Statute QAの2つの新しい法的RAGベンチマークを紹介する。
以上の結果から,法的なRAGは依然として困難な応用であり,今後の研究の動機となることが示唆された。
論文 参考訳(メタデータ) (2025-05-06T20:44:03Z) - ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [53.817538122688944]
Reinforced Meta-thinking Agents (ReMA) を導入し,Large Language Models (LLMs) の推論からメタ思考行動を求める。
ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。
単ターン実験による実験結果から、ReMAは複雑な推論タスクにおいて単エージェントRLベースラインよりも優れることが示された。
論文 参考訳(メタデータ) (2025-03-12T16:05:31Z) - LegalAgentBench: Evaluating LLM Agents in Legal Domain [53.70993264644004]
LegalAgentBenchは、中国の法律領域でLLMエージェントを評価するために特別に設計されたベンチマークである。
LegalAgentBenchには、現実世界の法的シナリオから17のコーパスが含まれており、外部知識と対話するための37のツールを提供している。
論文 参考訳(メタデータ) (2024-12-23T04:02:46Z) - RAG-Star: Enhancing Deliberative Reasoning with Retrieval Augmented Verification and Refinement [85.08223786819532]
既存の大規模言語モデル(LLM)は、例外的な問題解決能力を示すが、複雑な推論タスクに苦労する可能性がある。
検索情報を統合した新しいRAG手法である textbfRAG-Star を提案する。
Llama-3.1-8B-Instruct と GPT-4o を併用した実験により,RAG-Star は従来のRAG と推理法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2024-12-17T13:05:36Z) - Evaluating LLM-based Approaches to Legal Citation Prediction: Domain-specific Pre-training, Fine-tuning, or RAG? A Benchmark and an Australian Law Case Study [9.30538764385435]
大規模言語モデル (LLM) は法的タスクに強い可能性を示しているが、法的な引用予測の問題は未解明のままである。
AusLaw Citation Benchmarkは,オーストラリアで55万の法的事例と18,677のユニークな引用からなる実世界のデータセットである。
次に、さまざまなソリューションに対して、システマティックなベンチマークを実施します。
その結果, 一般および法定LLMは独立解として十分ではなく, ほぼゼロに近い性能を示した。
論文 参考訳(メタデータ) (2024-12-09T07:46:14Z) - Exploring the Nexus of Large Language Models and Legal Systems: A Short Survey [1.0770079992809338]
LLM(Large Language Models)の能力は、法律分野におけるユニークな役割をますます示している。
この調査は、法的テキスト理解、事例検索、分析などのタスクにおけるLLMと法体系の相乗効果について考察する。
この調査では、さまざまな法律システム用に調整された微調整された法的なLLMの最新の進歩と、さまざまな言語で微調整されたLLMのための法的なデータセットが紹介されている。
論文 参考訳(メタデータ) (2024-04-01T08:35:56Z) - A Comprehensive Evaluation of Large Language Models on Legal Judgment
Prediction [60.70089334782383]
大規模言語モデル(LLM)は、ドメイン固有のアプリケーションに大きな可能性を示している。
GPT-4の法律評価をめぐる近年の論争は、現実の法的タスクにおけるパフォーマンスに関する疑問を提起している。
我々は,LLMに基づく実践的ベースラインソリューションを設計し,法的判断予測の課題を検証した。
論文 参考訳(メタデータ) (2023-10-18T07:38:04Z) - Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate [85.3444184685235]
複数のエージェントが"tit for tat"の状態で議論を表現するマルチエージェント議論(MAD)フレームワークを提案し、審査員が議論プロセスを管理して最終解を得る。
我々のフレームワークは、深い熟考を必要とするタスクに役立ちそうなLSMにおける散発的思考を奨励する。
論文 参考訳(メタデータ) (2023-05-30T15:25:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。