論文の概要: Hybrid Retrieval-Augmented Generation Agent for Trustworthy Legal Question Answering in Judicial Forensics
- arxiv url: http://arxiv.org/abs/2511.01668v1
- Date: Mon, 03 Nov 2025 15:30:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.310275
- Title: Hybrid Retrieval-Augmented Generation Agent for Trustworthy Legal Question Answering in Judicial Forensics
- Title(参考訳): 司法法学における信頼性ある法的質問応答のためのハイブリッド検索促進剤
- Authors: Yueqing Xi, Yifan Bai, Huasen Luo, Weiliang Wen, Hui Liu, Haoliang Li,
- Abstract要約: 司法設定に適した混成法的QAエージェントを提示する。
検索強化世代(RAG)とマルチモデルアンサンブルを統合し、信頼性、監査性、継続的なアップグレード可能なカウンセラーを提供する。
- 参考スコア(独自算出の注目度): 30.232667436008978
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As artificial intelligence permeates judicial forensics, ensuring the veracity and traceability of legal question answering (QA) has become critical. Conventional large language models (LLMs) are prone to hallucination, risking misleading guidance in legal consultation, while static knowledge bases struggle to keep pace with frequently updated statutes and case law. We present a hybrid legal QA agent tailored for judicial settings that integrates retrieval-augmented generation (RAG) with multi-model ensembling to deliver reliable, auditable, and continuously updatable counsel. The system prioritizes retrieval over generation: when a trusted legal repository yields relevant evidence, answers are produced via RAG; otherwise, multiple LLMs generate candidates that are scored by a specialized selector, with the top-ranked answer returned. High-quality outputs then undergo human review before being written back to the repository, enabling dynamic knowledge evolution and provenance tracking. Experiments on the Law\_QA dataset show that our hybrid approach significantly outperforms both a single-model baseline and a vanilla RAG pipeline on F1, ROUGE-L, and an LLM-as-a-Judge metric. Ablations confirm the complementary contributions of retrieval prioritization, model ensembling, and the human-in-the-loop update mechanism. The proposed system demonstrably reduces hallucination while improving answer quality and legal compliance, advancing the practical landing of media forensics technologies in judicial scenarios.
- Abstract(参考訳): 人工知能が司法法医学を浸透させるにつれ、法的質問応答(QA)の正確性とトレーサビリティの確保が重要になっている。
従来の大規模言語モデル(LLM)は幻覚を起こす傾向があり、法的協議において誤解を招くガイダンスを危険にさらし、静的知識ベースは頻繁に更新される法令や事件法に追従する。
本稿では、検索強化世代(RAG)とマルチモデルアンサンブルを統合し、信頼性、監査性、継続的な改善可能なカウンセラーを提供する、司法設定に適したハイブリッドな法的QAエージェントを提案する。
信頼された法的リポジトリが関連する証拠を取得した場合、RAGを介して回答が生成され、そうでなければ複数のLSMが特定のセレクタによってスコア付けされた候補を生成し、上位の回答が返される。
高品質なアウトプットは、レポジトリに書き戻される前にヒューマンレビューを行い、動的な知識の進化と成果追跡を可能にします。
Law\_QAデータセットの実験により、我々のハイブリッドアプローチは、F1、ROUGE-L、LLM-as-a-Judgeメトリック上での単一モデルベースラインとバニラRAGパイプラインの両方を著しく上回ります。
アブレーションは、検索優先順位付け、モデルエンハンスブル、およびヒューマン・イン・ザ・ループの更新メカニズムの相補的な貢献を裏付ける。
提案システムは,回答の品質と法的コンプライアンスを改善しつつ,幻覚を実証的に低減し,司法シナリオにおけるメディア鑑定技術の実践的普及を推進している。
関連論文リスト
- L-MARS: Legal Multi-Agent Workflow with Orchestrated Reasoning and Agentic Search [3.662162441273026]
L-MARS(Legal Multi-Agent with Orchestrated Reasoning and Agentic Search)は、法的な質問応答における幻覚と不確実性を低減するシステムである。
単一パス検索拡張生成(RAG)とは異なり、L-MARSはクエリをサブプロブレムに分解する。
審査員を雇い、回答合成前の十分性、司法権、時間的妥当性を検証する。
論文 参考訳(メタデータ) (2025-08-31T09:23:26Z) - Scaling Legal AI: Benchmarking Mamba and Transformers for Statutory Classification and Case Law Retrieval [0.0]
本稿では,線形時間選択機構を持つ状態空間モデルであるMambaを,法定分類と判例法検索のための主要な変圧器モデルに対して,初めて包括的ベンチマークを行った。
その結果、マンバの線形スケーリングにより、トランスフォーマーの何倍も長い法律文書を処理できることがわかった。
我々の発見は、国家空間モデルとトランスフォーマーのトレードオフを強調し、法定分析、司法決定支援、政策研究に法的AIを配置するためのガイダンスを提供する。
論文 参考訳(メタデータ) (2025-08-29T17:38:47Z) - Segment First, Retrieve Better: Realistic Legal Search via Rhetorical Role-Based Queries [3.552993426200889]
TraceRetrieverは、ケース情報を限定して運用することで、現実世界の法的検索を反映する。
我々のパイプラインはBM25、Vector Database、Cross-Encoderモデルを統合し、Reciprocal Rank Fusionによる最初の結果を組み合わせています。
修辞アノテーションは、インドの判断に基づいて訓練された階層的BiLSTM CRF分類器を用いて生成される。
論文 参考訳(メタデータ) (2025-08-01T14:49:33Z) - Augmented Question-guided Retrieval (AQgR) of Indian Case Law with LLM, RAG, and Structured Summaries [0.0]
本稿では,関連事例の検索を容易にするためにLarge Language Models (LLMs) を提案する。
提案手法は,Retrieval Augmented Generation (RAG) と,インドの事例法に最適化された構造化要約を組み合わせたものである。
本システムは,関連事例法をより効果的に識別するために,事実シナリオに基づく対象の法的質問を生成する。
論文 参考訳(メタデータ) (2025-07-23T05:24:44Z) - Faithfulness-Aware Uncertainty Quantification for Fact-Checking the Output of Retrieval Augmented Generation [108.13261761812517]
本稿では,RAG出力における幻覚検出の新しい手法であるFRANQ(Fithfulness-based Retrieval Augmented Uncertainty Quantification)を紹介する。
本稿では,事実性と忠実性の両方に注釈を付したQAデータセットを提案する。
論文 参考訳(メタデータ) (2025-05-27T11:56:59Z) - Evaluating LLM-based Approaches to Legal Citation Prediction: Domain-specific Pre-training, Fine-tuning, or RAG? A Benchmark and an Australian Law Case Study [9.30538764385435]
大規模言語モデル (LLM) は法的タスクに強い可能性を示しているが、法的な引用予測の問題は未解明のままである。
AusLaw Citation Benchmarkは,オーストラリアで55万の法的事例と18,677のユニークな引用からなる実世界のデータセットである。
次に、さまざまなソリューションに対して、システマティックなベンチマークを実施します。
その結果, 一般および法定LLMは独立解として十分ではなく, ほぼゼロに近い性能を示した。
論文 参考訳(メタデータ) (2024-12-09T07:46:14Z) - JudgeRank: Leveraging Large Language Models for Reasoning-Intensive Reranking [81.88787401178378]
本稿では,文書関連性を評価する際に,人間の認知過程をエミュレートする新しいエージェント・リランカであるJiceRankを紹介する。
我々は,推論集約型BRIGHTベンチマークを用いて判定Rankを評価し,第1段階の検索手法よりも性能が大幅に向上したことを示す。
さらに、JiceRankは、人気の高いBEIRベンチマークの細調整された最先端リランカと同等に動作し、ゼロショットの一般化能力を検証している。
論文 参考訳(メタデータ) (2024-10-31T18:43:12Z) - Self-RAG: Learning to Retrieve, Generate, and Critique through
Self-Reflection [74.51523859064802]
我々は、自己回帰検索拡張生成(Self-RAG)と呼ばれる新しいフレームワークを導入する。
自己RAGは、検索と自己回帰によってLMの品質と事実性を高める。
様々なタスクセットにおいて、最先端のLCMや検索強化モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-10-17T18:18:32Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。