論文の概要: Parthenon Law: A Self-Evolving Legal-Agent Framework
- arxiv url: http://arxiv.org/abs/2606.04602v3
- Date: Thu, 11 Jun 2026 05:54:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 13:39:59.402786
- Title: Parthenon Law: A Self-Evolving Legal-Agent Framework
- Title(参考訳): Parthenon Law: 自己進化型法体系
- Authors: Hejia Geng, Leo Liu,
- Abstract要約: 法律ドメインのエージェントは、ドキュメントの重い問題をレビュー可能な作業製品に変えることを約束します。
今日の最強のモデルとハーネスの組み合わせが、エンドツーエンドの法的な問題に対してどのように振る舞うかについて、大規模な証拠はない。
反推論学習ループは、得られた失敗をタスクに依存しない編集からスキル、ツール、知識に変換する。
- 参考スコア(独自算出の注目度): 1.1328138487408783
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As agents grow more capable, legal-domain LLM agents promise to turn document-heavy matters into reviewable work products -- yet reliable deployment faces three obstacles: no large-scale evidence on how today's strongest model-and-harness combinations behave on end-to-end legal matters; no agent architecture adapted to the legal vertical, only general-purpose harnesses; and, in a setting that keeps shifting with new facts, authorities, and deadlines, no mechanism for systems to learn from their own outcomes. We address each. A large-scale empirical study on Harvey LAB -- $12{,}510$ agent trajectories -- shows that even frontier agents remain far from completing matters in a single pass: per-criterion accuracy climbs with stronger models while strict matter completion stalls. We then introduce \textsc{Parthenon}, a self-evolving legal-agent framework that factors Model, Harness, Agent roles, legal Knowledge, deterministic Tools, and procedural Skills into auditable surfaces for source traceability, date and number grounding, deliverable compliance, and issue closure. Finally, an anti-leakage learning loop converts scored failures into task-agnostic edits to skills, tools, and knowledge, letting the system improve with experience -- as a firm refines its checklists and playbooks after each matter -- without touching model weights. Across our large-scale empirical analysis, \textsc{Parthenon} substantially improves the performance of state-of-the-art models and harnesses on legal-matter tasks.
- Abstract(参考訳): 現在の最強のモデルとハーネスの組み合わせがエンドツーエンドの法的な問題にどのように振る舞うかという大規模な証拠は存在せず、法律の垂直に適応したエージェントアーキテクチャは存在せず、汎用的なハーネスのみであり、新しい事実、当局、期限に移行し続ける環境では、システムが自身の成果から学ぶためのメカニズムはない。
私たちはそれぞれに話しかける。
ハーヴェイLABに関する大規模な実証研究 -- 12{,}510ドルのエージェント・トラジェクトリー -- は、フロンティア・エージェントでさえ、1回のパスで問題を完成させるには程遠いことを示している。
次に、モデル、ハーネス、エージェントロール、法的知識、決定論的ツール、手続き的スキルを、ソースのトレーサビリティ、日付と数字のグラウンド、納品可能なコンプライアンス、発行のクロージャの監査可能な面に分解する自己進化的な法的エージェントフレームワークである「textsc{Parthenon}」を紹介します。
最後に、反推論学習ループは、得られた失敗をタスクに依存しない編集からスキル、ツール、知識に変換する。
大規模な経験分析全体にわたって、‘textsc{Parthenon} は最先端のモデルの性能を大幅に向上させ、法的なタスクに活用する。
関連論文リスト
- AgentV-RL: Scaling Reward Modeling with Agentic Verifier [63.55502685076245]
試験時間スケーリング(TTS)によるLCM推論を強化する検証器が実証されている。
本稿では,報酬モデリングを多ターンツール拡張型検討プロセスに変換するフレームワークであるエージェント検証を提案する。
Agentic Verifier は並列およびシーケンシャルTS の両方で一貫した性能向上が得られることを示す。
論文 参考訳(メタデータ) (2026-04-17T12:27:36Z) - LegalOne: A Family of Foundation Models for Reliable Legal Reasoning [54.57434222018289]
我々は、中国の法律ドメインに特化された基礎モデルのファミリーであるLegalOneを紹介します。
LegalOneは、法的推論をマスターするために設計された包括的な3フェーズパイプラインを通じて開発されている。
LegalOneの重み付けとLegalKit評価フレームワークを公開して、Legal AIの分野を前進させます。
論文 参考訳(メタデータ) (2026-01-31T10:18:32Z) - ET-Agent: Incentivizing Effective Tool-Integrated Reasoning Agent via Behavior Calibration [68.89572566071575]
ETAgentはエージェントのツール使用行動を調整するためのトレーニングフレームワークである。
過誤行動パターンを最適行動に段階的に校正するように設計されている。
論文 参考訳(メタデータ) (2026-01-11T11:05:26Z) - Audited Skill-Graph Self-Improvement for Agentic LLMs via Verifiable Rewards, Experience Synthesis, and Continual Memory [3.7163033180152536]
Audited Skill-Graph Self-Improvementは、自己改善をエージェントの反復的なコンパイルとしてスキルグラフに扱うフレームワークである。
本稿では,完全なシステムアーキテクチャ,脅威モデル,セキュリティ解析を提案し,完全に実行可能な参照実装を提供する。
論文 参考訳(メタデータ) (2025-12-28T19:39:47Z) - Hybrid Retrieval-Augmented Generation Agent for Trustworthy Legal Question Answering in Judicial Forensics [30.232667436008978]
司法設定に適した混成法的QAエージェントを提示する。
検索強化世代(RAG)とマルチモデルアンサンブルを統合し、信頼性、監査性、継続的なアップグレード可能なカウンセラーを提供する。
論文 参考訳(メタデータ) (2025-11-03T15:30:58Z) - LLMs for LLMs: A Structured Prompting Methodology for Long Legal Documents [3.887688898850802]
我々は、しばしば高価な微調整の代替として、構造化プロンプト手法を提案する。
我々は、情報検索のタスクについて、CUADデータセットから長い法的文書をタグ付けする。
そこで我々は,分布型局所化と逆心身重みの導入により,結果の候補選択問題に取り組んだ。
論文 参考訳(メタデータ) (2025-09-02T12:09:49Z) - Can Language Models Discover Scaling Laws? [57.794209392781845]
本稿では,拡張法則モデルとパラメータを協調的に最適化し,変数間の複雑な関係を自律的に探索する進化型エージェントSLDAgentを紹介する。
SLDAgentが、確立された人間由来の法則よりも、一貫して正確な外挿を示す法則を自動的に発見できることを、初めて実証した。
論文 参考訳(メタデータ) (2025-07-27T05:45:26Z) - Rationales Are Not Silver Bullets: Measuring the Impact of Rationales on Model Performance and Reliability [70.4107059502882]
有理数拡張による学習言語モデルは、多くの既存の作品において有益であることが示されている。
モデル性能に対する合理的性の影響を徹底的に調査するため、包括的調査を行う。
論文 参考訳(メタデータ) (2025-05-30T02:39:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。