論文の概要: Adaptive Cost-Efficient Evaluation for Reliable Patent Claim Validation
- arxiv url: http://arxiv.org/abs/2604.04295v1
- Date: Sun, 05 Apr 2026 22:25:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:19.031379
- Title: Adaptive Cost-Efficient Evaluation for Reliable Patent Claim Validation
- Title(参考訳): 信頼性の高い特許クレーム検証のための適応的費用効率評価
- Authors: Yongmin Yoo, Qiongkai Xu, Longbing Cao,
- Abstract要約: 本研究では、予測エントロピーを用いて、高い不確実性のみを専門家 LLM にルーティングするハイブリッドフレームワークであるACE(Adaptive Cost- efficient Evaluation)を提案する。
ACEは94.95%で評価された手法の中で最高のF1を達成し、スタンドアロンのLCMデプロイメントと比較して運用コストを78%削減した。
- 参考スコア(独自算出の注目度): 35.13558856456741
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated validation of patent claims demands zero-defect tolerance, as even a single structural flaw can render a claim legally defective. Existing evaluation paradigms suffer from a rigidity-resource dilemma: lightweight encoders struggle with nuanced legal dependencies, while exhaustive verification via Large Language Models (LLMs) is prohibitively costly. To bridge this gap, we propose ACE (Adaptive Cost-efficient Evaluation), a hybrid framework that uses predictive entropy to route only high-uncertainty claims to an expert LLM. The expert then executes a Chain of Patent Thought (CoPT) protocol grounded in 35 U.S.C. statutory standards. This design enables ACE to handle long-range legal dependencies more effectively while preserving efficiency. ACE achieves the best F1 among the evaluated methods at 94.95\%, while reducing operational costs by 78\% compared to standalone LLM deployments. We also construct ACE-40k, a 40,000-claim benchmark with MPEP-grounded error annotations, to facilitate further research.
- Abstract(参考訳): 特許請求の自動検証は、単一の構造的欠陥でさえ法的に欠陥がある可能性があるため、ゼロ欠陥耐性を要求する。
軽量エンコーダは法的な依存に苦しむ一方、LLM(Large Language Models)による徹底的な検証は違法にコストがかかる。
このギャップを埋めるために、我々は、予測エントロピーを用いて、専門家のLLMに対して高い不確実性のみをルーティングするハイブリッドフレームワークACE(Adaptive Cost- efficient Evaluation)を提案する。
専門家はその後、35の米国法定基準に基づく特許思想の連鎖(CoPT)プロトコルを実行している。
この設計により、ACEは効率を保ちながら、長距離の法的な依存関係をより効率的に扱うことができる。
ACEは94.95 %で評価された手法の中で最高のF1を達成する一方で、スタンドアロンのLCMデプロイメントと比較して運用コストを78 %削減している。
また, ACE-40k は MPEP の基底にエラーアノテーションを付加した 4 万文のベンチマークであり, さらなる研究を容易にする。
関連論文リスト
- LK Losses: Direct Acceptance Rate Optimization for Speculative Decoding [67.61563011564388]
投機的復号化は自己回帰型大言語モデル(LLM)推論を加速させる。
標準トレーニングは、プロキシ目的としてKullback-Leibler(KL)の発散を最小限にする。
受入率を直接目標とする特別な訓練目標であるLK損失を提案する。
論文 参考訳(メタデータ) (2026-02-27T10:20:11Z) - ODAR: Principled Adaptive Routing for LLM Reasoning via Active Inference [60.958331943869126]
ODAR-Expertは、原則化されたリソース割り当てによる精度と効率のトレードオフを最適化する適応的なルーティングフレームワークである。
我々は、MATHの98.2%の精度、HumanityのLast Examの54.8%を含む、強く一貫した利得を示している。
論文 参考訳(メタデータ) (2026-02-27T05:22:01Z) - PCN-Rec: Agentic Proof-Carrying Negotiation for Reliable Governance-Constrained Recommendation [0.0]
PCN-Rec(PCN-Rec)は、自然言語による推論を決定論的執行から切り離す、証明付きネゴシエーションパイプラインである。
MovieLens-100Kでは、PCN-Recが98.55%のパスレートを達成した。
論文 参考訳(メタデータ) (2026-01-14T15:00:00Z) - A Preference-Driven Methodology for High-Quality Solidity Code Generation [13.075308321845505]
PrefGenは、人間の好みを超えて標準DPOを拡張して、定量化されたブロックチェーン固有のメトリクスを組み込む新しいフレームワークである。
本稿では,Pass@k(機能的正当性),Compile@k(機能的正当性),Gas@k(ガス効率),Secure@k(セキュリティ評価)の4つの相補的指標を用いた総合的評価手法を紹介する。
PrefGenは、すべての臨界次元で既存のアプローチを大幅に上回り、66.7%のPass@5、58.9%のGas@5、62.5%のSecure@5を達成している。
論文 参考訳(メタデータ) (2025-06-03T15:45:31Z) - Supervised Optimism Correction: Be Confident When LLMs Are Sure [91.7459076316849]
教師付き微調整とオフライン強化学習の間には,新たな理論的関係が確立されている。
広く使われているビームサーチ法は、許容できない過度な最適化に悩まされていることを示す。
本稿では,トークンレベル$Q$-value推定のための簡易かつ効果的な補助的損失を導入したSupervised Optimism Correctionを提案する。
論文 参考訳(メタデータ) (2025-04-10T07:50:03Z) - Exterior Penalty Policy Optimization with Penalty Metric Network under Constraints [52.37099916582462]
制約強化学習(CRL:Constrained Reinforcement Learning)では、エージェントが制約を満たしながら最適なポリシーを学習するために環境を探索する。
我々は,刑罰科目ネットワーク(PMN)が生み出す適応的な罰則を持つ,理論的に保証された刑罰関数法(Exterior Penalty Policy Optimization (EPO))を提案する。
PMNは様々な制約違反に適切に対応し、効率的な制約満足度と安全な探索を可能にする。
論文 参考訳(メタデータ) (2024-07-22T10:57:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。