論文の概要: From Policy to Logic for Efficient and Interpretable Coverage Assessment
- arxiv url: http://arxiv.org/abs/2601.01266v2
- Date: Thu, 08 Jan 2026 18:28:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 15:04:17.504164
- Title: From Policy to Logic for Efficient and Interpretable Coverage Assessment
- Title(参考訳): 効率的かつ解釈可能なカバーアセスメントのための政策から論理へ
- Authors: Rhitabrat Pokharel, Hamid Reza Hassanzadeh, Ameeta Agrawal,
- Abstract要約: 本稿では,政策解釈をより効率的かつ解釈可能なものにすることで,人間レビュアーを支援するためのアプローチを提案する。
本稿では,関係する政策言語を明らかにするために,包括的ルールベース推論と包括的ルール対応レトリバーを組み合わせた手法を提案する。
提案手法は,F1スコアの4.5%向上とともに,推論コストの44%削減を実現し,効率と有効性を実証した。
- 参考スコア(独自算出の注目度): 4.195679119463805
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated strong capabilities in interpreting lengthy, complex legal and policy language. However, their reliability can be undermined by hallucinations and inconsistencies, particularly when analyzing subjective and nuanced documents. These challenges are especially critical in medical coverage policy review, where human experts must be able to rely on accurate information. In this paper, we present an approach designed to support human reviewers by making policy interpretation more efficient and interpretable. We introduce a methodology that pairs a coverage-aware retriever with symbolic rule-based reasoning to surface relevant policy language, organize it into explicit facts and rules, and generate auditable rationales. This hybrid system minimizes the number of LLM inferences required which reduces overall model cost. Notably, our approach achieves a 44% reduction in inference cost alongside a 4.5% improvement in F1 score, demonstrating both efficiency and effectiveness.
- Abstract(参考訳): 大規模言語モデル(LLM)は、長大で複雑な法律およびポリシー言語を解釈する強力な能力を示している。
しかし、その信頼性は、特に主観的・ニュアンス文書の分析において、幻覚や矛盾によって損なわれることがある。
これらの課題は、人間の専門家が正確な情報に頼らなければならない医療保険政策のレビューにおいて特に重要である。
本稿では,政策解釈をより効率的かつ解釈可能なものにすることで,人間レビュアーを支援するためのアプローチを提案する。
本稿では,包括的対応型レトリバーとシンボリックルールに基づく推論を組み合わせて,関連する政策言語を探索し,それを明示的な事実とルールに整理し,監査可能な合理性を生成する手法を提案する。
このハイブリッドシステムは、モデル全体のコストを削減するために必要なLLM推測数を最小化する。
提案手法は,F1スコアの4.5%向上とともに,推論コストの44%削減を実現し,効率と有効性を実証した。
関連論文リスト
- DocThinker: Explainable Multimodal Large Language Models with Rule-based Reinforcement Learning for Document Understanding [66.07724324530844]
動的推論時間推論のためのルールベースの強化学習フレームワークであるDocThinkerを提案する。
本手法は破滅的な忘れ込みを軽減し,適応性と透明性を両立させる。
本研究は,MLLMに基づく文書理解における説明可能性と適応性を高めるための強力な代替手段として,RLに注目した。
論文 参考訳(メタデータ) (2025-08-12T03:06:55Z) - Assessing the Reliability and Validity of Large Language Models for Automated Assessment of Student Essays in Higher Education [0.30158609733245967]
高等教育環境におけるエッセイ自動評価において,5つの高度な大規模言語モデル (LLM) , Claude 3.5, DeepSeek v2, Gemini 2.5, GPT-4, Mistral 24B について検討した。
イタリア語の学生エッセイは、合計67点が4基準ルーブリックを用いて評価された。
人間とLLMの合意は一貫して低く、非重要であり、複製間のモデル内信頼性も同様に弱かった。
論文 参考訳(メタデータ) (2025-08-04T14:02:12Z) - PlainQAFact: Retrieval-augmented Factual Consistency Evaluation Metric for Biomedical Plain Language Summarization [5.5899921245557]
大きな言語モデルから得られた幻覚的アウトプットは、医療領域にリスクをもたらす。
そこで我々はPlainQAFactを紹介した。PlainFactは、人間に注釈を付けた詳細なデータセットに基づいてトレーニングされた、自動的な事実整合性評価指標である。
論文 参考訳(メタデータ) (2025-03-11T20:59:53Z) - LLM-Safety Evaluations Lack Robustness [58.334290876531036]
我々は、大規模言語モデルに対する現在の安全アライメント研究は、多くのノイズ源によって妨げられていると論じる。
本研究では,将来の攻撃・防衛用紙の評価において,ノイズやバイアスを低減させる一連のガイドラインを提案する。
論文 参考訳(メタデータ) (2025-03-04T12:55:07Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。
このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。
GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z) - From Voices to Validity: Leveraging Large Language Models (LLMs) for
Textual Analysis of Policy Stakeholder Interviews [14.135107583299277]
本研究では,米国内におけるK-12教育政策に関するステークホルダインタビューのテキスト分析を強化するために,大規模言語モデル(LLM)と人間の専門知識の統合について検討する。
混合メソッドのアプローチを用いて、ドメイン知識や教師なしトピックモデリングの結果から情報を得たコードブックとコーディングプロセスを開発した。
結果、GPT-4のテーマは、特定のテーマで77.89%の精度で人間のコーディングと一致しているが、より広いテーマが一致し96.02%に拡大し、従来の自然言語処理(NLP)の手法を25%以上上回った。
論文 参考訳(メタデータ) (2023-12-02T18:55:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。