Fugu-MT 論文翻訳(概要): PolicyLLM: Towards Excellent Comprehension of Public Policy for Large Language Models

論文の概要: PolicyLLM: Towards Excellent Comprehension of Public Policy for Large Language Models

arxiv url: http://arxiv.org/abs/2604.12995v1
Date: Tue, 14 Apr 2026 17:27:50 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-15 19:11:32.586794
Title: PolicyLLM: Towards Excellent Comprehension of Public Policy for Large Language Models
Title（参考訳）: PolicyLLM:大規模言語モデルのための公共政策の優れた理解を目指して
Authors: Han Bao, Penghao Zhang, Yue Huang, Zhengqing Yuan, Yanchi Ru, Rui Su, Yujun Zhou, Xiangqi Wang, Kehan Guo, Nitesh V Chawla, Yanfang Ye, Xiangliang Zhang,
Abstract要約: 大規模言語モデル(LLM)は、現実の意思決定にますます統合されている。しかし、政策関連のコンテンツについて理解し、理屈を定める能力はいまだ解明されていない。 textbftextitPolicyBenchは、最初の大規模クロスシステムベンチマーク(US-China)であり、ポリシーの理解を評価する。
参考スコア（独自算出の注目度）: 56.37206340175191
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) are increasingly integrated into real-world decision-making, including in the domain of public policy. Yet, their ability to comprehend and reason about policy-related content remains underexplored. To fill this gap, we present \textbf{\textit{PolicyBench}}, the first large-scale cross-system benchmark (US-China) evaluating policy comprehension, comprising 21K cases across a broad spectrum of policy areas, capturing the diversity and complexity of real-world governance. Following Bloom's taxonomy, the benchmark assesses three core capabilities: (1) \textbf{Memorization}: factual recall of policy knowledge, (2) \textbf{Understanding}: conceptual and contextual reasoning, and (3) \textbf{Application}: problem-solving in real-life policy scenarios. Building on this benchmark, we further propose \textbf{\textit{PolicyMoE}}, a domain-specialized Mixture-of-Experts (MoE) model with expert modules aligned to each cognitive level. The proposed models demonstrate stronger performance on application-oriented policy tasks than on memorization or conceptual understanding, and yields the highest accuracy on structured reasoning tasks. Our results reveal key limitations of current LLMs in policy understanding and suggest paths toward more reliable, policy-focused models.
Abstract（参考訳）: 大規模言語モデル(LLM)は、公共政策の分野を含む現実世界の意思決定にますます統合されている。しかし、政策関連のコンテンツについて理解し、理屈を定める能力はいまだ解明されていない。このギャップを埋めるために、我々は、政策包括性を評価する最初の大規模クロスシステムベンチマーク(US-China)である \textbf{\textit{PolicyBench}} を提示する。ブルームの分類に従って、ベンチマークは次の3つのコア機能を評価する: (1) \textbf{Memorization}: 政策知識の事実的リコール (2) \textbf{Understanding}: 概念的および文脈的推論 (3) \textbf{Application}: 実生活の政策シナリオにおける問題解決。このベンチマークに基づいて、各認知レベルに適合する専門家モジュールを持つドメイン特化Mixture-of-Experts (MoE) モデルである \textbf{\textit{PolicyMoE}} を提案する。提案したモデルは,暗記や概念的理解よりもアプリケーション指向の政策タスクにおいて高い性能を示し,構造化された推論タスクにおいて最も高い精度が得られる。以上の結果から,政策理解における現在のLLMの限界が明らかとなり,より信頼性の高い政策重視モデルへの道筋が示唆された。

関連論文リスト

Doc-PP: Document Policy Preservation Benchmark for Large Vision-Language Models [13.70855540464427]
我々は、厳密な非開示ポリシーの下で、異質な視覚的およびテキスト的要素の推論を必要とする実世界のレポートから構築された新しいベンチマークDoc-PPを紹介する。モデルでは、複雑な合成によって答えが推測されなければならない場合や、モダリティにまたがって集約された場合、機密情報を頻繁にリークする。政策検証から推論を分離する構造推論フレームワークであるDVAを提案する。
論文参考訳（メタデータ） (2026-01-07T13:45:39Z)
Multimodal Policy Internalization for Conversational Agents [48.11601444262434]
マルチモーダルポリシー内部化(MPI)は、推論集約型マルチモーダルポリシーをモデルパラメータに内部化する新しいタスクである。合成と実世界の意思決定とツール使用タスクにまたがる2つのデータセットを構築します。 TriMPIは、エンドツーエンドの精度、一般化、ロバスト性において顕著な向上を実現している。
論文参考訳（メタデータ） (2025-10-10T15:28:30Z)
Convergence and Sample Complexity of First-Order Methods for Agnostic Reinforcement Learning [66.4260157478436]
政策学習における強化学習について検討する。目的は、特定の種類の利害関係において最高の政策と競争力のある政策を見つけることである。
論文参考訳（メタデータ） (2025-07-06T14:40:05Z)
Reinforcement Learning with Continuous Actions Under Unmeasured Confounding [14.510042451844766]
本稿では,連続行動空間を用いた強化学習におけるオフライン政策学習の課題に対処する。我々は,ミニマックス推定器を開発し,クラス内最適ポリシーを特定するためのポリシー勾配に基づくアルゴリズムを提案する。得られた最適方針の整合性、有限サンプル誤差境界、後悔境界に関する理論的結果を提供する。
論文参考訳（メタデータ） (2025-05-01T04:55:29Z)
From Explainability to Interpretability: Interpretable Policies in Reinforcement Learning Via Model Explanation [2.08099858257632]
本稿では,複雑な深いRLポリシーを透過的な表現に変換するためのモデルに依存しない新しいアプローチを提案する。提案手法を既存の3つの深部RLアルゴリズムを用いて評価し,その性能を2つの古典的制御環境で検証した。
論文参考訳（メタデータ） (2025-01-16T22:11:03Z)
Towards A Unified Policy Abstraction Theory and Representation Learning Approach in Markov Decision Processes [39.94472154078338]
本稿では,異なるレベルでの政策特徴に関連する3種類の政策抽象化を含む統一的な政策抽象化理論を提案する。そして、それらを3つの政策指標に一般化し、政策の距離(すなわち類似性)を定量化する。実証実験では,政策の差異を識別し,政策の一般化を伝達する上で,提案した政策指標と表現の有効性について検討する。
論文参考訳（メタデータ） (2022-09-16T03:41:50Z)
Privacy-Constrained Policies via Mutual Information Regularized Policy Gradients [54.98496284653234]
報酬を最大化しつつ、行動を通じて特定の機密状態変数の開示を最小限に抑えながら、報酬を最大化する政策を訓練する課題を考察する。本稿では, 感性状態と行動の相互情報に基づく正則化器を導入することで, この問題を解決する。プライバシ制約のあるポリシーを最適化するためのモデルベース推定器を開発した。
論文参考訳（メタデータ） (2020-12-30T03:22:35Z)
Policy Evaluation Networks [50.53250641051648]
我々は,簡潔な埋め込みにおいて重要なポリシー情報を保持できる,スケーラブルで差別化可能なフィンガープリント機構を導入する。実験の結果、これらの3つの要素を組み合わせることで、トレーニングデータを生成するものよりも優れたポリシーを作成できることが示された。
論文参考訳（メタデータ） (2020-02-26T23:00:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。