論文の概要: POLIS-Bench: Towards Multi-Dimensional Evaluation of LLMs for Bilingual Policy Tasks in Governmental Scenarios
- arxiv url: http://arxiv.org/abs/2511.04705v1
- Date: Tue, 04 Nov 2025 16:11:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-10 21:00:44.5393
- Title: POLIS-Bench: Towards Multi-Dimensional Evaluation of LLMs for Bilingual Policy Tasks in Governmental Scenarios
- Title(参考訳): POLIS-Bench:国家シナリオにおける二言語政策課題のためのLLMの多次元評価に向けて
- Authors: Tingyue Yang, Junchi Yao, Yuhui Guo, Chang Liu,
- Abstract要約: PLIS-Benchは、二言語政策シナリオで動作するLLM向けに設計された、厳密で体系的な評価スイートである。
既存のベンチマークと比較すると、POLIS-Benchには3つの大きな進歩がある。
POLIS-Bench上の10以上の最先端LCMの大規模評価により、明確な性能階層が明らかとなった。
- 参考スコア(独自算出の注目度): 6.278089740872445
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce POLIS-Bench, the first rigorous, systematic evaluation suite designed for LLMs operating in governmental bilingual policy scenarios. Compared to existing benchmarks, POLIS-Bench introduces three major advancements. (i) Up-to-date Bilingual Corpus: We construct an extensive, up-to-date policy corpus that significantly scales the effective assessment sample size, ensuring relevance to current governance practice. (ii) Scenario-Grounded Task Design: We distill three specialized, scenario-grounded tasks -- Clause Retrieval & Interpretation, Solution Generation, and the Compliance Judgmen--to comprehensively probe model understanding and application. (iii) Dual-Metric Evaluation Framework: We establish a novel dual-metric evaluation framework combining semantic similarity with accuracy rate to precisely measure both content alignment and task requirement adherence. A large-scale evaluation of over 10 state-of-the-art LLMs on POLIS-Bench reveals a clear performance hierarchy where reasoning models maintain superior cross-task stability and accuracy, highlighting the difficulty of compliance tasks. Furthermore, leveraging our benchmark, we successfully fine-tune a lightweight open-source model. The resulting POLIS series models achieves parity with, or surpasses, strong proprietary baselines on multiple policy subtasks at a significantly reduced cost, providing a cost-effective and compliant path for robust real-world governmental deployment.
- Abstract(参考訳): PLIS-Benchは、政府の二言語政策シナリオで動作するLLM向けに設計された、厳格で体系的な評価スイートである。
既存のベンチマークと比較すると、POLIS-Benchには3つの大きな進歩がある。
(i) 最新のバイリンガルコーパス: 有効な評価サンプルのサイズを著しく拡大し、現在のガバナンスプラクティスとの関連性を確保する、広範囲で最新の政策コーパスを構築します。
(II)シナリオ・グラウンド・タスク・デザイン: シナリオ・グラウンドの3つの専門的なタスク、クローズ・リトリーバル・アンド・解釈、ソリューション・ジェネレーション、コンプライアンス・ジャッジメンを蒸留し、モデル理解と応用を包括的に調査する。
3)2次元評価フレームワーク:コンテンツアライメントとタスク要求遵守の両面を正確に測定するために,意味的類似性と精度率を組み合わせた新しい2次元評価フレームワークを確立する。
POLIS-Bench上の10以上の最先端LCMの大規模評価では、推論モデルがより優れたクロスタスク安定性と精度を維持し、コンプライアンスタスクの難しさを浮き彫りにする、明確なパフォーマンス階層が示される。
さらに、ベンチマークを利用して、軽量なオープンソースモデルを微調整しました。
結果として得られたPOLISシリーズモデルは、複数のポリシーサブタスクに対する強力なプロプライエタリなベースラインを、大幅なコスト削減で達成し、堅牢な現実の政府展開のためのコスト効率とコンプライアンスのパスを提供する。
関連論文リスト
- Pluralistic Behavior Suite: Stress-Testing Multi-Turn Adherence to Custom Behavioral Policies [18.428149174461264]
PBSUITEは,多元的アライメント仕様に従うために,大規模言語モデルの能力を評価するために設計された動的評価スイートである。
オープンおよびクローズドソースのLLMは、単一ターン設定における行動ポリシーに頑健に固執するが、そのコンプライアンスはマルチターンの対角的相互作用において著しく弱まる。
論文 参考訳(メタデータ) (2025-11-07T06:43:01Z) - SOP-Maze: Evaluating Large Language Models on Complicated Business Standard Operating Procedures [10.868853536476317]
大規模言語モデル(LLM)はドメイン固有のエージェントとして広くデプロイされている。
実世界のビジネスデータから構築したベンチマークであるSOP-Mazeを提案する。
大規模な実験により、最先端のほぼ全てのモデルがSOP-Mazeと競合していることが判明した。
論文 参考訳(メタデータ) (2025-10-10T02:47:53Z) - mSCoRe: a $M$ultilingual and Scalable Benchmark for $S$kill-based $Co$mmonsense $Re$asoning [74.97363626515236]
textbfSkill ベースの textbfCommonsense textbfReasoning (textbfmSCoRe) のための textbfMultilingual と Scalable Benchmark を提案する。
本ベンチマークでは,LLMの推論能力を体系的に評価するための3つの重要な要素を取り入れた。
本研究は,多言語多言語一般と文化的共通点に直面する場合,そのような推論強化モデルの限界を明らかにするものである。
論文 参考訳(メタデータ) (2025-08-13T18:59:02Z) - Enhancing Decision-Making of Large Language Models via Actor-Critic [28.870961806283425]
大規模言語モデル(LLM)は自然言語処理タスクにおいて顕著な進歩を遂げている。
既存の方法は、ロールアウトを正確にシミュレートし、結果を評価する際に、短期的な自己回帰的な行動生成か、制限に直面している。
本稿では,LLM をベースとした Actor-Critic フレームワーク LAC を提案する。
論文 参考訳(メタデータ) (2025-06-04T14:58:27Z) - A Controllable Examination for Long-Context Language Models [62.845852724511964]
本研究では,長文言語モデルを評価するベンチマークである$textbfLongBioBenchを紹介する。
その結果,ほとんどのモデルでは,検索結果に対する意味的理解や基礎的推論が不足していることが判明した。
我々のさらなる分析は、文脈的非コヒーレンスなど、既存の合成ベンチマークで採用されているいくつかの設計選択を示している。
論文 参考訳(メタデータ) (2025-06-03T14:23:06Z) - Firm or Fickle? Evaluating Large Language Models Consistency in Sequential Interactions [8.069858557211132]
大きな言語モデル(LLM)は、様々なタスクにまたがって顕著な機能を示している。
ハイテイクなドメインへのデプロイメントには、複数ラウンドにわたるユーザインタラクションの一貫性と一貫性を備えた動作が必要です。
本稿では,LLM応答整合性の評価と改善のための総合的なフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-28T11:49:56Z) - Value Compass Benchmarks: A Platform for Fundamental and Validated Evaluation of LLMs Values [76.70893269183684]
大きな言語モデル(LLM)は驚くべきブレークスルーを達成する。
価値を人間に合わせることは 責任ある開発に欠かせないものになっています
3つの望ましい目標を達成するLLMの評価はいまだに欠けている。
論文 参考訳(メタデータ) (2025-01-13T05:53:56Z) - Exploring and Benchmarking the Planning Capabilities of Large Language Models [57.23454975238014]
この研究は、大規模言語モデル(LLM)の計画能力を改善するための基礎を築いた。
我々は、古典的な計画ベンチマークと自然言語シナリオの両方を含む包括的なベンチマークスイートを構築した。
本研究は,LLM計画の強化を目的としたマルチショットインコンテキスト学習について検討し,文脈長の増大と計画性能の向上の関係について検討する。
論文 参考訳(メタデータ) (2024-06-18T22:57:06Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。