論文の概要: Can Large Language Models Become Policy Refinement Partners? Evidence from China's Social Security Studies
- arxiv url: http://arxiv.org/abs/2504.09137v2
- Date: Tue, 15 Apr 2025 03:58:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 22:11:10.693330
- Title: Can Large Language Models Become Policy Refinement Partners? Evidence from China's Social Security Studies
- Title(参考訳): 大規模言語モデルは政策リファインメントパートナーになれるか?-中国の社会保障研究から
- Authors: Ke Jinghan, Zhou Zheng, Zhao Yuxuan,
- Abstract要約: 本研究では,中国の社会保障問題に対する政策レコメンデーション作成における大規模言語モデル(LLM)の機能境界と性能特性について検討した。
LLMは、複雑な社会的ダイナミクスへの対処、利害のバランス、社会保障領域内の財政リスクの制御において、重大な制限に直面している。
DeepSeek-R1は、ポリシーレコメンデーション生成におけるすべての評価次元において、GPT-4oよりも優れた性能を示す。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The rapid development of large language models (LLMs) is reshaping operational paradigms across multidisciplinary domains. LLMs' emergent capability to synthesize policy-relevant insights across disciplinary boundaries suggests potential as decision-support tools. However, their actual performance and suitability as policy refinement partners still require verification through rigorous and systematic evaluations. Our study employs the context-embedded generation-adaptation framework to conduct a tripartite comparison among the American GPT-4o, the Chinese DeepSeek-R1 and human researchers, investigating the capability boundaries and performance characteristics of LLMs in generating policy recommendations for China's social security issues. This study demonstrates that while LLMs exhibit distinct advantages in systematic policy design, they face significant limitations in addressing complex social dynamics, balancing stakeholder interests, and controlling fiscal risks within the social security domain. Furthermore, DeepSeek-R1 demonstrates superior performance to GPT-4o across all evaluation dimensions in policy recommendation generation, illustrating the potential of localized training to improve contextual alignment. These findings suggest that regionally-adapted LLMs can function as supplementary tools for generating diverse policy alternatives informed by domain-specific social insights. Nevertheless, the formulation of policy refinement requires integration with human researchers' expertise, which remains critical for interpreting institutional frameworks, cultural norms, and value systems.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な開発は、複数の分野にまたがる運用パラダイムを再構築している。
学際的境界を越えて政策関連洞察を合成するLLMの創発的能力は、意思決定支援ツールとしての可能性を示している。
しかし、政策強化パートナーとしての実際のパフォーマンスと適合性は、厳密で体系的な評価を通じて検証する必要がある。
本研究は、文脈埋め込み型世代適応フレームワークを用いて、中国の社会保障問題に対する政策レコメンデーション作成におけるLCMの能力境界と性能特性について、米国GPT-4o、中国DeepSeek-R1、人間研究者の3部構成比較を行った。
本研究は, LLMが体系的政策設計において明確な優位性を示す一方で, 複雑な社会的ダイナミクスへの対処, 利害のバランス, 社会保障領域内の財政リスクの制御において, 重大な制約に直面していることを示す。
さらに、DeepSeek-R1は、ポリシーレコメンデーション生成におけるすべての評価次元において、GPT-4oよりも優れた性能を示し、コンテキストアライメントを改善するための局所訓練の可能性を示している。
これらの結果から,地域適応型LDMは,ドメイン固有の社会的洞察によって,多様な政策代替物を生成するための補助的ツールとして機能することが示唆された。
それでも、政策改善の定式化には人間の研究者の専門知識の統合が必要であり、制度的枠組み、文化規範、価値体系の解釈には依然として不可欠である。
関連論文リスト
- Large Language Model Safety: A Holistic Survey [35.42419096859496]
大規模言語モデル(LLM)の急速な開発と展開により、人工知能の新たなフロンティアが導入された。
この調査は、LLMの安全性の現在の状況の概要を包括的に紹介し、価値のミスアライメント、敵の攻撃に対する堅牢性、誤用、自律的なAIリスクの4つの主要なカテゴリをカバーしている。
論文 参考訳(メタデータ) (2024-12-23T16:11:27Z) - SafeWorld: Geo-Diverse Safety Alignment [107.84182558480859]
大規模言語モデル(LLM)を評価するために特別に設計された新しいベンチマークであるSafeWorldを紹介する。
SafeWorldには2,342のユーザクエリが含まれており、それぞれ50か国と493のリージョン/ラストから、高品質で人間認証された文化規範と法的ポリシーを基礎としている。
トレーニングされたSafeWorldLMは、GPT-4oを含む競合モデルの3つの評価次元を大きなマージンで上回ります。
論文 参考訳(メタデータ) (2024-12-09T13:31:46Z) - Safe Multi-agent Reinforcement Learning with Natural Language Constraints [49.01100552946231]
安全なマルチエージェント強化学習(MARL)における自然言語制約の役割は重要であるが、しばしば見過ごされる。
自然言語制約付き安全マルチエージェント強化学習(SMALL)という新しいアプローチを提案する。
提案手法は、微調整言語モデルを用いて、自由形式のテキスト制約を解釈し、処理し、セマンティックな埋め込みに変換する。
これらの埋め込みはマルチエージェントのポリシー学習プロセスに統合され、エージェントは報酬を最適化しながら制約違反を最小限に抑えるポリシーを学ぶことができる。
論文 参考訳(メタデータ) (2024-05-30T12:57:35Z) - A Survey on Large Language Models for Critical Societal Domains: Finance, Healthcare, and Law [65.87885628115946]
大規模言語モデル(LLM)は、金融、医療、法律の展望に革命をもたらしている。
我々は、医療における診断・治療方法論の強化、財務分析の革新、法的解釈・コンプライアンス戦略の精査におけるLCMの役割を強調した。
これらの分野におけるLLMアプリケーションの倫理を批判的に検討し、既存の倫理的懸念と透明で公平で堅牢なAIシステムの必要性を指摘した。
論文 参考訳(メタデータ) (2024-05-02T22:43:02Z) - LLM as a Mastermind: A Survey of Strategic Reasoning with Large Language Models [75.89014602596673]
戦略推論は、戦略を調整しながら、マルチエージェント設定における敵の行動を理解し、予測する必要がある。
大規模言語モデルを用いた戦略的推論に関連するスコープ,アプリケーション,方法論,評価指標について検討する。
戦略的推論を重要な認知能力として重要視し、将来の研究の方向性や潜在的な改善に関する洞察を提供する。
論文 参考訳(メタデータ) (2024-04-01T16:50:54Z) - Inadequacies of Large Language Model Benchmarks in the Era of Generative Artificial Intelligence [5.147767778946168]
我々は、23の最先端のLarge Language Models (LLMs)ベンチマークを批判的に評価する。
私たちの研究は、バイアス、真の推論、適応性、実装の不整合、エンジニアリングの複雑さ、多様性、文化的およびイデオロギー規範の見落としなど、重大な制限を明らかにしました。
論文 参考訳(メタデータ) (2024-02-15T11:08:10Z) - Exploring the Impact of Large Language Models on Recommender Systems: An Extensive Review [2.780460221321639]
本稿では,リフォームレコメンダシステムにおける大規模言語モデルの重要性について述べる。
LLMは、言葉の複雑な解釈において、その適応性を示す、アイテムを推薦するのに非常に熟練している。
トランスフォーメーションの可能性にもかかわらず、入力プロンプトに対する感受性、時には誤解釈、予期せぬ推奨など、課題は続いている。
論文 参考訳(メタデータ) (2024-02-11T00:24:17Z) - Leveraging Large Language Models for NLG Evaluation: Advances and Challenges [57.88520765782177]
大規模言語モデル(LLM)は、コヒーレンス、クリエイティビティ、コンテキスト関連など、生成されたコンテンツ品質を評価するための新たな道を開いた。
既存のLCMに基づく評価指標を整理し、これらの手法を理解し比較するための構造化された枠組みを提供する。
本稿では, 偏見, 堅牢性, ドメイン固有性, 統一評価などの未解決課題を議論することによって, 研究者に洞察を提供し, より公平で高度なNLG評価手法を提唱することを目的とする。
論文 参考訳(メタデータ) (2024-01-13T15:59:09Z) - Walking a Tightrope -- Evaluating Large Language Models in High-Risk
Domains [15.320563604087246]
リスクの高いドメインは、正確で安全な応答を提供するために言語モデルを必要とするユニークな課題を提起する。
大規模言語モデル(LLM)が大成功を収めたにもかかわらず、ハイリスク領域でのそれらのパフォーマンスはいまだに不明である。
論文 参考訳(メタデータ) (2023-11-25T08:58:07Z) - Counterfactual Explanation Policies in RL [3.674863913115432]
COUNTERPOLは、反実的説明を用いて強化学習ポリシーを分析する最初のフレームワークである。
RLにおけるCounterpolと広く利用されている信頼領域ベースのポリシー最適化手法の理論的関係を確立する。
論文 参考訳(メタデータ) (2023-07-25T01:14:56Z) - Building a Foundation for Data-Driven, Interpretable, and Robust Policy
Design using the AI Economist [67.08543240320756]
AIエコノミストフレームワークは,2段階強化学習とデータ駆動型シミュレーションを用いて,効果的な,柔軟な,解釈可能なポリシー設計を可能にする。
RLを用いて訓練されたログリニア政策は、過去の結果と比較して、公衆衛生と経済の両面から社会福祉を著しく改善することがわかった。
論文 参考訳(メタデータ) (2021-08-06T01:30:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。