Fugu-MT 論文翻訳(概要): Can Large Language Models Become Policy Refinement Partners? Evidence from China's Social Security Studies

論文の概要: Can Large Language Models Become Policy Refinement Partners? Evidence from China's Social Security Studies

arxiv url: http://arxiv.org/abs/2504.09137v2
Date: Tue, 15 Apr 2025 03:58:51 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-24 13:29:00.274342
Title: Can Large Language Models Become Policy Refinement Partners? Evidence from China's Social Security Studies
Title（参考訳）: 大規模言語モデルは政策リファインメントパートナーになれるか?-中国の社会保障研究から
Authors: Ke Jinghan, Zhou Zheng, Zhao Yuxuan,
Abstract要約: 本研究では,中国の社会保障問題に対する政策レコメンデーション作成における大規模言語モデル(LLM)の機能境界と性能特性について検討した。 LLMは、複雑な社会的ダイナミクスへの対処、利害のバランス、社会保障領域内の財政リスクの制御において、重大な制限に直面している。 DeepSeek-R1は、ポリシーレコメンデーション生成におけるすべての評価次元において、GPT-4oよりも優れた性能を示す。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The rapid development of large language models (LLMs) is reshaping operational paradigms across multidisciplinary domains. LLMs' emergent capability to synthesize policy-relevant insights across disciplinary boundaries suggests potential as decision-support tools. However, their actual performance and suitability as policy refinement partners still require verification through rigorous and systematic evaluations. Our study employs the context-embedded generation-adaptation framework to conduct a tripartite comparison among the American GPT-4o, the Chinese DeepSeek-R1 and human researchers, investigating the capability boundaries and performance characteristics of LLMs in generating policy recommendations for China's social security issues. This study demonstrates that while LLMs exhibit distinct advantages in systematic policy design, they face significant limitations in addressing complex social dynamics, balancing stakeholder interests, and controlling fiscal risks within the social security domain. Furthermore, DeepSeek-R1 demonstrates superior performance to GPT-4o across all evaluation dimensions in policy recommendation generation, illustrating the potential of localized training to improve contextual alignment. These findings suggest that regionally-adapted LLMs can function as supplementary tools for generating diverse policy alternatives informed by domain-specific social insights. Nevertheless, the formulation of policy refinement requires integration with human researchers' expertise, which remains critical for interpreting institutional frameworks, cultural norms, and value systems.
Abstract（参考訳）: 大規模言語モデル(LLM)の急速な開発は、複数の分野にまたがる運用パラダイムを再構築している。学際的境界を越えて政策関連洞察を合成するLLMの創発的能力は、意思決定支援ツールとしての可能性を示している。しかし、政策強化パートナーとしての実際のパフォーマンスと適合性は、厳密で体系的な評価を通じて検証する必要がある。本研究は、文脈埋め込み型世代適応フレームワークを用いて、中国の社会保障問題に対する政策レコメンデーション作成におけるLCMの能力境界と性能特性について、米国GPT-4o、中国DeepSeek-R1、人間研究者の3部構成比較を行った。本研究は, LLMが体系的政策設計において明確な優位性を示す一方で, 複雑な社会的ダイナミクスへの対処, 利害のバランス, 社会保障領域内の財政リスクの制御において, 重大な制約に直面していることを示す。さらに、DeepSeek-R1は、ポリシーレコメンデーション生成におけるすべての評価次元において、GPT-4oよりも優れた性能を示し、コンテキストアライメントを改善するための局所訓練の可能性を示している。これらの結果から,地域適応型LDMは,ドメイン固有の社会的洞察によって,多様な政策代替物を生成するための補助的ツールとして機能することが示唆された。それでも、政策改善の定式化には人間の研究者の専門知識の統合が必要であり、制度的枠組み、文化規範、価値体系の解釈には依然として不可欠である。

関連論文リスト

Scaling Policy Compliance Assessment in Language Models with Policy Reasoning Traces [12.671657542087624]
ポリシー推論トレース(英: Policy Reasoning Traces、PRT)は、LLMのポリシーコンプライアンスアセスメント能力を改善するための推論ブリッジとして機能する、特殊化された推論チェーンの一形態である。実験により, PRTを推論時間とトレーニング時間の両方のシナリオに使用することにより, オープンウェイトモデルと商用モデルの性能が著しく向上することが示された。
論文参考訳（メタデータ） (2025-09-27T13:10:21Z)
What Would an LLM Do? Evaluating Policymaking Capabilities of Large Language Models [13.022045946656661]
本稿は,大規模言語モデル(LLM)が,ホームレスの緩和をテーマとした社会政策決定に,ドメインエキスパートと協調しているかどうかを評価する。 4つの地域をまたいだ政策選択を伴う意思決定シナリオからなる新しいベンチマークを開発する。本稿では,ベンチマークされたポリシーをエージェントベースモデルに接続する自動パイプラインを提案する。
論文参考訳（メタデータ） (2025-09-04T02:28:58Z)
Alignment and Safety in Large Language Models: Safety Mechanisms, Training Paradigms, and Emerging Challenges [47.14342587731284]
本調査では,大規模言語モデル(LLM)アライメントにおけるアライメント手法,トレーニングプロトコル,経験的発見について概観する。我々は多種多様なパラダイムをまたいだアライメント手法の開発を分析し、コアアライメント目標間の基本的なトレードオフを特徴づける。我々は、直接選好最適化(DPO)、構成AI、脳インスパイアされた方法、アライメント不確実性定量化(AUQ)など、最先端技術について議論する。
論文参考訳（メタデータ） (2025-07-25T20:52:58Z)
The Scales of Justitia: A Comprehensive Survey on Safety Evaluation of LLMs [57.1838332916627]
大規模言語モデル(LLM)は自然言語処理(NLP)において顕著な能力を示している。広範囲に展開したことにより、大きな安全上の懸念がもたらされた。 LLMの生成したコンテンツは、特に敵の文脈において、毒性、偏見、誤情報などの安全でない振る舞いを示す。
論文参考訳（メタデータ） (2025-06-06T05:50:50Z)
Policy Regularization on Globally Accessible States in Cross-Dynamics Reinforcement Learning [53.9544543607396]
我々は、報酬レンダリングとImitation from Observation (IfO)を統合した新しいフレームワークを提案する。異なる方法でF距離をインスタンス化することにより、2つの理論的解析を導き、アクセシブルステート指向ポリシー規則化(ASOR)と呼ばれる実用的なアルゴリズムを開発する。 ASOR は、オフライン RL やオフライン RL など、様々なアプローチ RL に組み込まれる一般的なアドオンモジュールとして機能する。
論文参考訳（メタデータ） (2025-03-10T03:50:20Z)
A Survey on Post-training of Large Language Models [185.51013463503946]
大規模言語モデル(LLM)は、自然言語処理を根本的に変革し、会話システムから科学的探索まで、さまざまな領域で欠かせないものにしている。これらの課題は、制限された推論能力、倫理的不確実性、最適なドメイン固有のパフォーマンスといった欠点に対処するために、先進的な訓練後言語モデル(PoLM)を必要とする。本稿では,5つのコアパラダイムにまたがるPoLMの進化を体系的に追跡する,最初の包括的調査について述べる。
論文参考訳（メタデータ） (2025-03-08T05:41:42Z)
Between Innovation and Oversight: A Cross-Regional Study of AI Risk Management Frameworks in the EU, U.S., UK, and China [0.0]
本稿では、欧州連合、米国、英国(イギリス)、中国におけるAIリスク管理戦略の比較分析を行う。この結果は、EUが透明性と適合性の評価を優先する構造化されたリスクベースの枠組みを実装していることを示している。米国は、イノベーションを促進するが、断片化された執行につながる可能性のある、分権化されたセクター固有の規制を使用している。
論文参考訳（メタデータ） (2025-02-25T18:52:17Z)
Large Language Model Safety: A Holistic Survey [35.42419096859496]
大規模言語モデル(LLM)の急速な開発と展開により、人工知能の新たなフロンティアが導入された。この調査は、LLMの安全性の現在の状況の概要を包括的に紹介し、価値のミスアライメント、敵の攻撃に対する堅牢性、誤用、自律的なAIリスクの4つの主要なカテゴリをカバーしている。
論文参考訳（メタデータ） (2024-12-23T16:11:27Z)
Safe Multi-agent Reinforcement Learning with Natural Language Constraints [49.01100552946231]
安全なマルチエージェント強化学習(MARL)における自然言語制約の役割は重要であるが、しばしば見過ごされる。自然言語制約付き安全マルチエージェント強化学習(SMALL)という新しいアプローチを提案する。提案手法は、微調整言語モデルを用いて、自由形式のテキスト制約を解釈し、処理し、セマンティックな埋め込みに変換する。これらの埋め込みはマルチエージェントのポリシー学習プロセスに統合され、エージェントは報酬を最適化しながら制約違反を最小限に抑えるポリシーを学ぶことができる。
論文参考訳（メタデータ） (2024-05-30T12:57:35Z)
A Survey on Large Language Models for Critical Societal Domains: Finance, Healthcare, and Law [65.87885628115946]
大規模言語モデル(LLM)は、金融、医療、法律の展望に革命をもたらしている。我々は、医療における診断・治療方法論の強化、財務分析の革新、法的解釈・コンプライアンス戦略の精査におけるLCMの役割を強調した。これらの分野におけるLLMアプリケーションの倫理を批判的に検討し、既存の倫理的懸念と透明で公平で堅牢なAIシステムの必要性を指摘した。
論文参考訳（メタデータ） (2024-05-02T22:43:02Z)
LLM as a Mastermind: A Survey of Strategic Reasoning with Large Language Models [75.89014602596673]
戦略推論は、戦略を調整しながら、マルチエージェント設定における敵の行動を理解し、予測する必要がある。大規模言語モデルを用いた戦略的推論に関連するスコープ,アプリケーション,方法論,評価指標について検討する。戦略的推論を重要な認知能力として重要視し、将来の研究の方向性や潜在的な改善に関する洞察を提供する。
論文参考訳（メタデータ） (2024-04-01T16:50:54Z)
Inadequacies of Large Language Model Benchmarks in the Era of Generative Artificial Intelligence [5.147767778946168]
我々は、23の最先端のLarge Language Models (LLMs)ベンチマークを批判的に評価する。私たちの研究は、バイアス、真の推論、適応性、実装の不整合、エンジニアリングの複雑さ、多様性、文化的およびイデオロギー規範の見落としなど、重大な制限を明らかにしました。
論文参考訳（メタデータ） (2024-02-15T11:08:10Z)
Exploring the Impact of Large Language Models on Recommender Systems: An Extensive Review [2.780460221321639]
本稿では,リフォームレコメンダシステムにおける大規模言語モデルの重要性について述べる。 LLMは、言葉の複雑な解釈において、その適応性を示す、アイテムを推薦するのに非常に熟練している。トランスフォーメーションの可能性にもかかわらず、入力プロンプトに対する感受性、時には誤解釈、予期せぬ推奨など、課題は続いている。
論文参考訳（メタデータ） (2024-02-11T00:24:17Z)
Counterfactual Explanation Policies in RL [3.674863913115432]
COUNTERPOLは、反実的説明を用いて強化学習ポリシーを分析する最初のフレームワークである。 RLにおけるCounterpolと広く利用されている信頼領域ベースのポリシー最適化手法の理論的関係を確立する。
論文参考訳（メタデータ） (2023-07-25T01:14:56Z)
Building a Foundation for Data-Driven, Interpretable, and Robust Policy Design using the AI Economist [67.08543240320756]
AIエコノミストフレームワークは,2段階強化学習とデータ駆動型シミュレーションを用いて,効果的な,柔軟な,解釈可能なポリシー設計を可能にする。 RLを用いて訓練されたログリニア政策は、過去の結果と比較して、公衆衛生と経済の両面から社会福祉を著しく改善することがわかった。
論文参考訳（メタデータ） (2021-08-06T01:30:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。