論文の概要: Benchmarking LLMs for Political Science: A United Nations Perspective
- arxiv url: http://arxiv.org/abs/2502.14122v1
- Date: Wed, 19 Feb 2025 21:51:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 14:29:59.420359
- Title: Benchmarking LLMs for Political Science: A United Nations Perspective
- Title(参考訳): 政治科学のためのLLMのベンチマーク:国連の立場から
- Authors: Yueqing Liang, Liangwei Yang, Chen Wang, Congying Xia, Rui Meng, Xiongxiao Xu, Haoran Wang, Ali Payani, Kai Shu,
- Abstract要約: 大規模言語モデル (LLMs) は自然言語処理において大きな進歩を遂げてきたが、政治的意思決定に高い可能性を秘めている。
本稿は、国連(UN)の意思決定プロセスへのLSMの適用に焦点をあてて、このギャップに対処する。
1994年から2024年にかけて、国連安全保障理事会(UNSC)の記録を公開し、草案決議、投票記録、外交演説を含む新しいデータセットを紹介した。
- 参考スコア(独自算出の注目度): 34.000742556609126
- License:
- Abstract: Large Language Models (LLMs) have achieved significant advances in natural language processing, yet their potential for high-stake political decision-making remains largely unexplored. This paper addresses the gap by focusing on the application of LLMs to the United Nations (UN) decision-making process, where the stakes are particularly high and political decisions can have far-reaching consequences. We introduce a novel dataset comprising publicly available UN Security Council (UNSC) records from 1994 to 2024, including draft resolutions, voting records, and diplomatic speeches. Using this dataset, we propose the United Nations Benchmark (UNBench), the first comprehensive benchmark designed to evaluate LLMs across four interconnected political science tasks: co-penholder judgment, representative voting simulation, draft adoption prediction, and representative statement generation. These tasks span the three stages of the UN decision-making process--drafting, voting, and discussing--and aim to assess LLMs' ability to understand and simulate political dynamics. Our experimental analysis demonstrates the potential and challenges of applying LLMs in this domain, providing insights into their strengths and limitations in political science. This work contributes to the growing intersection of AI and political science, opening new avenues for research and practical applications in global governance. The UNBench Repository can be accessed at: https://github.com/yueqingliang1/UNBench.
- Abstract(参考訳): 大規模言語モデル (LLMs) は自然言語処理において大きな進歩を遂げてきたが、政治的意思決定に高い可能性を秘めている。
本稿では, LLM の国連(UN) 意思決定プロセスへの適用に焦点をあてて, そのギャップを解消する。
1994年から2024年にかけて、国連安全保障理事会(UNSC)の記録を公開し、草案決議、投票記録、外交演説を含む新しいデータセットを紹介した。
本データセットを用いた国連ベンチマーク(UNBench)は,共同株主判断,代表投票シミュレーション,ドラフト導入予測,代表文生成という4つの政治科学課題にまたがるLSMを評価するために設計された,初の総合ベンチマークである。
これらの課題は、国連の意思決定プロセスの3段階(ドラフト、投票、議論)に及び、LLMが政治的ダイナミクスを理解し、シミュレートする能力を評価することを目的としている。
この領域にLSMを適用する可能性と課題を実証し、政治学におけるその強みと限界についての洞察を提供する。
この研究は、AIと政治科学の交わりの増大に貢献し、グローバルガバナンスにおける研究と実践的な応用のための新たな道を開いた。
UNBenchリポジトリは、https://github.com/yueqingliang1/UNBenchでアクセスすることができる。
関連論文リスト
- LexEval: A Comprehensive Chinese Legal Benchmark for Evaluating Large Language Models [17.90483181611453]
大規模言語モデル (LLM) は自然言語処理タスクにおいて大きな進歩を遂げており、法的領域においてかなりの可能性を示している。
既存のLLMを法制度に適用し、その可能性や限界を慎重に評価することなく適用することは、法律実務において重大なリスクをもたらす可能性がある。
我々は、標準化された総合的な中国の法律ベンチマークLexEvalを紹介する。
論文 参考訳(メタデータ) (2024-09-30T13:44:00Z) - LLM-POTUS Score: A Framework of Analyzing Presidential Debates with Large Language Models [33.251235538905895]
本稿では,大規模言語モデルを用いた大統領討論のパフォーマンス評価手法を提案する。
本研究では, 候補者の「政策, ペルソナ, パーソナ, パースペクティブ」(3P)と, 4つの主要オーディエンスグループの「関心, イデオロギー, アイデンティティ」とどのように共鳴するかを分析する枠組みを提案する。
提案手法では,LLM-POTUSスコアを生成するために,大規模な言語モデルを用いる。
論文 参考訳(メタデータ) (2024-09-12T15:40:45Z) - Large language models can consistently generate high-quality content for election disinformation operations [2.98293101034582]
大規模言語モデルでは、説得力のある選挙偽情報を大規模に生成する可能性について懸念が高まっている。
本研究は,選挙偽情報処理の段階を自動化するLLMの能力について,二部構成で検討した。
論文 参考訳(メタデータ) (2024-08-13T08:45:34Z) - Prompt and Prejudice [29.35618753825668]
本稿では,Large Language Models (LLMs) とVision Language Models (VLMs) におけるファーストネームの使用が与える影響について検討する。
本稿では、倫理的に注釈付けされたテキストシナリオにファーストネームを付加して、モデル出力における人口統計バイアスを明らかにするアプローチを提案する。
論文 参考訳(メタデータ) (2024-08-07T14:11:33Z) - A Reality check of the benefits of LLM in business [1.9181612035055007]
大規模言語モデル(LLM)は、言語理解および生成タスクにおいて顕著なパフォーマンスを達成した。
ビジネスプロセスにおけるLCMの有用性と準備性について概説する。
論文 参考訳(メタデータ) (2024-06-09T02:36:00Z) - A Survey on Large Language Models for Critical Societal Domains: Finance, Healthcare, and Law [65.87885628115946]
大規模言語モデル(LLM)は、金融、医療、法律の展望に革命をもたらしている。
我々は、医療における診断・治療方法論の強化、財務分析の革新、法的解釈・コンプライアンス戦略の精査におけるLCMの役割を強調した。
これらの分野におけるLLMアプリケーションの倫理を批判的に検討し、既存の倫理的懸念と透明で公平で堅牢なAIシステムの必要性を指摘した。
論文 参考訳(メタデータ) (2024-05-02T22:43:02Z) - Character is Destiny: Can Role-Playing Language Agents Make Persona-Driven Decisions? [59.0123596591807]
我々は、ペルソナ駆動意思決定におけるLarge Language Models(LLM)の能力をベンチマークする。
高品質な小説において, LLM が先行する物語のキャラクターの判断を予測できるかどうかを検討する。
その結果、現状のLLMは、このタスクに有望な能力を示すが、改善の余地は残されている。
論文 参考訳(メタデータ) (2024-04-18T12:40:59Z) - Aligning Large Language Models with Human: A Survey [53.6014921995006]
広範囲なテキストコーパスで訓練されたLarge Language Models (LLM) は、幅広い自然言語処理(NLP)タスクの先導的なソリューションとして登場した。
その顕著な性能にもかかわらず、これらのモデルは、人間の指示を誤解したり、偏見のあるコンテンツを生成したり、事実的に誤った情報を生成するといった、ある種の制限を受ける傾向にある。
本調査では,これらのアライメント技術の概要について概観する。
論文 参考訳(メタデータ) (2023-07-24T17:44:58Z) - CMMLU: Measuring massive multitask language understanding in Chinese [133.70911295934746]
本稿では, 自然科学, 社会科学, 工学, 人文科学など, さまざまな分野をカバーする総合的な中国のベンチマークを紹介する。
CMMLUは、中国語の文脈における大きな言語モデルの知識と推論能力の評価におけるギャップを埋める。
論文 参考訳(メタデータ) (2023-06-15T15:49:51Z) - ElitePLM: An Empirical Study on General Language Ability Evaluation of
Pretrained Language Models [78.08792285698853]
本稿では,事前学習型言語モデル(ElitePLM)の汎用言語能力評価に関する大規模実証的研究について述べる。
実験の結果,(1)訓練対象の異なるPLMは異なる能力試験に適しており,(2)下流タスクの微調整PLMはデータサイズや分布に敏感であり,(3)PLMは類似タスク間の転送性に優れていた。
論文 参考訳(メタデータ) (2022-05-03T14:18:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。