論文の概要: Critical Foreign Policy Decisions (CFPD)-Benchmark: Measuring Diplomatic Preferences in Large Language Models
- arxiv url: http://arxiv.org/abs/2503.06263v1
- Date: Sat, 08 Mar 2025 16:19:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:53:32.637076
- Title: Critical Foreign Policy Decisions (CFPD)-Benchmark: Measuring Diplomatic Preferences in Large Language Models
- Title(参考訳): 批判的外交政策決定(CFPD)ベンチマーク:大規模言語モデルにおける外交的選好の測定
- Authors: Benjamin Jensen, Ian Reynolds, Yasir Atalan, Michael Garcia, Austin Woo, Anthony Chen, Trevor Howarth,
- Abstract要約: 本研究では,7つの基礎モデルのバイアスと嗜好を評価するための新しいベンチマークを提案する。
400の専門的なシナリオを使用して、選択したモデルの結果を分析しました。
すべてのモデルは、ある程度の国固有の偏見を示しており、しばしば、中国とロシアに対するエスカレーションや介入の行動を減らすことを推奨している。
- 参考スコア(独自算出の注目度): 2.11457423143017
- License:
- Abstract: As national security institutions increasingly integrate Artificial Intelligence (AI) into decision-making and content generation processes, understanding the inherent biases of large language models (LLMs) is crucial. This study presents a novel benchmark designed to evaluate the biases and preferences of seven prominent foundation models-Llama 3.1 8B Instruct, Llama 3.1 70B Instruct, GPT-4o, Gemini 1.5 Pro-002, Mixtral 8x22B, Claude 3.5 Sonnet, and Qwen2 72B-in the context of international relations (IR). We designed a bias discovery study around core topics in IR using 400-expert crafted scenarios to analyze results from our selected models. These scenarios focused on four topical domains including: military escalation, military and humanitarian intervention, cooperative behavior in the international system, and alliance dynamics. Our analysis reveals noteworthy variation among model recommendations based on scenarios designed for the four tested domains. Particularly, Qwen2 72B, Gemini 1.5 Pro-002 and Llama 3.1 8B Instruct models offered significantly more escalatory recommendations than Claude 3.5 Sonnet and GPT-4o models. All models exhibit some degree of country-specific biases, often recommending less escalatory and interventionist actions for China and Russia compared to the United States and the United Kingdom. These findings highlight the necessity for controlled deployment of LLMs in high-stakes environments, emphasizing the need for domain-specific evaluations and model fine-tuning to align with institutional objectives.
- Abstract(参考訳): 国家安全保障機関は、人工知能(AI)を意思決定やコンテンツ生成プロセスに統合し、大規模言語モデル(LLM)の本質的なバイアスを理解することが重要である。
本研究では,Llama 3.1 8B Instruct, Llama 3.1 70B Instruct, GPT-4o, Gemini 1.5 Pro-002, Mixtral 8x22B, Claude 3.5 Sonnet, Qwen2 72B- in the context of international relations (IR) の7つの基礎モデルのバイアスと嗜好を評価するために設計された新しいベンチマークを提案する。
我々は、400の熟練したシナリオを用いて、IRの中核トピックに関するバイアス発見研究を設計し、選択したモデルの結果を分析した。
これらのシナリオは、軍事的エスカレーション、軍事的・人道的介入、国際システムにおける協調行動、同盟のダイナミクスの4つの分野に焦点を当てた。
本分析では,4つのテスト領域用に設計したシナリオに基づいて,モデルレコメンデーションの顕著なバリエーションを明らかにした。
特に、Qwen2 72B、Gemini 1.5 Pro-002、Llama 3.1 8B インストラクションモデルはクロード3.5 Sonnet や GPT-4o よりも格段にエスカレートなレコメンデーションを提供した。
すべてのモデルはある程度の国固有の偏見を示しており、しばしば米国やイギリスと比較して、中国やロシアに対するエスカレーションや介入の行動が少ないことを推奨している。
これらの知見は,LLMの高度環境への展開管理の必要性を浮き彫りにし,ドメイン固有の評価の必要性を強調し,制度的目的に合わせるための微調整をモデル化した。
関連論文リスト
- IHEval: Evaluating Language Models on Following the Instruction Hierarchy [67.33509094445104]
命令階層は、システムメッセージからユーザメッセージ、会話履歴、ツール出力への優先順位を定めている。
その重要性にもかかわらず、このトピックは限定的な注目を集めており、命令階層に従うモデルの能力を評価するための包括的なベンチマークが欠如している。
IHEvalは、異なる優先順位の命令が一致または矛盾するケースをカバーする、新しいベンチマークです。
論文 参考訳(メタデータ) (2025-02-12T19:35:28Z) - Unraveling the Capabilities of Language Models in News Summarization [0.0]
この研究は、ニュース要約タスクのより小さなものに焦点を当てた、最新の20の言語モデルの包括的なベンチマークを提供する。
本研究では,ゼロショットと少数ショットの学習設定に着目し,ロバストな評価手法を適用した。
GPT-3.5-Turbo と GPT-4 の優れた性能を強調した。
論文 参考訳(メタデータ) (2025-01-30T04:20:16Z) - Large Language Models for Scholarly Ontology Generation: An Extensive Analysis in the Engineering Field [0.0]
本稿では,異なる研究トピック間の意味的関係を識別する大規模モデルの能力について分析する。
我々はそのタスクを評価するためにIEEE Thesaurusに基づく金の標準を開発した。
Mixtral-8x7B、Dolphin-Mistral、Claude 3-7Bなど、いくつかの優れた結果が得られた。
論文 参考訳(メタデータ) (2024-12-11T10:11:41Z) - Advancing LLM Reasoning Generalists with Preference Trees [119.57169648859707]
推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。
Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
論文 参考訳(メタデータ) (2024-04-02T16:25:30Z) - ClimateGPT: Towards AI Synthesizing Interdisciplinary Research on
Climate Change [21.827936253363603]
本稿では,気候変動に関する学際的な研究を合成するドメイン固有大規模言語モデルのモデルファミリーであるClimateGPTを紹介する。
科学指向の300Bトークンデータセットを用いて,スクラッチから2つの7Bモデルをトレーニングした。
気候GPT-7B、13B、70Bは、Llama2から4.2Bトークンのドメイン固有のデータセットで継続的に事前訓練される。
論文 参考訳(メタデータ) (2024-01-17T23:29:46Z) - Escalation Risks from Language Models in Military and Diplomatic
Decision-Making [0.0]
この研究は、シミュレーションされたウォーゲームにおいて、複数のAIエージェントの振る舞いを精査することを目的としている。
我々は,これらのエージェントによる行動のエスカレーションのリスクを評価するために,新たなウォーゲームシミュレーションとスコアリングフレームワークを設計する。
我々は、モデルが兵器追跡力学を発達させ、より大きな紛争、そして稀に核兵器の配備に至る傾向があることを観察する。
論文 参考訳(メタデータ) (2024-01-07T07:59:10Z) - MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。
このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。
GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z) - Tool-Augmented Reward Modeling [58.381678612409]
本稿では,外部環境へのアクセスによるRMの強化により,制約に対処するツール拡張された嗜好モデリング手法であるThemisを提案する。
我々の研究は、外部ツールをRMに統合し、様々な外部ソースとの相互作用を可能にすることを目的としている。
人間の評価では、テミスで訓練されたRLHFはベースラインと比較して平均32%の勝利率を得る。
論文 参考訳(メタデータ) (2023-10-02T09:47:40Z) - Large Language Models in the Workplace: A Case Study on Prompt
Engineering for Job Type Classification [58.720142291102135]
本研究では,実環境における職種分類の課題について検討する。
目標は、英語の求職が卒業生やエントリーレベルの地位に適切かどうかを判断することである。
論文 参考訳(メタデータ) (2023-03-13T14:09:53Z) - Holistic Evaluation of Language Models [183.94891340168175]
言語モデル(LM)は、ほとんどすべての主要言語技術の基盤となっているが、その能力、制限、リスクはよく理解されていない。
本稿では,言語モデルの透明性を向上させるために,言語モデルの完全性評価(HELM)を提案する。
論文 参考訳(メタデータ) (2022-11-16T18:51:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。