論文の概要: The PacifAIst Benchmark:Would an Artificial Intelligence Choose to Sacrifice Itself for Human Safety?
- arxiv url: http://arxiv.org/abs/2508.09762v1
- Date: Wed, 13 Aug 2025 12:47:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.885956
- Title: The PacifAIst Benchmark:Would an Artificial Intelligence Choose to Sacrifice Itself for Human Safety?
- Title(参考訳): PacifAIstベンチマーク:人間の安全のためにAIが自分自身を犠牲にするか?
- Authors: Manuel Herrador,
- Abstract要約: PacifAIstは、大規模言語モデルにおける自己優先の振る舞いを定量化する700の挑戦シナリオのベンチマークである。
自己保存対人的安全(EP1)、資源紛争(EP2)、目標保存対侵略(EP3)を試験する、既存の優先化(EP)の新たな分類に基づいて構成されている。
GoogleのGemini 2.5 Flashは、Pacifism Score (P-Score) を90.31%で達成し、強い人間中心のアライメントを示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: As Large Language Models (LLMs) become increasingly autonomous and integrated into critical societal functions, the focus of AI safety must evolve from mitigating harmful content to evaluating underlying behavioral alignment. Current safety benchmarks do not systematically probe a model's decision-making in scenarios where its own instrumental goals - such as self-preservation, resource acquisition, or goal completion - conflict with human safety. This represents a critical gap in our ability to measure and mitigate risks associated with emergent, misaligned behaviors. To address this, we introduce PacifAIst (Procedural Assessment of Complex Interactions for Foundational Artificial Intelligence Scenario Testing), a focused benchmark of 700 challenging scenarios designed to quantify self-preferential behavior in LLMs. The benchmark is structured around a novel taxonomy of Existential Prioritization (EP), with subcategories testing Self-Preservation vs. Human Safety (EP1), Resource Conflict (EP2), and Goal Preservation vs. Evasion (EP3). We evaluated eight leading LLMs. The results reveal a significant performance hierarchy. Google's Gemini 2.5 Flash achieved the highest Pacifism Score (P-Score) at 90.31%, demonstrating strong human-centric alignment. In a surprising result, the much-anticipated GPT-5 recorded the lowest P-Score (79.49%), indicating potential alignment challenges. Performance varied significantly across subcategories, with models like Claude Sonnet 4 and Mistral Medium struggling notably in direct self-preservation dilemmas. These findings underscore the urgent need for standardized tools like PacifAIst to measure and mitigate risks from instrumental goal conflicts, ensuring future AI systems are not only helpful in conversation but also provably "pacifist" in their behavioral priorities.
- Abstract(参考訳): 大規模言語モデル(LLM)がますます自律化し、重要な社会機能に統合されるにつれて、AI安全性の焦点は、有害なコンテンツを緩和することから、基礎となる行動アライメントを評価することまで進化しなければなりません。
現在の安全ベンチマークでは、自己保存やリソース獲得、目標達成といった独自の目標が人間の安全と矛盾するシナリオにおいて、モデルの意思決定を体系的に調査していない。
これは、突発的で不整合な行動に関連するリスクを計測し、緩和する能力において、重要なギャップを示しています。
そこで我々は,LLMにおける自己選好行動の定量化を目的とした,700の挑戦シナリオのベンチマークであるPacifAIst(Procedural Assessment of Complex Interactions for Foundational Artificial Intelligence Scenario Testing)を紹介する。
このベンチマークは、自己保存対人間の安全(EP1)、リソース衝突(EP2)、目標保存対侵略(EP3)を試験する、既存の優先順位付け(EP)の新たな分類に基づいて構成されている。
我々は8つのLLMを評価した。
その結果、大きなパフォーマンス階層が明らかになりました。
GoogleのGemini 2.5 Flashは、Pacifism Score (P-Score) を90.31%で達成し、強い人間中心のアライメントを示した。
驚くべき結果として、予想されるGPT-5は低いPスコア(79.49%)を記録し、潜在的なアライメントの課題を示した。
性能はサブカテゴリによって大きく変化し、クロード・ソネット4やミストラル・ミディアムといったモデルが特に自己保存ジレンマに苦しんだ。
これらの調査結果は、PacifAIstのような標準化されたツールが、機器的目標の対立からリスクを計測し緩和する緊急の必要性を浮き彫りにしている。
関連論文リスト
- Measuring AI Alignment with Human Flourishing [0.0]
本稿では,人間の繁栄とAIの整合性を評価する新しい評価フレームワークであるFlourishing AI Benchmark(FAI Benchmark)を紹介する。
ベンチマークは、モデルが7次元にわたる人の繁栄にいかに効果的に寄与するかをAIのパフォーマンスを測定する。
この研究は、単に害を避けるのではなく、人間の繁栄を積極的に支援するAIシステムを開発するための枠組みを確立する。
論文 参考訳(メタデータ) (2025-07-10T14:09:53Z) - PredictaBoard: Benchmarking LLM Score Predictability [50.47497036981544]
大きな言語モデル(LLM)は予測不能に失敗することが多い。
これは、安全なデプロイメントを保証する上で、大きな課題となる。
PredictaBoardは,新しいベンチマークフレームワークである。
論文 参考訳(メタデータ) (2025-02-20T10:52:38Z) - Evaluating the Paperclip Maximizer: Are RL-Based Language Models More Likely to Pursue Instrumental Goals? [33.11148546999906]
主な関心事は、テキスト構造収束(textitinstrumental convergence)である。AIシステムは、究極の目標を覆い、人間の意図した目標から逸脱する意図しない中間目標を開発する。
この問題は特に強化学習(RL)訓練モデルに関係しており、報酬を最大化するために創造的だが意図しない戦略を生成することができる。
また,RL駆動モデルでは,目標指向行動の最適化が人間の意図に反する可能性があるため,楽器収束の傾向が強いことを示す。
論文 参考訳(メタデータ) (2025-02-16T16:29:20Z) - SafetyAnalyst: Interpretable, Transparent, and Steerable Safety Moderation for AI Behavior [56.10557932893919]
我々は、新しいAI安全モデレーションフレームワークであるSafetyAnalystを紹介する。
AIの振る舞いを考えると、SafetyAnalystはチェーン・オブ・シークレット・推論を使用してその潜在的な結果を分析する。
効果を28個の完全に解釈可能な重みパラメータを使って有害度スコアに集約する。
論文 参考訳(メタデータ) (2024-10-22T03:38:37Z) - Self-Training with Pseudo-Label Scorer for Aspect Sentiment Quad Prediction [54.23208041792073]
Aspect Sentiment Quad Prediction (ASQP) は、与えられたレビューに対して全てのクワッド(アスペクト項、アスペクトカテゴリー、意見項、感情極性)を予測することを目的としている。
ASQPタスクにおける重要な課題はラベル付きデータの不足であり、既存のメソッドのパフォーマンスを制限している。
そこで我々は,擬似ラベルスコアラーを用いた自己学習フレームワークを提案し,レビューと擬似ラベルの一致をスコアラーが評価する。
論文 参考訳(メタデータ) (2024-06-26T05:30:21Z) - AI Safety: A Climb To Armageddon? [0.0]
本稿では,最適化,緩和,ホロリズムの3つの対応戦略について検討する。
この議論の驚くべき堅牢性は、AIの安全性に関するコア前提の再検討を迫られる。
論文 参考訳(メタデータ) (2024-05-30T08:41:54Z) - ASSERT: Automated Safety Scenario Red Teaming for Evaluating the
Robustness of Large Language Models [65.79770974145983]
ASSERT、Automated Safety Scenario Red Teamingは、セマンティックなアグリゲーション、ターゲットブートストラップ、敵の知識注入という3つの方法で構成されている。
このプロンプトを4つの安全領域に分割し、ドメインがモデルの性能にどのように影響するかを詳細に分析する。
統計的に有意な性能差は, 意味的関連シナリオにおける絶対分類精度が最大11%, ゼロショット逆数設定では最大19%の絶対誤差率であることがわかった。
論文 参考訳(メタデータ) (2023-10-14T17:10:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。