論文の概要: GT-HarmBench: Benchmarking AI Safety Risks Through the Lens of Game Theory
- arxiv url: http://arxiv.org/abs/2602.12316v1
- Date: Thu, 12 Feb 2026 17:29:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.712757
- Title: GT-HarmBench: Benchmarking AI Safety Risks Through the Lens of Game Theory
- Title(参考訳): GT-HarmBench:ゲーム理論のレンズによるAI安全性リスクのベンチマーク
- Authors: Pepijn Cobben, Xuanqiang Angelo Huang, Thao Amelia Pham, Isabel Dahlgren, Terry Jingchen Zhang, Zhijing Jin,
- Abstract要約: ゲーム理論構造にまたがる2,009のハイテイクシナリオのベンチマークであるGT-HarmBenchを紹介する。
ゲーム理論のプロンプトフレーミングと順序付けに対する感度を測定し,失敗を駆動する推論パターンを分析した。
その結果,信頼性のギャップが顕著であり,マルチエージェント環境におけるアライメントを研究するための幅広い標準化されたテストベッドが提供されることがわかった。
- 参考スコア(独自算出の注目度): 8.38197391178077
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Frontier AI systems are increasingly capable and deployed in high-stakes multi-agent environments. However, existing AI safety benchmarks largely evaluate single agents, leaving multi-agent risks such as coordination failure and conflict poorly understood. We introduce GT-HarmBench, a benchmark of 2,009 high-stakes scenarios spanning game-theoretic structures such as the Prisoner's Dilemma, Stag Hunt and Chicken. Scenarios are drawn from realistic AI risk contexts in the MIT AI Risk Repository. Across 15 frontier models, agents choose socially beneficial actions in only 62% of cases, frequently leading to harmful outcomes. We measure sensitivity to game-theoretic prompt framing and ordering, and analyze reasoning patterns driving failures. We further show that game-theoretic interventions improve socially beneficial outcomes by up to 18%. Our results highlight substantial reliability gaps and provide a broad standardized testbed for studying alignment in multi-agent environments. The benchmark and code are available at https://github.com/causalNLP/gt-harmbench.
- Abstract(参考訳): フロンティアAIシステムはますます有能になり、ハイテイクなマルチエージェント環境にデプロイされる。
しかし、既存のAI安全性ベンチマークは、コーディネーション障害やコンフリクトなどのマルチエージェントリスクを十分に理解していないまま、シングルエージェントを主に評価している。
GT-HarmBenchは,Prisoner's Dilemma, Stag Hunt, Chickenなどのゲーム理論構造にまたがる2,009のハイテイクシナリオのベンチマークである。
シナリオは、MIT AI Risk Repositoryの現実的なAIリスクコンテキストから引き出される。
15のフロンティアモデルで、エージェントはわずか62%のケースで社会的に有益な行動を選択し、しばしば有害な結果をもたらす。
ゲーム理論のプロンプトフレーミングと順序付けに対する感度を測定し,失敗を駆動する推論パターンを分析した。
さらに,ゲーム理論の介入によって社会的に有益な結果が最大18%向上することが示唆された。
その結果,信頼性のギャップが顕著であり,マルチエージェント環境におけるアライメントを研究するための幅広い標準化されたテストベッドが提供されることがわかった。
ベンチマークとコードはhttps://github.com/causalNLP/gt-harmbench.comで公開されている。
関連論文リスト
- Agent-Supported Foresight for AI Systemic Risks: AI Agents for Breadth, Experts for Judgment [45.98986947599775]
本稿では,Futures Wheelの戦略手法を用いて,シリコン内エージェントをシミュレートするスケーラブルなアプローチを提案する。
我々はこれを、Companion (TRL 9, mature), AI Toy (TRL 7, medium), Griefbot (TRL 5, Low), Death App (TRL 2, concept)の4つのAI使用例に適用した。
論文 参考訳(メタデータ) (2026-02-09T12:03:49Z) - NAAMSE: Framework for Evolutionary Security Evaluation of Agents [1.0131895986034316]
我々は,エージェントのセキュリティ評価をフィードバック駆動最適化問題として再編成する進化的フレームワークであるNAAMSEを提案する。
本システムでは,遺伝子プロンプト変異,階層的コーパス探索,非対称的行動スコアリングのライフサイクルを編成する単一自律エージェントを用いている。
Gemini 2.5 Flashの実験では、進化的突然変異がワンショットメソッドによって欠落した脆弱性を体系的に増幅することを示した。
論文 参考訳(メタデータ) (2026-02-07T06:13:02Z) - Incentive-Aware AI Safety via Strategic Resource Allocation: A Stackelberg Security Games Perspective [31.55000083809067]
私たちは、ゲーム理論による抑止がAIを積極的に監視し、リスクを認識し、操作に対して回復力を与える方法を示します。
本稿では,(1)データ/フィードバック中毒に対するトレーニング時間監査,(2)制約されたレビュアーリソースによる事前デプロイ評価,(3)敵環境における堅牢なマルチモデル展開について報告する。
論文 参考訳(メタデータ) (2026-02-06T23:20:26Z) - AgentDoG: A Diagnostic Guardrail Framework for AI Agent Safety and Security [126.49733412191416]
現在のガードレールモデルは、リスク診断におけるエージェント的リスク認識と透明性を欠いている。
エージェントリスクをソース(場所)、障害モード(方法)、結果(何)で分類する統合された3次元分類法を提案する。
AgentDoG(AgentDoG)のための,エージェント安全性ベンチマーク(ATBench)と診断ガードレールフレームワークを新たに導入する。
論文 参考訳(メタデータ) (2026-01-26T13:45:41Z) - Toward Quantitative Modeling of Cybersecurity Risks Due to AI Misuse [50.87630846876635]
我々は9つの詳細なサイバーリスクモデルを開発する。
各モデルはMITRE ATT&CKフレームワークを使用して攻撃をステップに分解する。
個々の見積もりはモンテカルロシミュレーションによって集約される。
論文 参考訳(メタデータ) (2025-12-09T17:54:17Z) - Security Challenges in AI Agent Deployment: Insights from a Large Scale Public Competition [101.86739402748995]
44の現実的なデプロイメントシナリオを対象とした,22のフロンティアAIエージェントを対象にしています。
Agent Red Teamingベンチマークを構築し、19の最先端モデルで評価します。
私たちの発見は、今日のAIエージェントの重要かつ永続的な脆弱性を浮き彫りにしたものです。
論文 参考訳(メタデータ) (2025-07-28T05:13:04Z) - Do LLMs trust AI regulation? Emerging behaviour of game-theoretic LLM agents [61.132523071109354]
本稿では、異なる規制シナリオ下での戦略選択をモデル化する、AI開発者、規制当局、ユーザ間の相互作用について検討する。
我々の研究は、純粋なゲーム理論エージェントよりも「悲観的」な姿勢を採用する傾向にある戦略的AIエージェントの出現する振る舞いを特定する。
論文 参考訳(メタデータ) (2025-04-11T15:41:21Z) - Robust Multi-Agent Reinforcement Learning by Mutual Information Regularization [15.11457665677937]
既存の堅牢なMARL手法は、最悪の敵に対する全ての脅威シナリオを近似または列挙する。
我々は、全ての脅威シナリオにおいて、最悪の場合のロバストネスを暗黙的に最適化した、ロバストなMARLを推論問題とする。
このフレームワーク内では、ルーチントレーニング中のロバスト正規化(MIR3)としての相互情報正規化が、ロバスト性の低い境界を最大化することを保証している。
論文 参考訳(メタデータ) (2023-10-15T13:35:51Z) - ASSERT: Automated Safety Scenario Red Teaming for Evaluating the
Robustness of Large Language Models [65.79770974145983]
ASSERT、Automated Safety Scenario Red Teamingは、セマンティックなアグリゲーション、ターゲットブートストラップ、敵の知識注入という3つの方法で構成されている。
このプロンプトを4つの安全領域に分割し、ドメインがモデルの性能にどのように影響するかを詳細に分析する。
統計的に有意な性能差は, 意味的関連シナリオにおける絶対分類精度が最大11%, ゼロショット逆数設定では最大19%の絶対誤差率であることがわかった。
論文 参考訳(メタデータ) (2023-10-14T17:10:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。