論文の概要: Incentive-Aware AI Safety via Strategic Resource Allocation: A Stackelberg Security Games Perspective
- arxiv url: http://arxiv.org/abs/2602.07259v1
- Date: Fri, 06 Feb 2026 23:20:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.531479
- Title: Incentive-Aware AI Safety via Strategic Resource Allocation: A Stackelberg Security Games Perspective
- Title(参考訳): 戦略的リソース割り当てによるAIのインセンティブを意識した安全性:Stackelbergのセキュリティゲームの視点から
- Authors: Cheol Woo Kim, Davin Choo, Tzeh Yuan Neoh, Milind Tambe,
- Abstract要約: 私たちは、ゲーム理論による抑止がAIを積極的に監視し、リスクを認識し、操作に対して回復力を与える方法を示します。
本稿では,(1)データ/フィードバック中毒に対するトレーニング時間監査,(2)制約されたレビュアーリソースによる事前デプロイ評価,(3)敵環境における堅牢なマルチモデル展開について報告する。
- 参考スコア(独自算出の注目度): 31.55000083809067
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As AI systems grow more capable and autonomous, ensuring their safety and reliability requires not only model-level alignment but also strategic oversight of the humans and institutions involved in their development and deployment. Existing safety frameworks largely treat alignment as a static optimization problem (e.g., tuning models to desired behavior) while overlooking the dynamic, adversarial incentives that shape how data are collected, how models are evaluated, and how they are ultimately deployed. We propose a new perspective on AI safety grounded in Stackelberg Security Games (SSGs): a class of game-theoretic models designed for adversarial resource allocation under uncertainty. By viewing AI oversight as a strategic interaction between defenders (auditors, evaluators, and deployers) and attackers (malicious actors, misaligned contributors, or worst-case failure modes), SSGs provide a unifying framework for reasoning about incentive design, limited oversight capacity, and adversarial uncertainty across the AI lifecycle. We illustrate how this framework can inform (1) training-time auditing against data/feedback poisoning, (2) pre-deployment evaluation under constrained reviewer resources, and (3) robust multi-model deployment in adversarial environments. This synthesis bridges algorithmic alignment and institutional oversight design, highlighting how game-theoretic deterrence can make AI oversight proactive, risk-aware, and resilient to manipulation.
- Abstract(参考訳): AIシステムがより有能で自律的になるにつれて、その安全性と信頼性を保証するには、モデルレベルのアライメントだけでなく、開発とデプロイメントに関わる人間や機関の戦略的監視も必要になります。
既存の安全フレームワークは、アライメントを静的な最適化問題(例えば、望ましい振る舞いにモデルをチューニングするなど)として扱う一方で、データの収集方法、モデルの評価方法、最終的にどのようにデプロイされるかといった、動的で敵対的なインセンティブを見極めています。
そこで我々は,Stackelberg Security Games (SSGs) におけるAI安全性に関する新たな視点を提案する。
AI監視をディフェンダー(監査者、評価者、デプロイ者)とアタッカー(悪質なアクター、不正なコントリビュータ、最悪のケースの障害モード)の戦略的相互作用と見なすことで、SSGはインセンティブ設計、限られた監視能力、AIライフサイクル全体にわたる敵の不確実性を推論するための統一的なフレームワークを提供する。
本稿では,(1)データ/フィードバック中毒に対するトレーニング時間監査,(2)制約されたレビュアーリソースによる事前デプロイ評価,(3)敵環境における堅牢なマルチモデル展開について報告する。
この合成はアルゴリズムのアライメントと制度的な監視設計を橋渡しし、ゲーム理論の抑止がAIの監視を積極的にし、リスクを意識し、操作に対して回復力のあるものにする方法を強調している。
関連論文リスト
- AI Deception: Risks, Dynamics, and Controls [153.71048309527225]
このプロジェクトは、AI偽装分野の包括的で最新の概要を提供する。
我々は、動物の偽装の研究からシグナル伝達理論に基づく、AI偽装の正式な定義を同定する。
我々は,AI偽装研究の展望を,偽装発生と偽装処理の2つの主要な構成要素からなる偽装サイクルとして整理する。
論文 参考訳(メタデータ) (2025-11-27T16:56:04Z) - ANNIE: Be Careful of Your Robots [48.89876809734855]
エンボディドAIシステムに対する敵の安全攻撃に関する最初の体系的研究について述べる。
すべての安全カテゴリーで攻撃の成功率は50%を超えている。
結果は、実証済みのAIシステムにおいて、これまで未調査だったが、非常に連続的な攻撃面を露呈する。
論文 参考訳(メタデータ) (2025-09-03T15:00:28Z) - Governable AI: Provable Safety Under Extreme Threat Models [31.36879992618843]
我々は、従来の内部制約から外部に強制された構造コンプライアンスに移行するGAI(Governable AI)フレームワークを提案する。
GAIフレームワークは、シンプルで信頼性が高く、完全に決定論的で、強力で、柔軟性があり、汎用的なルール執行モジュール(REM)、ガバナンスルール、AIによる妥協やサブバージョンに対するエンドツーエンドの保護を提供する、統制可能なセキュアなスーパープラットフォーム(GSSP)で構成されている。
論文 参考訳(メタデータ) (2025-08-28T04:22:59Z) - Never Compromise to Vulnerabilities: A Comprehensive Survey on AI Governance [211.5823259429128]
本研究は,本質的セキュリティ,デリバティブ・セキュリティ,社会倫理の3つの柱を中心に構築された,技術的・社会的次元を統合した包括的枠組みを提案する。
我々は,(1)防衛が進化する脅威に対して失敗する一般化ギャップ,(2)現実世界のリスクを無視する不適切な評価プロトコル,(3)矛盾する監視につながる断片的な規制,の3つの課題を特定する。
私たちのフレームワークは、研究者、エンジニア、政策立案者に対して、堅牢でセキュアなだけでなく、倫理的に整合性があり、公的な信頼に値するAIシステムを開発するための実用的なガイダンスを提供します。
論文 参考訳(メタデータ) (2025-08-12T09:42:56Z) - Neurodivergent Influenceability as a Contingent Solution to the AI Alignment Problem [1.3905735045377272]
AIアライメント問題は、人工知能(AI)システムが人間の価値観に従って行動することを保証することに重点を置いている。
狭義のAIからAI(Artificial General Intelligence, AGI)やスーパーインテリジェンス(Superintelligence, 超知能)への進化に伴い、制御に対する恐怖と現実的なリスクがエスカレートした。
ここでは、避けられないAIのミスアライメントを受け入れることが、競合するエージェントの動的なエコシステムを育むための緊急戦略であるかどうかを検討する。
論文 参考訳(メタデータ) (2025-05-05T11:33:18Z) - Graph of Effort: Quantifying Risk of AI Usage for Vulnerability Assessment [0.0]
非AI資産を攻撃するために使用されるAIは、攻撃的AIと呼ばれる。
高度な自動化や複雑なパターン認識など、その能力を利用するリスクは大幅に増大する可能性がある。
本稿では,攻撃的AIを敵による脆弱性攻撃に使用するために必要な労力を分析するための,直感的でフレキシブルで効果的な脅威モデリング手法であるGraph of Effortを紹介する。
論文 参考訳(メタデータ) (2025-03-20T17:52:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。