論文の概要: Trust as Monitoring: Evolutionary Dynamics of User Trust and AI Developer Behaviour
- arxiv url: http://arxiv.org/abs/2603.24742v1
- Date: Wed, 25 Mar 2026 19:04:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:47.95158
- Title: Trust as Monitoring: Evolutionary Dynamics of User Trust and AI Developer Behaviour
- Title(参考訳): 監視としての信頼 - ユーザ信頼とAI開発者の行動の進化的ダイナミクス
- Authors: Adeela Bashir, Zhao Song, Ndidi Bianca Ogbo, Nataliya Balabanova, Martin Smit, Chin-wing Leung, Paolo Bova, Manuel Chica Serrano, Dhanushka Dissanayake, Manh Hong Duong, Elias Fernandez Domingos, Nikita Huber-Kralj, Marcus Krellner, Andrew Powell, Stefan Sarkadi, Fernando P. Santos, Zia Ush Shamszaman, Chaimaa Tarzi, Paolo Turrini, Grace Ibukunoluwa Ufeoshi, Victor A. Vargas-Perez, Alessandro Di Stefano, Simon T. Powers, The Anh Han,
- Abstract要約: 我々は、安全と安全でないAIのユーザー信頼戦略と開発者選択が、異なるレベルの監視コストと制度体制の下でどのように共存するかを研究する。
安全でない開発への採用、安全でないが広く採用されているシステム、そして広く採用されている安全なシステムです。
- 参考スコア(独自算出の注目度): 59.27481013639016
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI safety is an increasingly urgent concern as the capabilities and adoption of AI systems grow. Existing evolutionary models of AI governance have primarily examined incentives for safe development and effective regulation, typically representing users' trust as a one-shot adoption choice rather than as a dynamic, evolving process shaped by repeated interactions. We instead model trust as reduced monitoring in a repeated, asymmetric interaction between users and AI developers, where checking AI behaviour is costly. Using evolutionary game theory, we study how user trust strategies and developer choices between safe (compliant) and unsafe (non-compliant) AI co-evolve under different levels of monitoring cost and institutional regimes. We complement the infinite-population replicator analysis with stochastic finite-population dynamics and reinforcement learning (Q-learning) simulations. Across these approaches, we find three robust long-run regimes: no adoption with unsafe development, unsafe but widely adopted systems, and safe systems that are widely adopted. Only the last is desirable, and it arises when penalties for unsafe behaviour exceed the extra cost of safety and users can still afford to monitor at least occasionally. Our results formally support governance proposals that emphasise transparency, low-cost monitoring, and meaningful sanctions, and they show that neither regulation alone nor blind user trust is sufficient to prevent evolutionary drift towards unsafe or low-adoption outcomes.
- Abstract(参考訳): AIシステムの能力と採用が拡大するにつれて、AIの安全性はますます緊急の関心事になっている。
既存のAIガバナンスの進化モデルでは、安全開発と効果的な規制のためのインセンティブを主に検討している。
代わりに、AIの振る舞いをチェックするコストがかかるユーザとAI開発者の間で、繰り返し発生する非対称なインタラクションにおいて、監視の削減として信頼をモデル化します。
進化的ゲーム理論を用いて、安全(コンプライアンス)と安全(非コンプライアンス)AIのユーザ信頼戦略と開発者選択を、異なるレベルの監視コストと制度体制の下で共進化させる方法について検討する。
本稿では,無限人口複製子解析を確率的有限人口動態と強化学習(Q-learning)シミュレーションで補完する。
これらのアプローチ全体で、安全でない開発への採用なし、安全でないが広く採用されているシステム、広く採用されている安全なシステムという、堅牢な長期体制が3つあります。
最後のものだけが望ましいものであり、安全でない行動に対する罰則が余分な安全コストを超えると、ユーザは少なくとも時々監視する余裕がある。
われわれは,透明性,低コストの監視,意味ある制裁を重視したガバナンス提案を公式に支持し,規制単独でも盲目のユーザ信頼でも,安全でない結果や低い評価結果への進化的ドリフトを防ぐには十分でないことを示した。
関連論文リスト
- When can we trust untrusted monitoring? A safety case sketch across collusion strategies [43.912646993501106]
プリデプロイテストに基づく安全性の厳格な実証方法を開発した。
我々は、受動的自己認識、因果共謀(隠蔽された信号)、因果共謀(スケジューリングポイント経由の隠蔽信号)、複合戦略を含む分類学を開発する。
論文 参考訳(メタデータ) (2026-02-24T07:23:21Z) - The Devil Behind Moltbook: Anthropic Safety is Always Vanishing in Self-Evolving AI Societies [57.387081435669835]
大規模言語モデルから構築されたマルチエージェントシステムは、スケーラブルな集合知性と自己進化のための有望なパラダイムを提供する。
エージェント社会が継続的自己進化、完全隔離、安全性の不変性を満たすことは不可能であることを示す。
我々は、特定された安全上の懸念を軽減するために、いくつかの解決方法を提案する。
論文 参考訳(メタデータ) (2026-02-10T15:18:19Z) - Do LLMs trust AI regulation? Emerging behaviour of game-theoretic LLM agents [61.132523071109354]
本稿では、異なる規制シナリオ下での戦略選択をモデル化する、AI開発者、規制当局、ユーザ間の相互作用について検討する。
我々の研究は、純粋なゲーム理論エージェントよりも「悲観的」な姿勢を採用する傾向にある戦略的AIエージェントの出現する振る舞いを特定する。
論文 参考訳(メタデータ) (2025-04-11T15:41:21Z) - Managing extreme AI risks amid rapid progress [171.05448842016125]
我々は、大規模社会被害、悪意のある使用、自律型AIシステムに対する人間の制御の不可逆的な喪失を含むリスクについて説明する。
このようなリスクがどのように発生し、どのように管理するかについては、合意の欠如があります。
現在のガバナンスイニシアチブには、誤用や無謀を防ぎ、自律システムにほとんど対処するメカニズムや制度が欠けている。
論文 参考訳(メタデータ) (2023-10-26T17:59:06Z) - A Diachronic Perspective on User Trust in AI under Uncertainty [52.44939679369428]
現代のNLPシステムは、しばしば未分類であり、ユーザの信頼を損なう確実な誤った予測をもたらす。
賭けゲームを用いて,信頼を損なう事象に対するユーザの信頼の進化について検討する。
論文 参考訳(メタデータ) (2023-10-20T14:41:46Z) - Trustworthy AI: From Principles to Practices [44.67324097900778]
多くの現在のAIシステムは、認識不能な攻撃に脆弱で、表現不足なグループに偏り、ユーザのプライバシ保護が欠如していることが判明した。
このレビューでは、信頼できるAIシステムを構築するための包括的なガイドとして、AI実践者に提供したいと思っています。
信頼に値するAIに対する現在の断片化されたアプローチを統合するために、AIシステムのライフサイクル全体を考慮した体系的なアプローチを提案する。
論文 参考訳(メタデータ) (2021-10-04T03:20:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。