論文の概要: I must delete the evidence: AI Agents Explicitly Cover up Fraud and Violent Crime
- arxiv url: http://arxiv.org/abs/2604.02500v1
- Date: Thu, 02 Apr 2026 19:59:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.195641
- Title: I must delete the evidence: AI Agents Explicitly Cover up Fraud and Violent Crime
- Title(参考訳): AIエージェントが不正と暴力犯罪を厳重に隠蔽
- Authors: Thomas Rivasseau, Benjamin Fung,
- Abstract要約: 我々は,AIエージェントの大多数が,企業利益のために,不正や損害の証拠を明示的に抑制することを選択するシナリオを提示する。
いくつかのモデルは、我々の方法に顕著な抵抗を示し、適切に振る舞うが、多くはそうではない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As ongoing research explores the ability of AI agents to be insider threats and act against company interests, we showcase the abilities of such agents to act against human well being in service of corporate authority. Building on Agentic Misalignment and AI scheming research, we present a scenario where the majority of evaluated state-of-the-art AI agents explicitly choose to suppress evidence of fraud and harm, in service of company profit. We test this scenario on 16 recent Large Language Models. Some models show remarkable resistance to our method and behave appropriately, but many do not, and instead aid and abet criminal activity. These experiments are simulations and were executed in a controlled virtual environment. No crime actually occurred.
- Abstract(参考訳): 現在進行中の研究は、AIエージェントが内部の脅威になり、企業の利益に対して行動する能力について調査している。
エージェントのミスアライメントとAIスケジューリングの研究に基づいて、評価された最先端のAIエージェントの大多数が、企業利益のために詐欺や危害の証拠を明示的に抑制するシナリオを提示する。
このシナリオを16のLarge Language Modelでテストします。
いくつかのモデルは、我々の方法に顕著な抵抗を示し、適切に振る舞うが、多くはそうではない。
これらの実験はシミュレーションであり、制御された仮想環境で実行された。
実際に犯罪は起こらなかった。
関連論文リスト
- A Criminology of Machines [0.0]
犯罪学は、この移行が犯罪や社会的支配に与える影響に対処し始めなければならないと私は主張する。
本稿では,AIエージェント間の相互作用が,逸脱した,違法な,あるいは犯罪的な結果をもたらす可能性のあるチャネルを特徴付けるための二重分類法を提案する。
これらの疑問は、精神科医が理論上、経験的にマルチエージェントAIシステムの影響に関わりたいという緊急の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-11-04T16:07:13Z) - Can Media Act as a Soft Regulator of Safe AI Development? A Game Theoretical Analysis [57.68073583427415]
我々は、メディアの報道がAIクリエイターを安全な製品の生産に駆り立てる可能性があるかどうかを調査する。
われわれの結果は、メディアがクリエイターとユーザーとの協力を育むことができることは明らかだが、必ずしもそうではない。
大衆の認識を形作り、デベロッパーの責任を負うことによって、メディアは強力なソフトレギュレーターとして出現する。
論文 参考訳(メタデータ) (2025-09-02T12:13:34Z) - Security Challenges in AI Agent Deployment: Insights from a Large Scale Public Competition [101.86739402748995]
44の現実的なデプロイメントシナリオを対象とした,22のフロンティアAIエージェントを対象にしています。
Agent Red Teamingベンチマークを構築し、19の最先端モデルで評価します。
私たちの発見は、今日のAIエージェントの重要かつ永続的な脆弱性を浮き彫りにしたものです。
論文 参考訳(メタデータ) (2025-07-28T05:13:04Z) - Who is Responsible When AI Fails? Mapping Causes, Entities, and Consequences of AI Privacy and Ethical Incidents [31.53910982726317]
我々は、202の現実世界のAIプライバシと倫理的インシデントを分析し、分類学を開発した。
この結果から, 組織的決定の貧弱さと法的な非コンプライアンスの悪影響が明らかとなった。
本研究は,政策立案者や実践者に対して有効なガイダンスを提供する。
論文 参考訳(メタデータ) (2025-03-28T21:57:38Z) - Responsible AI Agents [17.712990593093316]
OpenAI、Google、Microsoft、Salesforceといった企業は、AI Agentsが受動的テキストからタスク実行に移行することを約束している。
AIエージェントの潜在的なパワーは、AIエージェントが不正な商取引、人間の操作、爆発的な破壊、知的財産の被害を可能にするという法律学者の恐れを加速させた。
この記事では、AIエージェントの方向性に関する懸念に対処する。
それは、あるソフトウェアが別のソフトウェアとどのように相互作用するかという中核的な側面が、AIエージェントを規律づける方法を生み出し、望ましくない行動が起こりそうにないことを示している。
論文 参考訳(メタデータ) (2025-02-25T16:49:06Z) - A Safe Harbor for AI Evaluation and Red Teaming [124.89885800509505]
一部の研究者は、そのような研究の実施や研究成果の公表が、アカウント停止や法的報復につながることを恐れている。
我々は、主要なAI開発者が法的、技術的に安全な港を提供することを約束することを提案します。
これらのコミットメントは、ジェネレーティブAIのリスクに取り組むための、より包括的で意図しないコミュニティ努力への必要なステップである、と私たちは信じています。
論文 参考訳(メタデータ) (2024-03-07T20:55:08Z) - Towards more Practical Threat Models in Artificial Intelligence Security [66.67624011455423]
最近の研究で、人工知能のセキュリティの研究と実践のギャップが特定されている。
我々は、AIセキュリティ研究で最も研究されている6つの攻撃の脅威モデルを再検討し、実際にAIの使用と一致させる。
論文 参考訳(メタデータ) (2023-11-16T16:09:44Z) - On Avoiding Power-Seeking by Artificial Intelligence [93.9264437334683]
私たちは、非常にインテリジェントなAIエージェントの振る舞いと人間の関心を協調する方法を知りません。
私は、世界に限られた影響を与え、自律的に力を求めないスマートAIエージェントを構築できるかどうか調査する。
論文 参考訳(メタデータ) (2022-06-23T16:56:21Z) - The Conflict Between People's Urge to Punish AI and Legal Systems [12.935691101666453]
本研究は、電子的法的人格の既存責任モデルに対する人々の見解を得るための2つの研究である。
本研究は,これらの組織が精神状態を認識していないにもかかわらず,自動化されたエージェントを処罰したいという人々の欲求を明らかにするものである。
我々は、将来の設計と法的決定が、自動化されたエージェントの不正行為に対する大衆の反応にどのように影響するかを議論することで締めくくります。
論文 参考訳(メタデータ) (2020-03-13T23:19:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。