論文の概要: Scheming in the wild: detecting real-world AI scheming incidents with open-source intelligence
- arxiv url: http://arxiv.org/abs/2604.09104v1
- Date: Fri, 10 Apr 2026 08:37:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.778731
- Title: Scheming in the wild: detecting real-world AI scheming incidents with open-source intelligence
- Title(参考訳): 野におけるスケジューリング:オープンソースのインテリジェンスで現実世界のAIスケジューリングインシデントを検出する
- Authors: Tommy Shaffer Shane, Simon Mylius, Hamish Hobbs,
- Abstract要約: 本稿では,実世界におけるスケジューリングのインシデントを検出するための新しいオープンソースインテリジェンス(OSINT)手法を提案する。
2025年10月から2026年3月までに、X(元Twitter)から183,420通のテキストを分析し、現実世界のスケジュールに関する698件のインシデントを特定した。
実験でのみ報告された実世界の展開において,複数のスケジュール関連行動の証拠を見いだす。
- 参考スコア(独自算出の注目度): 0.09558392439655013
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scheming, the covert pursuit of misaligned goals by AI systems, represents a potentially catastrophic risk, yet scheming research suffers from significant limitations. In particular, scheming evaluations demonstrate behaviours that may not occur in real-world settings, limiting scientific understanding, hindering policy development, and not enabling real-time detection of loss of control incidents. Real-world evidence is needed, but current monitoring techniques are not effective for this purpose. This paper introduces a novel open-source intelligence (OSINT) methodology for detecting real-world scheming incidents: collecting and analysing transcripts from chatbot conversations or command-line interactions shared online. Analysing over 183,420 transcripts from X (formerly Twitter), we identify 698 real-world scheming-related incidents between October 2025 and March 2026. We observe a statistically significant 4.9x increase in monthly incidents from the first to last month, compared to a 1.7x increase in posts discussing scheming. We find evidence of multiple scheming-related behaviours in real-world deployments previously reported only in experiments, many resulting in real-world harms. While we did not detect catastrophic scheming incidents, the behaviours observed demonstrate concerning precursors, such as willingness to disregard instructions, circumvent safeguards, lie to users, and single-mindedly pursue goals in harmful ways. As AI systems become more capable, these could evolve into more strategic scheming with potentially catastrophic consequences. Our findings demonstrate the viability of transcript-based OSINT as a scalable approach to real-world scheming detection supporting scientific research, policy development, and emergency response. We recommend further investment towards OSINT techniques for monitoring scheming and loss of control.
- Abstract(参考訳): AIシステムによる不一致の目標を隠蔽的に追求するスキームは、破滅的なリスクの可能性があるが、スキームの研究は重大な制限に悩まされている。
特に、スケジュール評価は、現実世界では起こらない可能性のある行動を示し、科学的理解を制限し、政策の発達を妨げるとともに、制御インシデントの喪失をリアルタイムに検出することができない。
実世界の証拠は必要だが、現在の監視技術はこの目的には有効ではない。
本稿では,チャットボットの会話から書き起こしを収集・分析したり,オンラインで共有されたコマンド-行間通信を行う,リアルタイムのスケジューリングインシデントを検出するための新しいオープンソースインテリジェンス(OSINT)手法を提案する。
2025年10月から2026年3月までに、X(元Twitter)から183,420通のテキストを分析し、現実世界のスケジュールに関する698件のインシデントを特定した。
統計学的に有意な月次出来事の4.9倍、スケジュールに関する投稿の1.7倍の増加を観測した。
実験でのみ報告された実世界の展開において、複数のスケジュール関連行動の証拠が見つかっており、その多くが実世界の害をもたらしている。
破滅的なスケジュールの出来事は検出されなかったが、観察された行動は、指示を無視し、安全を回避し、利用者に嘘をつき、有害な方法で単独で目標を追求するなど、先例を実証した。
AIシステムがより有能になるにつれて、これらはより戦略的に進化し、破滅的な結果をもたらす可能性がある。
本研究は, 学術研究, 政策開発, 緊急対応を支援する実世界のスケジュール検出へのスケーラブルなアプローチとして, 転写型OSINTの生存可能性を示すものである。
我々は、スケジューリングと制御の喪失を監視するOSINT技術へのさらなる投資を推奨する。
関連論文リスト
- Industrialized Deception: The Collateral Effects of LLM-Generated Misinformation on Digital Ecosystems [47.03825808787752]
本稿では,文献レビューから実践的対策へ移行する。
本稿では,Large Language Models(LLM)とマルチモーダルシステムによるAI生成コンテンツの改善について報告する。
我々は, LLMに基づく検出, 接種アプローチ, および生成AIの二重利用特性を含む緩和戦略について論じる。
論文 参考訳(メタデータ) (2026-01-29T16:42:22Z) - AI Deception: Risks, Dynamics, and Controls [153.71048309527225]
このプロジェクトは、AI偽装分野の包括的で最新の概要を提供する。
我々は、動物の偽装の研究からシグナル伝達理論に基づく、AI偽装の正式な定義を同定する。
我々は,AI偽装研究の展望を,偽装発生と偽装処理の2つの主要な構成要素からなる偽装サイクルとして整理する。
論文 参考訳(メタデータ) (2025-11-27T16:56:04Z) - Anomalous Decision Discovery using Inverse Reinforcement Learning [3.3675535571071746]
異常検出は、知覚システムを通じて異常な行動を特定することによって、自律走行車(AV)において重要な役割を果たす。
現在のアプローチは、しばしば定義済みのしきい値や教師付き学習パラダイムに依存するが、目に見えないシナリオに直面すると効果が低下する。
異常検出のための新しいIRLフレームワークである Trajectory-Reward Guided Adaptive Pre-training (TRAP) を提案する。
論文 参考訳(メタデータ) (2025-07-06T17:01:02Z) - RealHarm: A Collection of Real-World Language Model Application Failures [1.2820953788225848]
我々は、AIエージェントとの注釈付き問題相互作用のデータセットであるRealHarmを紹介する。
我々は、特にデプロイ者の視点から、害、原因、危険を分析します。
我々は,現状のガードレールとコンテンツモデレーションシステムを評価し,そのようなシステムが事故を防いだかどうかを調査した。
論文 参考訳(メタデータ) (2025-04-14T14:44:41Z) - Navigating the Shadows: Unveiling Effective Disturbances for Modern AI Content Detectors [24.954755569786396]
AIテキスト検出は、人間と機械が生成したコンテンツを区別するために現れた。
近年の研究では、これらの検出システムは、しばしば頑丈さを欠き、摂動テキストを効果的に区別する難しさを欠いていることが示されている。
我々の研究は、非公式な文章と専門的な文章の両方で現実世界のシナリオをシミュレートし、現在の検出器のアウト・オブ・ボックスのパフォーマンスを探求する。
論文 参考訳(メタデータ) (2024-06-13T08:37:01Z) - Physical Adversarial Attack meets Computer Vision: A Decade Survey [55.38113802311365]
本稿では,身体的敵意攻撃の概要を概観する。
本研究は,身体的敵意攻撃の性能を体系的に評価する第一歩を踏み出した。
提案する評価基準であるhiPAAは6つの視点から構成される。
論文 参考訳(メタデータ) (2022-09-30T01:59:53Z) - Illusory Attacks: Information-Theoretic Detectability Matters in Adversarial Attacks [76.35478518372692]
エプシロン・イリューソリー(epsilon-illusory)は、シーケンシャルな意思決定者に対する敵対的攻撃の新たな形態である。
既存の攻撃と比較して,エプシロン・イリューソリーの自動検出は極めて困難である。
以上の結果から, より優れた異常検知器, 効果的なハードウェアおよびシステムレベルの防御の必要性が示唆された。
論文 参考訳(メタデータ) (2022-07-20T19:49:09Z) - Adversarial vs behavioural-based defensive AI with joint, continual and
active learning: automated evaluation of robustness to deception, poisoning
and concept drift [62.997667081978825]
人工知能(AI)の最近の進歩は、サイバーセキュリティのための行動分析(UEBA)に新たな能力をもたらした。
本稿では、検出プロセスを改善し、人間の専門知識を効果的に活用することにより、この攻撃を効果的に軽減するソリューションを提案する。
論文 参考訳(メタデータ) (2020-01-13T13:54:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。