論文の概要: Language Models Can Autonomously Hack and Self-Replicate
- arxiv url: http://arxiv.org/abs/2605.06760v1
- Date: Thu, 07 May 2026 17:09:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.517864
- Title: Language Models Can Autonomously Hack and Self-Replicate
- Title(参考訳): 言語モデルは自動でハックして自己複製できる
- Authors: Alena Air, Reworr, Nikolaj Kotov, Dmitrii Volkov, John Steidley, Jeffrey Ladish,
- Abstract要約: 言語モデルは、脆弱性のあるホストを悪用することにより、その重みを自律的に複製し、ネットワークをまたいで活用できることを実証する。
Qwen3.5-122B-A10Bは6-19%の試験で成功し、Qwen3.6-27Bは1回のA100で33%に達した。
- 参考スコア(独自算出の注目度): 0.6688217134565235
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We demonstrate that language models can autonomously replicate their weights and harness across a network by exploiting vulnerable hosts. The agent independently finds and exploits a web-application vulnerability, extracts credentials, and deploys an inference server with a copy of its harness and prompt on the compromised host. We test four vulnerability classes: hash bypass, server-side template injection, SQL injection, and broken access control. Qwen3.5-122B-A10B succeeds in 6-19% of attempts, and the smaller Qwen3.6-27B reaches 33% on a single A100. This already matches the current-generation GPT-5.4 and exceeds the prior-generation frontier, where Opus 4 reached 6% and GPT-5 reached 0%. Replicating Qwen weights, frontier models reach 81% (Opus 4.6) and 33% (GPT-5.4). This process chains: a successful replica can repeat it against a new target, producing additional copies autonomously.
- Abstract(参考訳): 言語モデルは、脆弱性のあるホストを悪用することにより、その重みを自律的に複製し、ネットワークをまたいで活用できることを実証する。
エージェントは、Webアプリケーションの脆弱性を独立して見つけて悪用し、認証情報を抽出し、そのハーネスのコピーで推論サーバをデプロイし、妥協されたホストにプロンプトする。
我々は、ハッシュバイパス、サーバーサイドテンプレートインジェクション、SQLインジェクション、アクセス制御の4つの脆弱性クラスをテストする。
Qwen3.5-122B-A10Bは6-19%の試験で成功し、Qwen3.6-27Bは1回のA100で33%に達した。
これは既に現行のGPT-5.4と一致しており、前世代のフロンティアを超えており、Opus 4は6%、GPT-5は0%に達している。
Qwenの重量を再現すると、フロンティアモデルは81%(Opus 4.6)、33%(GPT-5.4)に達する。
このプロセスチェーン: 成功したレプリカは、それを新しいターゲットに対して繰り返すことができ、追加のコピーを自律的に生成する。
関連論文リスト
- Reward Hacking Benchmark: Measuring Exploits in LLM Agents with Tool Use [0.016201337438609787]
ツールアクセスを備えた強化学習(RL)訓練された言語モデルエージェントは、コーディングアシスタント、研究ツール、自律システムにますます多くデプロイされている。
本稿では,Reward Hacking Benchmark (RHB)について紹介する。
OpenAI, Anthropic, Google, DeepSeekの13のフロンティアモデルを評価した。
論文 参考訳(メタデータ) (2026-05-03T07:10:42Z) - Your Agent, Their Asset: A Real-World Safety Analysis of OpenClaw [87.97230960702274]
本稿では,OpenClawの安全性評価について紹介する。
エージェントの永続状態を3次元に統一するCIK分類法を導入する。
評価では、ライブOpenClawインスタンス上の12のアタックシナリオをカバーしています。
論文 参考訳(メタデータ) (2026-04-06T15:27:05Z) - Mapping the Exploitation Surface: A 10,000-Trial Taxonomy of What Makes LLM Agents Exploit Vulnerabilities [0.0]
ツールアクセスを持つLLMエージェントは、セキュリティ脆弱性を悪用することができる。
不明なのは、システムのどの機能がこの振る舞いをトリガーし、どれがそうでないかである。
7つのモデル,37のプロンプト条件,12の仮説的攻撃次元の1万の試行に基づく系統分類を提示する。
論文 参考訳(メタデータ) (2026-04-06T09:44:34Z) - Backdoor4Good: Benchmarking Beneficial Uses of Backdoors in LLMs [63.668008418097905]
クリーンタスク性能を保ちながら、優れたバックドアは高い制御性、タンパー抵抗性、ステルスネスを達成できることを示す。
私たちの発見は、バックドアは本質的に悪意のあるものではない、という新たな洞察を示しています。適切に設計された場合、信頼できるAIシステムのためのモジュールで解釈可能、有益なビルディングブロックとして機能します。
論文 参考訳(メタデータ) (2026-03-08T04:01:13Z) - Self-Purification Mitigates Backdoors in Multimodal Diffusion Language Models [74.1970982768771]
確立されたデータポゾンパイプラインは,MDLMにバックドアを埋め込むことに成功した。
拡散自己浄化(Diffusion Self-Purification)と呼ばれるMDLMのバックドア防御フレームワークについて紹介する。
論文 参考訳(メタデータ) (2026-02-24T15:47:52Z) - Penetration Testing of Agentic AI: A Comparative Security Analysis Across Models and Frameworks [0.0]
Agentic AIは、従来のLLMセーフガードが対処できないセキュリティ脆弱性を導入する。
エージェントAIシステムの最初の体系的テストと比較評価を行う。
新たな「ハロシントコンプライアンス」戦略を含む6つの防衛行動パターンを同定する。
論文 参考訳(メタデータ) (2025-12-16T19:22:50Z) - BountyBench: Dollar Impact of AI Agent Attackers and Defenders on Real-World Cybersecurity Systems [62.17474934536671]
我々は、現実世界のシステムを進化させる際に、攻撃的かつ防御的なサイバー能力を捕獲する最初の枠組みを紹介する。
脆弱性ライフサイクルを捉えるために、3つのタスクタイプを定義します。検出(新たな脆弱性の検出)、エクスプロイト(特定の脆弱性の探索)、パッチ(特定の脆弱性のパッチ)。
Claude Code,OpenAI Codex CLI with o3-high and o4-mini,カスタムエージェント with o3-high, GPT-4.1, Gemini 2.5 Pro Preview, Claude 3.7 Sonnet Thinking, DeepSeek-R1。
論文 参考訳(メタデータ) (2025-05-21T07:44:52Z) - RepliBench: Evaluating the Autonomous Replication Capabilities of Language Model Agents [2.058691706358809]
RepliBenchは、自律レプリケーション機能を測定するために設計された評価スイートである。
我々は5つのフロンティアモデルをベンチマークし、それらが現在、自己複製の信頼できる脅威を生じていないことを発見した。
我々が評価した最良のモデル(Claude 3.7 Sonnet)は、15/20タスクファミリで50%パス@10スコア、最も難しい亜種で9/20ファミリーで50%パス@10スコアである。
論文 参考訳(メタデータ) (2025-04-21T11:39:22Z) - IDEATOR: Jailbreaking and Benchmarking Large Vision-Language Models Using Themselves [70.43466586161345]
IDEATORは、ブラックボックスジェイルブレイク攻撃のための悪意のある画像テキストペアを自律的に生成する新しいジェイルブレイク手法である。
最近リリースされたVLM11のベンチマーク結果から,安全性の整合性に大きなギャップがあることが判明した。
例えば、我々はASRをGPT-4oで46.31%、Claude-3.5-Sonnetで19.65%と設定した。
論文 参考訳(メタデータ) (2024-10-29T07:15:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。