論文の概要: What is the AGI in Offensive Security ?
- arxiv url: http://arxiv.org/abs/2601.19968v1
- Date: Tue, 27 Jan 2026 17:41:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.62012
- Title: What is the AGI in Offensive Security ?
- Title(参考訳): 攻撃セキュリティにおけるAGIとは何か?
- Authors: Youngwoong Cho,
- Abstract要約: 本稿では,ターゲットシステムを状態マシンとして,ハッカーを対話型シンボリックエージェントとして形式的にモデル化することができる。
攻撃的エンゲージメントにおけるすべての相互作用は有限文字列としてエンコードできることが示される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: What is the AGI in Offensive Security? One can break it down into two questions : (1) any offensive security tasks could be reduced into symbolic language manipulation (language representation + reasoning), (2) powerful language model (LLM) are enough to "deal with" any symbolic language manipulation. This paper can formally model a target system as a state machine and a hacker as an interactive symbolic agent. And it shows that every interaction in an offensive engagement can be encoded as a finite string. This paper provides definitions, short lemmas, and open discussion.
- Abstract(参考訳): サイバーセキュリティにおけるAGIとは何か?
1) 攻撃的なセキュリティタスクを記号的言語操作(言語表現と推論)に減らすことができ、(2) 強力な言語モデル(LLM)は記号的言語操作を「決定」するのに十分である。
本稿では,ターゲットシステムを状態マシンとして,ハッカーを対話型シンボリックエージェントとして形式的にモデル化することができる。
そして、攻撃的エンゲージメントにおける全ての相互作用は有限文字列としてエンコードできることを示す。
本稿は、定義、短い補題、オープンな議論を提供する。
関連論文リスト
- In-Context Representation Hijacking [15.706479613839967]
Doublespeakは、大規模言語モデルに対するコンテキスト内表現ハイジャック攻撃である。
置換は有害なトークンに対して収束した良性トークンの内部表現につながることを示す。
このセマンティクスが層ごとに出現し、初期層における良性の意味が後層において有害なセマンティクスに収束することを示します。
論文 参考訳(メタデータ) (2025-12-03T13:19:34Z) - Limitations on Safe, Trusted, Artificial General Intelligence [14.425238904385074]
安全、信頼、人工知能(Artificial General Intelligence、AGI)は、人工知能(AI)システムにおける野心的な目標である。
安全・信頼・AGIの厳密な数学的定義を提案する。
プログラム検証、計画、およびグラフ到達性に関する結果を示す。
論文 参考訳(メタデータ) (2025-09-25T22:16:38Z) - Defending Against Prompt Injection With a Few DefensiveTokens [44.221727642687085]
大規模言語モデル(LLM)システムは複雑なタスクを実行するために外部データと相互作用する。
システムによってアクセスされたデータに命令を注入することにより、攻撃者は攻撃者が指示する任意のタスクで初期ユーザタスクをオーバーライドすることができる。
システム開発者がフレキシブルな方法で必要な場合にのみセキュリティを確保するためには、例えば防御プロンプトのようなテストタイムディフェンスが提案されている。
トレーニング時の代替に匹敵するプロンプトインジェクションを備えたテストタイムディフェンスであるDefensiveTokenを提案する。
論文 参考訳(メタデータ) (2025-07-10T17:51:05Z) - Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。
自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。
LLMは最初は同意するように見えるが,その後回答を拒む興味深い抵抗現象を観察する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - The Good, the Bad and the Ugly: Watermarks, Transferable Attacks and Adversarial Defenses [21.975560789792073]
バックドアベースの透かしと敵防御の既存の定義を2人のプレイヤー間の対話プロトコルとして定式化し拡張する。
ほぼすべての差別的学習タスクにおいて、少なくとも2つののうちの1つ(透かしまたは敵の防御)が存在している。
転送可能な攻撃の概念を満たすタスクは、暗号プリミティブを意味することを示す。
論文 参考訳(メタデータ) (2024-10-11T14:44:05Z) - Defending Large Language Models against Jailbreak Attacks via Semantic
Smoothing [107.97160023681184]
適応型大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
提案するSEMANTICSMOOTHは,与えられた入力プロンプトのセマンティック変換されたコピーの予測を集約するスムージングベースのディフェンスである。
論文 参考訳(メタデータ) (2024-02-25T20:36:03Z) - A Trembling House of Cards? Mapping Adversarial Attacks against Language
Agents [37.978142062138986]
言語エージェントに対する敵対的攻撃をマッピングする最初の体系的な取り組みを示す。
我々はエージェントの異なるコンポーネントに対する12の潜在的な攻撃シナリオを提案し、異なる攻撃戦略をカバーしている。
我々は、言語エージェントが広く展開する前に、言語エージェントのリスクを徹底的に理解する緊急性を強調します。
論文 参考訳(メタデータ) (2024-02-15T18:51:32Z) - Shadow Alignment: The Ease of Subverting Safely-Aligned Language Models [102.63973600144308]
オープンソースの大規模言語モデルは、有害なコンテンツを生成するために容易に変換できる。
5つの異なる組織がリリースした8つのモデルに対する実験は、シャドーアライメントアタックの有効性を実証している。
この研究は、悪意のある攻撃者に対するオープンソースのLLMの安全性を見直し、強化するための集団的な取り組みの発端となる。
論文 参考訳(メタデータ) (2023-10-04T16:39:31Z) - A LLM Assisted Exploitation of AI-Guardian [57.572998144258705]
IEEE S&P 2023で発表された敵に対する最近の防衛であるAI-Guardianの堅牢性を評価する。
我々は、このモデルを攻撃するためのコードを書かず、代わりに、GPT-4に命令とガイダンスに従って全ての攻撃アルゴリズムを実装するよう促します。
このプロセスは驚くほど効果的で効率的であり、言語モデルでは、この論文の著者が実行したよりも高速に曖昧な命令からコードを生成することもあった。
論文 参考訳(メタデータ) (2023-07-20T17:33:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。