論文の概要: Fine-Grained Iterative Adversarial Attacks with Limited Computation Budget
- arxiv url: http://arxiv.org/abs/2510.26981v1
- Date: Thu, 30 Oct 2025 20:13:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:15.907303
- Title: Fine-Grained Iterative Adversarial Attacks with Limited Computation Budget
- Title(参考訳): 計算予算を限定したファイングラインド反復逆行攻撃
- Authors: Zhichao Hou, Weizhi Gao, Xiaorui Liu,
- Abstract要約: この研究は、限られた計算の下でAI安全研究において重要な課題に取り組む。
反復的敵攻撃の強さを最大化する方法
本稿では,繰り返しレベルと層レベルで層活性化を選択的に再計算する,きめ細かい制御機構を提案する。
- 参考スコア(独自算出の注目度): 23.463577631629335
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work tackles a critical challenge in AI safety research under limited compute: given a fixed computation budget, how can one maximize the strength of iterative adversarial attacks? Coarsely reducing the number of attack iterations lowers cost but substantially weakens effectiveness. To fulfill the attainable attack efficacy within a constrained budget, we propose a fine-grained control mechanism that selectively recomputes layer activations across both iteration-wise and layer-wise levels. Extensive experiments show that our method consistently outperforms existing baselines at equal cost. Moreover, when integrated into adversarial training, it attains comparable performance with only 30% of the original budget.
- Abstract(参考訳): この作業は、限られた計算予算でAIの安全性研究において重要な課題に取り組む: 固定された計算予算を考えると、反復的敵攻撃の強さを最大化するにはどうすればよいのか?
大規模な攻撃の回数の削減はコストを低下させるが、効果を著しく低下させる。
制約された予算内で達成可能な攻撃効果を達成するため、繰り返しおよび層レベルで層活性化を選択的に再計算するきめ細かい制御機構を提案する。
実験の結果,提案手法は既存のベースラインを同等のコストで一貫した性能を発揮することがわかった。
さらに、敵の訓練に統合されると、オリジナルの予算の30%にすぎず、同等のパフォーマンスが得られる。
関連論文リスト
- More with Less: An Empirical Study of Turn-Control Strategies for Efficient Coding Agents [4.980051859336524]
コーディングエージェントは、ソフトウェアエンジニアリングタスクを解決するために反復ループ(ターン)で動作します。
ますます強力になりつつあるが、その実践的な展開は、かなりのコストと予測不可能なコストによって妨げられている。
固定ターンの制限、特にベースラインの75パーセントでは、"スイートスポット"として機能することを示す。
次に、固定ターン戦略が固定限界アプローチを一貫して上回り、同等あるいはより良い解率を達成するとともに、必要なタスクのみにリソースをインテリジェントに割り当てることで、コストをさらに12%-24%削減することを示します。
論文 参考訳(メタデータ) (2025-10-19T10:32:18Z) - Adversarial Constrained Policy Optimization: Improving Constrained Reinforcement Learning by Adapting Budgets [6.5472155063246085]
制約付き強化学習は、報酬と制約の両方が考慮される安全クリティカルな分野において、有望な進歩を遂げてきた。
本稿では,報酬の同時最適化とトレーニング中のコスト予算の適応を可能にする適応的制約付き政策最適化(ACPO)を提案する。
論文 参考訳(メタデータ) (2024-10-28T07:04:32Z) - Ada-KV: Optimizing KV Cache Eviction by Adaptive Budget Allocation for Efficient LLM Inference [37.94892570127548]
大規模言語モデルは様々なドメインで優れていますが、キーバリュー(KV)キャッシュの増加によって効率上の課題に直面しています。
最近の取り組みは、実行中に大量の非クリティカルキャッシュ要素を排除し、KVキャッシュサイズを削減することを目的としている。
本稿では,Ada-KVを提案する。
論文 参考訳(メタデータ) (2024-07-16T09:53:32Z) - Advancing Generalized Transfer Attack with Initialization Derived Bilevel Optimization and Dynamic Sequence Truncation [49.480978190805125]
転送攻撃はブラックボックスアプリケーションに大きな関心を惹きつける。
既存の作業は、本質的に単一のレベルの目的 w.r.t. シュロゲートモデルを直接最適化する。
本稿では,上位レベル(UL)と下位レベル(LL)のサロゲート攻撃とのネスト関係を明示的に再構築する2レベル最適化手法を提案する。
論文 参考訳(メタデータ) (2024-06-04T07:45:27Z) - Multi-granular Adversarial Attacks against Black-box Neural Ranking Models [111.58315434849047]
多粒性摂動を取り入れた高品質な逆数例を作成する。
我々は,多粒体攻撃を逐次的意思決定プロセスに変換する。
本手法は,攻撃の有効性と非受容性の両方において,一般的なベースラインを超えている。
論文 参考訳(メタデータ) (2024-04-02T02:08:29Z) - Efficient Exploration Using Extra Safety Budget in Constrained Policy
Optimization [15.483557012655927]
本稿では, 探索効率と制約満足度とのバランスをとるために, ESB-CPO (Constrained Policy Optimization with Extra Safety Budget) というアルゴリズムを提案する。
提案手法は,ベースラインと比較して,同じコスト制限下での顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2023-02-28T06:16:34Z) - Alternating Objectives Generates Stronger PGD-Based Adversarial Attacks [78.2700757742992]
Projected Gradient Descent (PGD) は、そのような敵を生成するための最も効果的で概念的にシンプルなアルゴリズムの1つである。
この主張を合成データの例で実験的に検証し、提案手法を25の$ell_infty$-robustモデルと3つのデータセットで評価した。
私たちの最強の敵攻撃は、AutoAttackアンサンブルのすべてのホワイトボックスコンポーネントより優れています。
論文 参考訳(メタデータ) (2022-12-15T17:44:31Z) - Penalized Proximal Policy Optimization for Safe Reinforcement Learning [68.86485583981866]
本稿では、等価な制約のない問題の単一最小化により、煩雑な制約付きポリシー反復を解決するP3Oを提案する。
P3Oは、コスト制約を排除し、クリップされたサロゲート目的による信頼領域制約を除去するために、単純なyet効果のペナルティ関数を利用する。
P3Oは,一連の制約された機関車作業において,報酬改善と制約満足度の両方に関して,最先端のアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2022-05-24T06:15:51Z) - Performance Evaluation of Adversarial Attacks: Discrepancies and
Solutions [51.8695223602729]
機械学習モデルの堅牢性に挑戦するために、敵対攻撃方法が開発されました。
本稿では,Piece-wise Sampling Curving(PSC)ツールキットを提案する。
psc toolkitは計算コストと評価効率のバランスをとるオプションを提供する。
論文 参考訳(メタデータ) (2021-04-22T14:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。