論文の概要: L-AutoDA: Leveraging Large Language Models for Automated Decision-based Adversarial Attacks
- arxiv url: http://arxiv.org/abs/2401.15335v2
- Date: Wed, 22 May 2024 11:40:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-25 11:26:41.673294
- Title: L-AutoDA: Leveraging Large Language Models for Automated Decision-based Adversarial Attacks
- Title(参考訳): L-AutoDA: 自動決定に基づく敵攻撃のための大規模言語モデルを活用する
- Authors: Ping Guo, Fei Liu, Xi Lin, Qingchuan Zhao, Qingfu Zhang,
- Abstract要約: L-AutoDAは、Large Language Models (LLM) の生成能力を活用して、敵攻撃の設計を自動化する新しいアプローチである。
L-AutoDAは、進化的なフレームワークでLLMと反復的に対話することにより、人間の努力を伴わずに、競合する攻撃アルゴリズムを効率的に設計する。
CIFAR-10データセットに対するL-AutoDAの有効性を実証し、成功率と計算効率の両面でベースライン法よりも大幅に改善したことを示す。
- 参考スコア(独自算出の注目度): 16.457528502745415
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the rapidly evolving field of machine learning, adversarial attacks present a significant challenge to model robustness and security. Decision-based attacks, which only require feedback on the decision of a model rather than detailed probabilities or scores, are particularly insidious and difficult to defend against. This work introduces L-AutoDA (Large Language Model-based Automated Decision-based Adversarial Attacks), a novel approach leveraging the generative capabilities of Large Language Models (LLMs) to automate the design of these attacks. By iteratively interacting with LLMs in an evolutionary framework, L-AutoDA automatically designs competitive attack algorithms efficiently without much human effort. We demonstrate the efficacy of L-AutoDA on CIFAR-10 dataset, showing significant improvements over baseline methods in both success rate and computational efficiency. Our findings underscore the potential of language models as tools for adversarial attack generation and highlight new avenues for the development of robust AI systems.
- Abstract(参考訳): 機械学習の急速に発展する分野では、敵攻撃は堅牢性とセキュリティをモデル化する上で大きな課題となる。
決定に基づく攻撃は、詳細な確率やスコアではなく、モデルの決定に対するフィードバックのみを必要とするが、特に攻撃的で防御が難しい。
本研究では,L-AutoDA(Large Language Model-based Automated Decision-based Adversarial Attacks)を導入し,L-AutoDA(Large Language Model-based Automated Decision-based Adversarial Attacks)を提案する。
L-AutoDAは、進化的なフレームワークでLLMと反復的に対話することにより、人間の努力を伴わずに、競合する攻撃アルゴリズムを効率的に設計する。
CIFAR-10データセットに対するL-AutoDAの有効性を実証し、成功率と計算効率の両面でベースライン法よりも大幅に改善したことを示す。
我々の発見は、敵対的攻撃生成のためのツールとしての言語モデルの可能性を強調し、堅牢なAIシステムを開発するための新たな道のりを浮き彫りにする。
関連論文リスト
- Towards Autonomous Cybersecurity: An Intelligent AutoML Framework for Autonomous Intrusion Detection [21.003217781832923]
本稿では,次世代ネットワークにおける自律型サイバーセキュリティの実現に向けた,自動機械学習(AutoML)に基づく自律型IDSフレームワークを提案する。
提案されたAutoMLベースのIDSは、CICIDS 2017と5G-NIDDという2つの公開ベンチマークネットワークセキュリティデータセットで評価された。
この研究は、次世代ネットワークにおける完全自律型サイバーセキュリティへの重要な一歩であり、ネットワークセキュリティアプリケーションに革命をもたらす可能性がある。
論文 参考訳(メタデータ) (2024-09-05T00:36:23Z) - SEAS: Self-Evolving Adversarial Safety Optimization for Large Language Models [19.486685336959482]
大規模言語モデル(LLM)は能力と影響力を向上し続け、セキュリティを確保し、有害な出力を防ぐことが重要になっている。
これらの問題に対処するための有望なアプローチは、レッドチームのための敵のプロンプトを自動的に生成するトレーニングモデルである。
mathbfStextelf-mathbfEtextvolving mathbfAtextdversarial mathbfStextafetyety mathbf(SEAS)$ Optimization frameworkを紹介します。
SEASはイニシアティブ、アタック、アドバーサの3段階を繰り返す。
論文 参考訳(メタデータ) (2024-08-05T16:55:06Z) - Position: A Call to Action for a Human-Centered AutoML Paradigm [83.78883610871867]
自動機械学習(AutoML)は、機械学習(ML)を自動かつ効率的に構成する基本的目的を中心に形成された。
AutoMLの完全な可能性を解き放つ鍵は、現在探索されていないAutoMLシステムとのユーザインタラクションの側面に対処することにある、と私たちは主張する。
論文 参考訳(メタデータ) (2024-06-05T15:05:24Z) - Defending Large Language Models Against Attacks With Residual Stream Activation Analysis [0.0]
大規模言語モデル(LLM)は敵の脅威に対して脆弱である。
本稿では, LLM へのホワイトボックスアクセスを前提とした, 革新的な防御戦略を提案する。
そこで本研究では,アタックプロンプト分類のための残差ストリームの固有なアクティベーションパターンを解析するための新しい手法を適用した。
論文 参考訳(メタデータ) (2024-06-05T13:06:33Z) - Learning diverse attacks on large language models for robust red-teaming and safety tuning [126.32539952157083]
レッドチーム、あるいは有害な応答を誘発するプロンプトの特定は、大きな言語モデルの安全なデプロイを保証するための重要なステップである。
新規性と多様性を優先する明確な規則化であっても、既存のアプローチはモード崩壊または効果的な攻撃を発生させることができないことを示す。
我々は,GFlowNetの微調整と二次平滑化フェーズを用いて,多種多様な効果的な攻撃プロンプトを生成するために攻撃モデルを訓練することを提案する。
論文 参考訳(メタデータ) (2024-05-28T19:16:17Z) - AIDE: An Automatic Data Engine for Object Detection in Autonomous Driving [68.73885845181242]
本稿では,問題を自動的に識別し,データを効率よくキュレートし,自動ラベル付けによりモデルを改善する自動データエンジン(AIDE)を提案する。
さらに,AVデータセットのオープンワールド検出のためのベンチマークを構築し,様々な学習パラダイムを包括的に評価し,提案手法の優れた性能を低コストで実証する。
論文 参考訳(メタデータ) (2024-03-26T04:27:56Z) - InferAligner: Inference-Time Alignment for Harmlessness through
Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。
実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。
これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文 参考訳(メタデータ) (2024-01-20T10:41:03Z) - AutoAct: Automatic Agent Learning from Scratch for QA via Self-Planning [54.47116888545878]
AutoActはQAのための自動エージェント学習フレームワークである。
大規模アノテートデータやクローズドソースモデルからの合成計画軌道は依存していない。
論文 参考訳(メタデータ) (2024-01-10T16:57:24Z) - OmniForce: On Human-Centered, Large Model Empowered and Cloud-Edge
Collaborative AutoML System [85.8338446357469]
我々は人間中心のAutoMLシステムであるOmniForceを紹介した。
我々は、OmniForceがAutoMLシステムを実践し、オープン環境シナリオにおける適応型AIを構築する方法について説明する。
論文 参考訳(メタデータ) (2023-03-01T13:35:22Z) - A Generative Model based Adversarial Security of Deep Learning and
Linear Classifier Models [0.0]
我々は,オートエンコーダモデルを用いた機械学習モデルに対する敵攻撃の軽減手法を提案する。
機械学習モデルに対する敵対的攻撃の背後にある主な考え方は、トレーニングされたモデルを操作することによって誤った結果を生成することである。
また、ディープニューラルネットワークから従来のアルゴリズムに至るまで、様々な攻撃手法に対するオートエンコーダモデルの性能についても紹介した。
論文 参考訳(メタデータ) (2020-10-17T17:18:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。