論文の概要: From Insight to Exploit: Leveraging LLM Collaboration for Adaptive Adversarial Text Generation
- arxiv url: http://arxiv.org/abs/2511.03128v1
- Date: Wed, 05 Nov 2025 02:27:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 18:19:32.300923
- Title: From Insight to Exploit: Leveraging LLM Collaboration for Adaptive Adversarial Text Generation
- Title(参考訳): インテリジェンスからエクスプロイトへ:適応的逆テキスト生成のためのLLMコラボレーションを活用する
- Authors: Najrin Sultana, Md Rafi Ur Rashid, Kang Gu, Shagufta Mehnaz,
- Abstract要約: 動的かつ適応的な敵の例を生成するために設計された2つの革新的な攻撃フレームワークを導入する。
我々は、原文と意味的類似性を保持する微妙で自然な逆入力を生成する。
我々の攻撃はLSMの進歩とともに進化し、攻撃者には未知の強い伝達性を示す。
- 参考スコア(独自算出の注目度): 3.75886080255807
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLMs can provide substantial zero-shot performance on diverse tasks using a simple task prompt, eliminating the need for training or fine-tuning. However, when applying these models to sensitive tasks, it is crucial to thoroughly assess their robustness against adversarial inputs. In this work, we introduce Static Deceptor (StaDec) and Dynamic Deceptor (DyDec), two innovative attack frameworks designed to systematically generate dynamic and adaptive adversarial examples by leveraging the understanding of the LLMs. We produce subtle and natural-looking adversarial inputs that preserve semantic similarity to the original text while effectively deceiving the target LLM. By utilizing an automated, LLM-driven pipeline, we eliminate the dependence on external heuristics. Our attacks evolve with the advancements in LLMs and demonstrate strong transferability across models unknown to the attacker. Overall, this work provides a systematic approach for the self-assessment of an LLM's robustness. We release our code and data at https://github.com/Shukti042/AdversarialExample.
- Abstract(参考訳): LLMは、単純なタスクプロンプトを使用して、多様なタスクに対して実質的なゼロショットのパフォーマンスを提供することができ、トレーニングや微調整の必要がなくなる。
しかし、これらのモデルを敏感なタスクに適用する場合は、敵入力に対する頑健さを徹底的に評価することが重要である。
本研究では,LLMの理解を活用して,動的かつ適応的な敵例を体系的に生成する2つの革新的な攻撃フレームワークである静的認知(StaDec)と動的認知(DyDec)を紹介する。
目的のLLMを効果的に評価しながら、原文と意味的類似性を保った微妙で自然な逆入力を生成する。
自動LLM駆動パイプラインを利用することで、外部ヒューリスティックへの依存を排除できる。
我々の攻撃はLSMの進歩とともに進化し、攻撃者に未知のモデル間で強い伝達可能性を示す。
全体として、この研究はLLMの堅牢性を自己評価するための体系的なアプローチを提供する。
コードとデータはhttps://github.com/Shukti042/AdversarialExample.comで公開しています。
関連論文リスト
- Diffusion LLMs are Natural Adversaries for any LLM [50.88535293540971]
資源集約的(逆)な最適化問題を非効率な暗黙的推論タスクに変換する新しいフレームワークを提案する。
我々の中核となる洞察は、事前訓練された非自己回帰的生成LDMは、迅速な探索のための強力なサロゲートとして機能できるということである。
生成したプロンプトは、さまざまなブラックボックスターゲットモデルに対して強い転送可能性を示す、低複雑で多様なジェイルブレイクであることがわかった。
論文 参考訳(メタデータ) (2025-10-31T19:04:09Z) - Grounded in Reality: Learning and Deploying Proactive LLM from Offline Logs [72.08224879435762]
textttLearn-to-Askは、プロアクティブな対話エージェントの学習とデプロイのためのシミュレータフリーフレームワークである。
当社のアプローチは,LLMの大規模オンラインAIサービスへの展開を成功に導くものです。
論文 参考訳(メタデータ) (2025-10-29T12:08:07Z) - Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - Defending Large Language Models Against Attacks With Residual Stream Activation Analysis [0.0]
大規模言語モデル(LLM)は敵の脅威に対して脆弱である。
本稿では, LLM へのホワイトボックスアクセスを前提とした, 革新的な防御戦略を提案する。
そこで本研究では,アタックプロンプト分類のための残差ストリームの固有なアクティベーションパターンを解析するための新しい手法を適用した。
論文 参考訳(メタデータ) (2024-06-05T13:06:33Z) - Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing [56.75702900542643]
大規模言語モデルの自己改善のためのAlphaLLMを紹介する。
モンテカルロ木探索(MCTS)とLLMを統合し、自己改善ループを確立する。
実験の結果,AlphaLLM は付加アノテーションを使わずに LLM の性能を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-04-18T15:21:34Z) - UNDIAL: Self-Distillation with Adjusted Logits for Robust Unlearning in Large Language Models [12.45822383965784]
本稿では,UnDIAL(Unlearning via Self-Distillation on Adjusted Logits)を紹介する。
本手法では, 自己蒸留を利用してロジットを調整し, ターゲットトークンの影響を選択的に低減する。
論文 参考訳(メタデータ) (2024-02-15T16:21:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。