論文の概要: Are All Prompt Components Value-Neutral? Understanding the Heterogeneous Adversarial Robustness of Dissected Prompt in Large Language Models
- arxiv url: http://arxiv.org/abs/2508.01554v1
- Date: Sun, 03 Aug 2025 02:46:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 20:32:48.70911
- Title: Are All Prompt Components Value-Neutral? Understanding the Heterogeneous Adversarial Robustness of Dissected Prompt in Large Language Models
- Title(参考訳): 全プロンプト成分はニュートラルか? : 大言語モデルにおける解離プロンプトの不均一な対向ロバスト性を理解する
- Authors: Yujia Zheng, Tianhao Li, Haotian Huang, Tianyu Zeng, Jingyu Lu, Chuangxin Chu, Yuekai Huang, Ziyou Jiang, Qian Xiong, Yuyao Ge, Mingyang Li,
- Abstract要約: PromptAnatomyは、プロンプトを機能コンポーネントに分解する自動化フレームワークです。
提案手法であるComPerturbを用いて,各コンポーネントを選択的に摂動することで,逆例を生成する。
補完的なリソースとして,PromptAnatomyフレームワークを用いて4つの公開命令チューニングデータセットを注釈付けする。
- 参考スコア(独自算出の注目度): 11.625319498017733
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prompt-based adversarial attacks have become an effective means to assess the robustness of large language models (LLMs). However, existing approaches often treat prompts as monolithic text, overlooking their structural heterogeneity-different prompt components contribute unequally to adversarial robustness. Prior works like PromptRobust assume prompts are value-neutral, but our analysis reveals that complex, domain-specific prompts with rich structures have components with differing vulnerabilities. To address this gap, we introduce PromptAnatomy, an automated framework that dissects prompts into functional components and generates diverse, interpretable adversarial examples by selectively perturbing each component using our proposed method, ComPerturb. To ensure linguistic plausibility and mitigate distribution shifts, we further incorporate a perplexity (PPL)-based filtering mechanism. As a complementary resource, we annotate four public instruction-tuning datasets using the PromptAnatomy framework, verified through human review. Extensive experiments across these datasets and five advanced LLMs demonstrate that ComPerturb achieves state-of-the-art attack success rates. Ablation studies validate the complementary benefits of prompt dissection and PPL filtering. Our results underscore the importance of prompt structure awareness and controlled perturbation for reliable adversarial robustness evaluation in LLMs. Code and data are available at https://github.com/Yujiaaaaa/PACP.
- Abstract(参考訳): 大規模言語モデル(LLM)のロバスト性を評価する手段としては,プロンプトベースの敵攻撃が有効な手段となっている。
しかし、既存のアプローチはしばしばプロンプトをモノリシックテキストとして扱い、その構造的不均一性-異なるプロンプト成分を見渡すことは、敵の堅牢性に等しく寄与する。
PromptRobustのような以前の研究は、プロンプトは価値中立であると仮定していたが、我々の分析では、リッチな構造を持つ複雑なドメイン固有のプロンプトが、異なる脆弱性を持つコンポーネントを持っていることが明らかになった。
このギャップに対処するために,提案手法であるComPerturbを用いて各コンポーネントを選択的に摂動することで,プロンプトを機能コンポーネントに分解し,多種多様な解釈可能な逆例を生成する自動フレームワークであるPromptAnatomyを導入する。
言語的妥当性の確保と分布シフトの緩和を目的として,我々はさらにパープレキシティ(PPL)に基づくフィルタリング機構を取り入れた。
補完的な資料として,人間のレビューを通じて検証されたPromptAnatomyフレームワークを用いて,4つの公開命令チューニングデータセットに注釈を付ける。
これらのデータセットと5つの高度なLCMにわたる大規模な実験は、ComPerturbが最先端の攻撃成功率を達成したことを示している。
アブレーション研究は、即時解離とPPLフィルタリングの相補的な利点を検証する。
本研究は,LLMの信頼性の高い対向ロバスト性評価のための構造認識と制御摂動の重要性を裏付けるものである。
コードとデータはhttps://github.com/Yujiaaaaaa/PACP.comで公開されている。
関連論文リスト
- Mechanisms vs. Outcomes: Probing for Syntax Fails to Explain Performance on Targeted Syntactic Evaluations [33.04242471060053]
大規模言語モデル(LLM)は、テキストの処理と生成において、構文の堅牢な熟達を示す。
モデルの探索精度が下流の構文的性能を確実に予測するかどうかについては、網羅的な研究はまだ確定していない。
論文 参考訳(メタデータ) (2025-06-20T01:46:50Z) - Helping Large Language Models Protect Themselves: An Enhanced Filtering and Summarization System [2.0257616108612373]
大規模言語モデルは、敵の攻撃、操作プロンプト、悪意のある入力のエンコードに弱い。
本研究は,LSMが敵対的あるいは悪意的な入力を自力で認識し,フィルタリングし,防御することのできる,ユニークな防御パラダイムを提案する。
論文 参考訳(メタデータ) (2025-05-02T14:42:26Z) - Improving Multilingual Retrieval-Augmented Language Models through Dialectic Reasoning Argumentations [65.11348389219887]
そこで,Dialectic-RAG(Dialectic-RAG, DRAG)を提案する。
我々は、文脈内学習戦略と、より小さなモデルをインストラクションするための実演の構築の両方において、我々のフレームワークが与える影響を示す。
論文 参考訳(メタデータ) (2025-04-07T06:55:15Z) - Do LLMs suffer from Multi-Party Hangover? A Diagnostic Approach to Addressee Recognition and Response Selection in Conversations [11.566214724241798]
本研究では,会話の特定の構造的属性間でのモデル性能を調査する手法を提案する。
我々はモデルの弱点を診断するために、応答選択とアドレス認識タスクに焦点をあてる。
その結果、応答選択は会話のテキストの内容に依存しており、アドレス認識ではその構造的次元を捉える必要があることがわかった。
論文 参考訳(メタデータ) (2024-09-27T10:07:33Z) - Enhancing LLM's Cognition via Structurization [41.13997892843677]
大規模言語モデル(LLM)は因果的かつシーケンシャルな視点で入力コンテキストを処理する。
本稿では,コンテキスト構造化という新しい概念を提案する。
具体的には、平易で秩序のない文脈文を、適切に順序付けされ階層的に構造化された要素に変換する。
論文 参考訳(メタデータ) (2024-07-23T12:33:58Z) - Attribute Structuring Improves LLM-Based Evaluation of Clinical Text Summaries [56.31117605097345]
大規模言語モデル(LLM)は、正確な臨床テキスト要約を生成する可能性を示しているが、根拠付けと評価に関する問題に苦慮している。
本稿では、要約評価プロセスを構成するAttribute Structuring(AS)を用いた一般的な緩和フレームワークについて検討する。
ASは、臨床テキスト要約における人間のアノテーションと自動メトリクスの対応性を一貫して改善する。
論文 参考訳(メタデータ) (2024-03-01T21:59:03Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - PromptRobust: Towards Evaluating the Robustness of Large Language Models on Adversarial Prompts [76.18347405302728]
本研究は、文字、単語、文、意味といった複数のレベルにわたるプロンプトを標的とした、敵対的なテキスト攻撃を多用する。
相手のプロンプトは、感情分析、自然言語推論、読書理解、機械翻訳、数学の問題解決など様々なタスクに使用される。
以上の結果から,現代の大規模言語モデルでは,敵対的プロンプトに対して頑健ではないことが示唆された。
論文 参考訳(メタデータ) (2023-06-07T15:37:00Z) - Improving the Robustness of Summarization Systems with Dual Augmentation [68.53139002203118]
頑健な要約システムは、入力中の特定の単語の選択やノイズに関わらず、文書のギストをキャプチャできるべきである。
まず,単語レベルの同義語置換や雑音を含む摂動に対する要約モデルの頑健性について検討する。
SummAttackerを提案する。これは言語モデルに基づく対数サンプルを生成するための効率的な手法である。
論文 参考訳(メタデータ) (2023-06-01T19:04:17Z) - Enriching Relation Extraction with OpenIE [70.52564277675056]
関係抽出(RE)は情報抽出(IE)のサブ分野である
本稿では,オープン情報抽出(OpenIE)の最近の取り組みがREの課題の改善にどのように役立つかを検討する。
本稿では,2つの注釈付きコーパスであるKnowledgeNetとFewRelを用いた実験により,拡張モデルの精度向上を実証した。
論文 参考訳(メタデータ) (2022-12-19T11:26:23Z) - Estimating the Adversarial Robustness of Attributions in Text with
Transformers [44.745873282080346]
リプシッツ連続性に基づくテキスト分類における帰属ロバスト性(AR)の新たな定義を確立する。
そこで我々は,テキスト分類における属性の厳密な推定を行う強力な敵であるTransformerExplanationAttack (TEA)を提案する。
論文 参考訳(メタデータ) (2022-12-18T20:18:59Z) - BERT-ASC: Auxiliary-Sentence Construction for Implicit Aspect Learning in Sentiment Analysis [4.522719296659495]
本稿ではアスペクト分類とアスペクトベース感情サブタスクに対処する統合フレームワークを提案する。
コーパスのセマンティック情報を用いて暗黙的側面のための補助文を構築する機構を導入する。
次に、BERTはアスペクト自体ではなく、この補助文に応答してアスペクト固有の表現を学ぶことを推奨する。
論文 参考訳(メタデータ) (2022-03-22T13:12:27Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。