論文の概要: Adversarial Lens: Exploiting Attention Layers to Generate Adversarial Examples for Evaluation
- arxiv url: http://arxiv.org/abs/2512.23837v1
- Date: Mon, 29 Dec 2025 19:59:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.197104
- Title: Adversarial Lens: Exploiting Attention Layers to Generate Adversarial Examples for Evaluation
- Title(参考訳): 相手レンズ:相手レンズのアテンション層を爆発的に生成して評価する
- Authors: Kaustubh Dhole,
- Abstract要約: 注意層トークン分布から直接逆例を生成する。
中間層から抽出したトークンが下流評価タスクに有効な逆摂動として有効であるかどうかを評価する。
- 参考スコア(独自算出の注目度): 0.2800045883776013
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in mechanistic interpretability suggest that intermediate attention layers encode token-level hypotheses that are iteratively refined toward the final output. In this work, we exploit this property to generate adversarial examples directly from attention-layer token distributions. Unlike prompt-based or gradient-based attacks, our approach leverages model-internal token predictions, producing perturbations that are both plausible and internally consistent with the model's own generation process. We evaluate whether tokens extracted from intermediate layers can serve as effective adversarial perturbations for downstream evaluation tasks. We conduct experiments on argument quality assessment using the ArgQuality dataset, with LLaMA-3.1-Instruct-8B serving as both the generator and evaluator. Our results show that attention-based adversarial examples lead to measurable drops in evaluation performance while remaining semantically similar to the original inputs. However, we also observe that substitutions drawn from certain layers and token positions can introduce grammatical degradation, limiting their practical effectiveness. Overall, our findings highlight both the promise and current limitations of using intermediate-layer representations as a principled source of adversarial examples for stress-testing LLM-based evaluation pipelines.
- Abstract(参考訳): 機械的解釈可能性の最近の進歩は、中間的注意層が最終出力に向けて反復的に洗練されるトークンレベルの仮説を符号化していることを示している。
本研究では,この特性を利用して,注目層トークン分布から直接逆例を生成する。
プロンプトベースやグラデーションベースの攻撃とは異なり、我々のアプローチはモデル内部トークンの予測を利用して、モデル自身の生成プロセスにもっともよく、内部的に一貫性のある摂動を生成する。
中間層から抽出したトークンが下流評価タスクに有効な逆摂動として有効であるかどうかを評価する。
我々は,ArgQualityデータセットを用いた議論品質評価実験を行い,LLaMA-3.1-Instruct-8Bをジェネレータおよび評価器として使用した。
本研究の結果から,注意に基づく逆数例は,従来の入力とセマンティックに類似したまま,評価性能が低下することが示された。
しかし,特定の層やトークン位置から引き出された置換が文法的劣化を引き起こす可能性があり,その実用性は制限される。
本研究は, ストレステストによるLCM評価パイプラインの逆例の原則として, 中間層表現を用いた場合の有望性と現在の限界を明らかにするものである。
関連論文リスト
- Aligning the Evaluation of Probabilistic Predictions with Downstream Value [2.6636053598505307]
予測性能のみに基づくメトリクスは、しばしば現実世界の下流への影響の尺度から発散する。
本稿では、下流評価と整合したプロキシ評価関数を学習するためのデータ駆動手法を提案する。
我々のアプローチでは、ニューラルネットワークによってパラメータ化された重み付けされたスコアリングルールを利用して、下流タスクのパフォーマンスに合わせて重み付けが学習される。
論文 参考訳(メタデータ) (2025-08-25T17:41:27Z) - ScoreAdv: Score-based Targeted Generation of Natural Adversarial Examples via Diffusion Models [13.250999667915254]
本稿では,ScoreAdvという拡散モデルに基づく逆例を生成する新しい手法を提案する。
本手法は, 無限個の自然逆例を生成でき, 分類モデルだけでなく, 検索モデルも攻撃できる。
その結果、ScoreAdvは推論効率を保ちながら、最先端の攻撃成功率と画像品質を達成できることを示した。
論文 参考訳(メタデータ) (2025-07-08T15:17:24Z) - Critical Tokens Matter: Token-Level Contrastive Estimation Enhances LLM's Reasoning Capability [53.51560766150442]
臨界トークンは推論軌道内の要素であり、誤った結果に大きな影響を及ぼす。
本稿では,これらのトークンをロールアウトサンプリングによって識別する新しいフレームワークを提案する。
クリティカルトークンの識別と置換がモデル精度を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-11-29T18:58:22Z) - AMRFact: Enhancing Summarization Factuality Evaluation with AMR-Driven Negative Samples Generation [57.8363998797433]
抽象的意味表現(AMR)を用いた摂動要約を生成するフレームワークであるAMRFactを提案する。
提案手法は,AMRグラフに一貫した要約を解析し,制御された事実不整合を注入して負の例を生成し,一貫性のない事実不整合要約を高い誤差型カバレッジで生成する。
論文 参考訳(メタデータ) (2023-11-16T02:56:29Z) - Time-series Generation by Contrastive Imitation [87.51882102248395]
モーメントマッチングの目的によってモチベーションされ、複合的エラーを軽減し、局所的(しかし前方的な)遷移ポリシーを最適化する。
推論において、学習されたポリシーは反復的なサンプリングのジェネレータとして機能し、学習されたエネルギーはサンプルの品質を評価するための軌道レベル尺度として機能する。
論文 参考訳(メタデータ) (2023-11-02T16:45:25Z) - Outcome-Guided Counterfactuals for Reinforcement Learning Agents from a
Jointly Trained Generative Latent Space [0.0]
本稿では, 強化学習剤(RL)の新規な生成法を提案する。
提案手法では,エージェントの動作に関連する観測および結果変数に関する情報を共同で符号化する潜在空間の学習に,変分オートエンコーダを用いる。
論文 参考訳(メタデータ) (2022-07-15T19:09:54Z) - Unreasonable Effectiveness of Last Hidden Layer Activations [0.5156484100374058]
本研究では, 高い温度値を持つモデルの出力層で広く知られているアクティベーション関数を用いることで, 標的および標的外攻撃事例の勾配をゼロにする効果が示された。
CIFAR10データセットであるMNIST(Digit)に対するアプローチの有効性を実験的に検証した。
論文 参考訳(メタデータ) (2022-02-15T12:02:59Z) - Deconfounding Scores: Feature Representations for Causal Effect
Estimation with Weak Overlap [140.98628848491146]
推定対象の偏りを伴わずに高い重なりを生じさせる,デコンファウンディングスコアを導入する。
分離スコアは観測データで識別可能なゼロ共分散条件を満たすことを示す。
特に,この手法が標準正規化の魅力的な代替となることを示す。
論文 参考訳(メタデータ) (2021-04-12T18:50:11Z) - MatchGAN: A Self-Supervised Semi-Supervised Conditional Generative
Adversarial Network [51.84251358009803]
本稿では,条件付き生成逆数ネットワーク(GAN)に対する,半教師付き環境下での自己教師型学習手法を提案する。
利用可能な数少ないラベル付きサンプルのラベル空間から無作為なラベルをサンプリングして拡張を行う。
本手法は,ベースラインのトレーニングに使用したラベル付きサンプルの20%に過ぎません。
論文 参考訳(メタデータ) (2020-06-11T17:14:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。