論文の概要: SafeReview: Defending LLM-based Review Systems Against Adversarial Hidden Prompts
- arxiv url: http://arxiv.org/abs/2604.26506v1
- Date: Wed, 29 Apr 2026 10:11:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-30 15:59:36.352289
- Title: SafeReview: Defending LLM-based Review Systems Against Adversarial Hidden Prompts
- Title(参考訳): SafeReview: 敵の隠れプロンプトに対するLDMベースのレビューシステム
- Authors: Yuan Xin, Yixuan Weng, Minjun Zhu, Ying Ling, Chengwei Qin, Michael Hahn, Michael Backes, Yue Zhang, Linyi Yang,
- Abstract要約: 大規模言語モデル(LLM)は、ますます学術的ピアレビューに統合されている。
敵に対する彼らの脆弱性は、学術的完全性に対する重大な脅威として現れます。
本稿では、高度な攻撃プロンプトを作成するために訓練されたジェネレータモデルを、検出を行うデフェンダーモデルと共同で最適化する、新しい対向フレームワークを提案する。
- 参考スコア(独自算出の注目度): 48.74298724520065
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Large Language Models (LLMs) are increasingly integrated into academic peer review, their vulnerability to adversarial prompts -- adversarial instructions embedded in submissions to manipulate outcomes -- emerges as a critical threat to scholarly integrity. To counter this, we propose a novel adversarial framework where a Generator model, trained to create sophisticated attack prompts, is jointly optimized with a Defender model tasked with their detection. This system is trained using a loss function inspired by Information Retrieval Generative Adversarial Networks, which fosters a dynamic co-evolution between the two models, forcing the Defender to develop robust capabilities against continuously improving attack strategies. The resulting framework demonstrates significantly enhanced resilience to novel and evolving threats compared to static defenses, thereby establishing a critical foundation for securing the integrity of peer review.
- Abstract(参考訳): 大規模言語モデル(LLM)が学術的ピアレビューに統合されるにつれて、学術的完全性に対する重要な脅威として、敵のプロンプト(結果を操作するために提出書に埋め込まれた敵の指示)に対する脆弱性が出現する。
これに対応するために,高度な攻撃プロンプトを作成するために訓練されたジェネレータモデルを,検出を行うデフェンダーモデルと協調的に最適化する,新しい対向フレームワークを提案する。
このシステムは,2つのモデル間の動的共進化を促進し,攻撃戦略を継続的に改善するための堅牢な能力開発を強制する情報検索型生成共進化ネットワーク(Information Retrieval Generative Adversarial Networks)にインスパイアされた損失関数を用いて訓練される。
結果として得られた枠組みは、静的防御と比較して、新規で進化する脅威に対する弾力性を大幅に向上させ、ピアレビューの完全性を確保するための重要な基盤を確立する。
関連論文リスト
- Adversarial Defense in Vision-Language Models: An Overview [7.668103158377842]
VLM(Vision Language Models)の普及により、高度な敵攻撃に対する脆弱性に対する懸念が高まっている。
この課題に対処するために、トレーニング時防衛、テスト時適応防衛、トレーニング自由防衛の3つの主要な防衛パラダイムが提案されている。
論文 参考訳(メタデータ) (2026-01-18T14:57:51Z) - Debiased Dual-Invariant Defense for Adversarially Robust Person Re-Identification [52.63017280231648]
人物再識別(ReID)は、歩行者軌道追跡などの現実の多くの応用において、基本的な課題である。
Person ReIDモデルは、歩行者画像に対する知覚不能な摂動が完全に誤った予測を引き起こすような、敵の攻撃に非常に敏感である。
本稿では,2つの相からなる二重不変防衛フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-13T03:56:40Z) - ShieldLearner: A New Paradigm for Jailbreak Attack Defense in LLMs [4.534938642552179]
ShieldLearnerは、防衛における人間の学習を模倣する新しいパラダイムである。
試行錯誤によって、アタックシグネチャを自動でパターンアトラスに蒸留する。
Adaptive Adversarial Augmentationは、防御されたプロンプトの逆のバリエーションを生成する。
論文 参考訳(メタデータ) (2025-02-16T18:47:41Z) - Reformulation is All You Need: Addressing Malicious Text Features in DNNs [53.45564571192014]
本稿では,敵攻撃とバックドア攻撃の両方に対して有効な,統一的かつ適応的な防御フレームワークを提案する。
我々のフレームワークは、様々な悪意あるテキスト機能において、既存のサンプル指向の防御基準よりも優れています。
論文 参考訳(メタデータ) (2025-02-02T03:39:43Z) - Sustainable Self-evolution Adversarial Training [41.35034408227795]
本稿では,持続可能な自己進化学習(SSEAT)フレームワークを提案する。
本研究は,様々な種類の対角的事例から学習を実現するために,連続的な対向防衛パイプラインを導入する。
また,より多様で重要な再学習データを選択するために,逆データ再生モジュールを提案する。
論文 参考訳(メタデータ) (2024-12-03T08:41:11Z) - Position: Towards Resilience Against Adversarial Examples [42.09231029292568]
我々は、敵の弾力性の定義と、敵の弾力性のある防御を設計する方法について概観する。
次に, 対向弾性のサブプロブレムを導入し, 連続適応ロバストネス(continuousal adapt robustness)と呼ぶ。
本研究では, 連続適応ロバストネスと, マルチアタックロバストネスと予期せぬアタックロバストネスの関連性を実証する。
論文 参考訳(メタデータ) (2024-05-02T14:58:44Z) - Mutual-modality Adversarial Attack with Semantic Perturbation [81.66172089175346]
本稿では,相互モダリティ最適化スキームにおける敵攻撃を生成する新しい手法を提案する。
我々の手法は最先端の攻撃方法より優れており、プラグイン・アンド・プレイ・ソリューションとして容易にデプロイできる。
論文 参考訳(メタデータ) (2023-12-20T05:06:01Z) - Robust Safety Classifier for Large Language Models: Adversarial Prompt
Shield [7.5520641322945785]
大規模言語モデルの安全性は、敵の攻撃に対する脆弱性のため、依然として重要な懸念事項である。
本稿では,検出精度を向上し,対向プロンプトに対するレジリエンスを示す軽量モデルであるAdversarial Prompt Shield(APS)を紹介する。
また、対戦型トレーニングデータセットを自律的に生成するための新しい戦略を提案する。
論文 参考訳(メタデータ) (2023-10-31T22:22:10Z) - Model-Agnostic Meta-Attack: Towards Reliable Evaluation of Adversarial
Robustness [53.094682754683255]
モデル非依存型メタアタック(MAMA)アプローチにより,より強力な攻撃アルゴリズムを自動検出する。
本手法は、繰り返しニューラルネットワークによってパラメータ化された逆攻撃を学習する。
本研究では,未知の防御を攻撃した場合の学習能力を向上させるために,モデルに依存しない訓練アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-10-13T13:54:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。