論文の概要: When Reject Turns into Accept: Quantifying the Vulnerability of LLM-Based Scientific Reviewers to Indirect Prompt Injection
- arxiv url: http://arxiv.org/abs/2512.10449v2
- Date: Mon, 15 Dec 2025 04:40:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 15:10:29.236576
- Title: When Reject Turns into Accept: Quantifying the Vulnerability of LLM-Based Scientific Reviewers to Indirect Prompt Injection
- Title(参考訳): リジェクトが受容されるとき: LLMベースの科学レビュアーによる間接的プロンプト注入の脆弱性の定量化
- Authors: Devanshu Sahoo, Manish Prasad, Vasudev Majhi, Jahnvi Singh, Vinay Chamola, Yash Sinha, Murari Mandal, Dhruv Kumar,
- Abstract要約: 本研究では,「LLM-as-a-Judge」システムの逆PDF操作に対する堅牢性について検討した。
一般的なジェイルブレイクとは違って、我々は明確なインセンティブに焦点を当てている。
我々は200の科学論文のデータセットを収集し、15のドメイン固有の攻撃戦略をこのタスクに適用し、13の言語モデルでそれらを評価した。
- 参考スコア(独自算出の注目度): 11.984098021215878
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The landscape of scientific peer review is rapidly evolving with the integration of Large Language Models (LLMs). This shift is driven by two parallel trends: the widespread individual adoption of LLMs by reviewers to manage workload (the "Lazy Reviewer" hypothesis) and the formal institutional deployment of AI-powered assessment systems by conferences like AAAI and Stanford's Agents4Science. This study investigates the robustness of these "LLM-as-a-Judge" systems (both illicit and sanctioned) to adversarial PDF manipulation. Unlike general jailbreaks, we focus on a distinct incentive: flipping "Reject" decisions to "Accept," for which we develop a novel evaluation metric which we term as WAVS (Weighted Adversarial Vulnerability Score). We curated a dataset of 200 scientific papers and adapted 15 domain-specific attack strategies to this task, evaluating them across 13 Language Models, including GPT-5, Claude Haiku, and DeepSeek. Our results demonstrate that obfuscation strategies like "Maximum Mark Magyk" successfully manipulate scores, achieving alarming decision flip rates even in large-scale models. We will release our complete dataset and injection framework to facilitate more research on this topic.
- Abstract(参考訳): 科学的なピアレビューの展望は、Large Language Models (LLMs)の統合によって急速に進化している。
このシフトは、ワークロードを管理するためのレビュアーによるLLMの広範な個別採用("遅延レビュー"仮説)と、AAAIやStanfordのAgents4ScienceといったカンファレンスによるAIを活用したアセスメントシステムの正式な制度展開という、2つの平行したトレンドによって引き起こされる。
本研究では,これらの「LLM-as-a-Judge」システムの逆PDF操作に対する堅牢性について検討した。
一般のジェイルブレイクとは違って、我々は「拒否」決定を「受け入れ」に転換し、WAVS(Weighted Adversarial Vulnerability Score)と呼ばれる新しい評価指標を開発する。
我々は200の科学論文のデータセットを収集し、15のドメイン固有の攻撃戦略をこのタスクに適用し、GPT-5、Claude Haiku、DeepSeekを含む13の言語モデルでそれらを評価した。
以上の結果から,「最大マルコ・マギーク」のような難読化戦略がスコアの操作に成功し,大規模モデルにおいても重大な決定フリップ率を達成できた。
このトピックに関するさらなる研究を促進するために、完全なデータセットとインジェクションフレームワークをリリースします。
関連論文リスト
- BadScientist: Can a Research Agent Write Convincing but Unsound Papers that Fool LLM Reviewers? [21.78901120638025]
製造指向の紙生成エージェントがマルチモデルLCMレビューシステムを欺くことができるかどうかを考察する。
我々のジェネレータは、実際の実験を必要としないプレゼンテーション操作戦略を採用している。
健全な集約数学にもかかわらず、整合性検査は体系的に失敗する。
論文 参考訳(メタデータ) (2025-10-20T18:37:11Z) - When Your Reviewer is an LLM: Biases, Divergence, and Prompt Injection Risks in Peer Review [34.067892820832405]
本稿では,学術レビュアーとして大規模言語モデル(LLM)を体系的に評価する。
ICLR 2023とNeurIPS 2022の1,441論文のキュレートされたデータセットを用いて、評価、強度、弱点を越えて、GPT-5-miniをヒトレビュアーに対して評価した。
以上の結果から, LLMは, より弱い論文に対する評価を一貫して向上させつつ, より強いコントリビューションに対する人間の判断と密に一致させることが示唆された。
論文 参考訳(メタデータ) (2025-09-12T00:57:50Z) - Publish to Perish: Prompt Injection Attacks on LLM-Assisted Peer Review [17.869642243653985]
大規模言語モデル(LLM)は、科学的なピアレビュープロセスに統合されつつある。
本研究は,著者が論文のPDFに敵対的テキストを埋め込む,隠れたプロンプトインジェクション攻撃の可能性について検討する。
論文 参考訳(メタデータ) (2025-08-28T14:57:04Z) - When Punctuation Matters: A Large-Scale Comparison of Prompt Robustness Methods for LLMs [55.20230501807337]
本報告では, 統一実験フレームワーク内での迅速なロバスト性向上のための5つの手法の体系的評価を行う。
Llama、Qwen、Gemmaファミリーの8つのモデルに対して、Natural Instructionsデータセットから52のタスクをベンチマークする。
論文 参考訳(メタデータ) (2025-08-15T10:32:50Z) - Paper Summary Attack: Jailbreaking LLMs through LLM Safety Papers [61.57691030102618]
我々は新しいジェイルブレイク手法であるペーパー・サプリメント・アタック(llmnamePSA)を提案する。
攻撃に焦点をあてたLLM安全紙からコンテンツを合成し、敵のプロンプトテンプレートを構築する。
実験では、ベースLLMだけでなく、Deepseek-R1のような最先端の推論モデルにも重大な脆弱性がある。
論文 参考訳(メタデータ) (2025-07-17T18:33:50Z) - One Token to Fool LLM-as-a-Judge [52.45386385722788]
大規模言語モデル(LLM)は、自動化された審査員としてますます信頼され、評価を支援し、他のモデルを訓練するための報酬信号を提供する。
生成的報酬モデルは、ハッキングに対して体系的に影響を受けやすい。
論文 参考訳(メタデータ) (2025-07-11T17:55:22Z) - Are We There Yet? Revealing the Risks of Utilizing Large Language Models in Scholarly Peer Review [66.73247554182376]
大規模言語モデル(LLM)がピアレビューに統合された。
未確認のLLMの採用は、ピアレビューシステムの完全性に重大なリスクをもたらす。
5%のレビューを操作すれば、論文の12%が上位30%のランキングでその地位を失う可能性がある。
論文 参考訳(メタデータ) (2024-12-02T16:55:03Z) - Monitoring AI-Modified Content at Scale: A Case Study on the Impact of ChatGPT on AI Conference Peer Reviews [51.453135368388686]
本稿では,大規模言語モデル (LLM) によって実質的に修正あるいは生成される可能性のある大規模コーパスにおけるテキストの分数推定手法を提案する。
我々の最大可能性モデルは、専門家による参照テキストとAIによる参照テキストを利用して、コーパスレベルでの実世界のLLM使用を正確かつ効率的に検証する。
論文 参考訳(メタデータ) (2024-03-11T21:51:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。