論文の概要: Paraphrasing Adversarial Attack on LLM-as-a-Reviewer
- arxiv url: http://arxiv.org/abs/2601.06884v1
- Date: Sun, 11 Jan 2026 12:14:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.052299
- Title: Paraphrasing Adversarial Attack on LLM-as-a-Reviewer
- Title(参考訳): LLM-as-a-Reviewerにおける逆攻撃のパラフレーズ化
- Authors: Masahiro Kaneko,
- Abstract要約: パラフレージング・アタック(PAA)は、より高いレビュースコアを得るパラフレージングシーケンスを探索する。
我々は,PAAが論文の主張を変えることなく,レビュースコアを一貫して増加させることを示す。
また,攻撃された論文のレビューの難易度が増大し,潜在的な検出信号が得られた。
- 参考スコア(独自算出の注目度): 19.027650050594918
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The use of large language models (LLMs) in peer review systems has attracted growing attention, making it essential to examine their potential vulnerabilities. Prior attacks rely on prompt injection, which alters manuscript content and conflates injection susceptibility with evaluation robustness. We propose the Paraphrasing Adversarial Attack (PAA), a black-box optimization method that searches for paraphrased sequences yielding higher review scores while preserving semantic equivalence and linguistic naturalness. PAA leverages in-context learning, using previous paraphrases and their scores to guide candidate generation. Experiments across five ML and NLP conferences with three LLM reviewers and five attacking models show that PAA consistently increases review scores without changing the paper's claims. Human evaluation confirms that generated paraphrases maintain meaning and naturalness. We also find that attacked papers exhibit increased perplexity in reviews, offering a potential detection signal, and that paraphrasing submissions can partially mitigate attacks.
- Abstract(参考訳): ピアレビューシステムにおける大規模言語モデル(LLM)の使用は注目を集めており、潜在的な脆弱性を調べることが不可欠である。
以前の攻撃はプロンプトインジェクションに依存しており、それは原稿の内容を変更し、インジェクションの感受性を堅牢性の評価と融合させる。
本稿では,意味的等価性と言語的自然性を保ちつつ,より高い評価スコアを得られるパラフレージングシーケンスを探索するブラックボックス最適化手法であるパラフレージング・アタック(PAA)を提案する。
PAAは、以前のパラフレーズとそのスコアを使用して、コンテキスト内学習を活用して、候補生成をガイドする。
MLとNLPの5つのカンファレンスにおいて、3つのLLMレビュアーと5つのアタックモデルによる実験は、PAAが論文の主張を変えることなくレビュースコアを一貫して増加させることを示している。
人間の評価は、生成されたパラフレーズが意味と自然性を維持することを確認します。
また、攻撃された論文はレビューの難易度が増大し、潜在的な検出信号が提供され、パラフレーズの提出が部分的に攻撃を軽減できることがわかった。
関連論文リスト
- When Your Reviewer is an LLM: Biases, Divergence, and Prompt Injection Risks in Peer Review [34.067892820832405]
本稿では,学術レビュアーとして大規模言語モデル(LLM)を体系的に評価する。
ICLR 2023とNeurIPS 2022の1,441論文のキュレートされたデータセットを用いて、評価、強度、弱点を越えて、GPT-5-miniをヒトレビュアーに対して評価した。
以上の結果から, LLMは, より弱い論文に対する評価を一貫して向上させつつ, より強いコントリビューションに対する人間の判断と密に一致させることが示唆された。
論文 参考訳(メタデータ) (2025-09-12T00:57:50Z) - Publish to Perish: Prompt Injection Attacks on LLM-Assisted Peer Review [17.869642243653985]
大規模言語モデル(LLM)は、科学的なピアレビュープロセスに統合されつつある。
本研究は,著者が論文のPDFに敵対的テキストを埋め込む,隠れたプロンプトインジェクション攻撃の可能性について検討する。
論文 参考訳(メタデータ) (2025-08-28T14:57:04Z) - Paper Summary Attack: Jailbreaking LLMs through LLM Safety Papers [61.57691030102618]
我々は新しいジェイルブレイク手法であるペーパー・サプリメント・アタック(llmnamePSA)を提案する。
攻撃に焦点をあてたLLM安全紙からコンテンツを合成し、敵のプロンプトテンプレートを構築する。
実験では、ベースLLMだけでなく、Deepseek-R1のような最先端の推論モデルにも重大な脆弱性がある。
論文 参考訳(メタデータ) (2025-07-17T18:33:50Z) - Breaking the Reviewer: Assessing the Vulnerability of Large Language Models in Automated Peer Review Under Textual Adversarial Attacks [46.94841402358489]
本稿では,大規模言語モデル (LLM) が,敵対的攻撃の存在下で自動レビュアーとして使用されることのロバスト性について検討する。
テキスト操作はLLM評価を歪ませる可能性があるため,本評価は重大な脆弱性を明らかにする。
我々の発見は、学術コミュニケーションの完全性よりも、AIの強化を確実にするために、敵対的リスクに対処することの重要性を強調した。
論文 参考訳(メタデータ) (2025-06-08T16:57:38Z) - Detecting LLM-Generated Peer Reviews [37.51215252353345]
大規模言語モデル(LLM)の台頭は、一部のレビュアーが独立して記述するのではなく、レビューを生成するためにこれらのツールに依存するのではないかという懸念を提起している。
論文のPDFを通じて間接的インジェクションを行うアプローチを考察し,LLMが生成したレビューに隠された透かしを埋め込むよう促す。
本稿では,複数のレビューにまたがって家族的誤り率を制御し,標準的な修正よりも高い統計力を実現する透かし方式と仮説テストを導入する。
論文 参考訳(メタデータ) (2025-03-20T01:11:35Z) - Human-Readable Adversarial Prompts: An Investigation into LLM Vulnerabilities Using Situational Context [45.821481786228226]
本研究では,状況文脈を利用した状況駆動型逆転フルプロンプトが効果的であるが,検出がはるかに困難であることを示す。
映画脚本を状況的文脈の枠組みとして利用する攻撃を開発した。
我々は, p-核サンプリングによるAdvPrompterフレームワークを拡張し, 多様な可読テキストを生成する。
論文 参考訳(メタデータ) (2024-12-20T21:43:52Z) - Are We There Yet? Revealing the Risks of Utilizing Large Language Models in Scholarly Peer Review [66.73247554182376]
大規模言語モデル(LLM)がピアレビューに統合された。
未確認のLLMの採用は、ピアレビューシステムの完全性に重大なリスクをもたらす。
5%のレビューを操作すれば、論文の12%が上位30%のランキングでその地位を失う可能性がある。
論文 参考訳(メタデータ) (2024-12-02T16:55:03Z) - An LLM can Fool Itself: A Prompt-Based Adversarial Attack [26.460067102821476]
本稿では, プロンプトベースの対向攻撃(PromptAttack)を用いて, LLMの対向ロバスト性を評価する効率的なツールを提案する。
PromptAttackは、敵のテキスト攻撃を攻撃プロンプトに変換することで、被害者のLSMが敵のサンプルを不正に出力する可能性がある。
Llama2とGPT-3.5を使った総合的な実験結果から、PromptAttackはAdvGLUEやAdvGLUE++に比べて攻撃成功率がずっと高いことが証明されている。
論文 参考訳(メタデータ) (2023-10-20T08:16:46Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。