論文の概要: Prompt Injection Attacks on LLM Generated Reviews of Scientific Publications
- arxiv url: http://arxiv.org/abs/2509.10248v1
- Date: Fri, 12 Sep 2025 13:45:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 16:03:08.106499
- Title: Prompt Injection Attacks on LLM Generated Reviews of Scientific Publications
- Title(参考訳): LLMによる科学出版物へのプロンプト注入攻撃
- Authors: Janis Keuper,
- Abstract要約: 本稿では,操作の実践性と技術的成功について考察する。
システム評価では, LLM が生成する 2024 ICLR 論文の1k のレビューを用いて評価を行った。
- 参考スコア(独自算出の注目度): 18.33812068961096
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ongoing intense discussion on rising LLM usage in the scientific peer-review process has recently been mingled by reports of authors using hidden prompt injections to manipulate review scores. Since the existence of such "attacks" - although seen by some commentators as "self-defense" - would have a great impact on the further debate, this paper investigates the practicability and technical success of the described manipulations. Our systematic evaluation uses 1k reviews of 2024 ICLR papers generated by a wide range of LLMs shows two distinct results: I) very simple prompt injections are indeed highly effective, reaching up to 100% acceptance scores. II) LLM reviews are generally biased toward acceptance (>95% in many models). Both results have great impact on the ongoing discussions on LLM usage in peer-review.
- Abstract(参考訳): 科学的なピアレビュープロセスにおけるLLMの使用の増加に関する議論は、最近、レビュースコアを操作するために隠れたプロンプトインジェクションを使用した著者の報告によって混同されている。
このような「攻撃」の存在は、一部のコメンテーターによって「自己防衛」と見なされるが、さらなる議論に多大な影響を与えるので、本稿は、記述された操作の実践性と技術的成功について検討する。
系統的評価では, LLMが生成した2024 ICLR論文の1kレビューを用いて, 極めて単純なプロンプトインジェクションが極めて有効であり, 100%の受入スコアに達するという2つの異なる結果が得られた。
II) LLMレビューは一般に受容に偏っている(多くのモデルでは95%)。
どちらの結果も、ピアレビューにおけるLLMの使用に関する議論に大きく影響している。
関連論文リスト
- When Your Reviewer is an LLM: Biases, Divergence, and Prompt Injection Risks in Peer Review [34.067892820832405]
本稿では,学術レビュアーとして大規模言語モデル(LLM)を体系的に評価する。
ICLR 2023とNeurIPS 2022の1,441論文のキュレートされたデータセットを用いて、評価、強度、弱点を越えて、GPT-5-miniをヒトレビュアーに対して評価した。
以上の結果から, LLMは, より弱い論文に対する評価を一貫して向上させつつ, より強いコントリビューションに対する人間の判断と密に一致させることが示唆された。
論文 参考訳(メタデータ) (2025-09-12T00:57:50Z) - Publish to Perish: Prompt Injection Attacks on LLM-Assisted Peer Review [17.869642243653985]
大規模言語モデル(LLM)は、科学的なピアレビュープロセスに統合されつつある。
本研究は,著者が論文のPDFに敵対的テキストを埋め込む,隠れたプロンプトインジェクション攻撃の可能性について検討する。
論文 参考訳(メタデータ) (2025-08-28T14:57:04Z) - Detecting LLM-Generated Peer Reviews [37.51215252353345]
大規模言語モデル(LLM)の台頭は、一部のレビュアーが独立して記述するのではなく、レビューを生成するためにこれらのツールに依存するのではないかという懸念を提起している。
論文のPDFを通じて間接的インジェクションを行うアプローチを考察し,LLMが生成したレビューに隠された透かしを埋め込むよう促す。
本稿では,複数のレビューにまたがって家族的誤り率を制御し,標準的な修正よりも高い統計力を実現する透かし方式と仮説テストを導入する。
論文 参考訳(メタデータ) (2025-03-20T01:11:35Z) - Are We There Yet? Revealing the Risks of Utilizing Large Language Models in Scholarly Peer Review [66.73247554182376]
大規模言語モデル(LLM)がピアレビューに統合された。
未確認のLLMの採用は、ピアレビューシステムの完全性に重大なリスクをもたらす。
5%のレビューを操作すれば、論文の12%が上位30%のランキングでその地位を失う可能性がある。
論文 参考訳(メタデータ) (2024-12-02T16:55:03Z) - LLMs Assist NLP Researchers: Critique Paper (Meta-)Reviewing [106.45895712717612]
大規模言語モデル(LLM)は、様々な生成タスクにおいて顕著な汎用性を示している。
本研究は,NLP研究者を支援するLLMの話題に焦点を当てる。
私たちの知る限りでは、このような包括的な分析を提供するのはこれが初めてです。
論文 参考訳(メタデータ) (2024-06-24T01:30:22Z) - Auto-Arena: Automating LLM Evaluations with Agent Peer Battles and Committee Discussions [77.66677127535222]
Auto-ArenaはLLMエージェントを使用した評価プロセス全体を自動化した革新的なフレームワークである。
我々の実験では、Auto-Arenaは92.14%の相関関係を示し、以前の専門家が注釈付けしたベンチマークをすべて上回っている。
論文 参考訳(メタデータ) (2024-05-30T17:19:19Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。