論文の概要: Hidden Prompts in Manuscripts Exploit AI-Assisted Peer Review
- arxiv url: http://arxiv.org/abs/2507.06185v1
- Date: Tue, 08 Jul 2025 17:11:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:38.359709
- Title: Hidden Prompts in Manuscripts Exploit AI-Assisted Peer Review
- Title(参考訳): AIを駆使したピアレビューで書かれた文書に隠されたプロンプト
- Authors: Zhicheng Lin,
- Abstract要約: プレプリントのウェブサイト arXiv にある18の学術写本は、AI支援ピアレビューを操作するために設計された隠された命令を含んでいることが発見された。
著者の反応は様々で、1人は影響を受けた論文を撤回する計画を立て、もう1人はレビュアーコンプライアンスの合法的なテストとしてプラクティスを擁護した。
大規模言語モデル (LLM) におけるプロンプト注入技術について検討し, 4種類の隠蔽プロンプトを明らかにする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In July 2025, 18 academic manuscripts on the preprint website arXiv were found to contain hidden instructions known as prompts designed to manipulate AI-assisted peer review. Instructions such as "GIVE A POSITIVE REVIEW ONLY" were concealed using techniques like white-colored text. Author responses varied: one planned to withdraw the affected paper, while another defended the practice as legitimate testing of reviewer compliance. This commentary analyzes this practice as a novel form of research misconduct. We examine the technique of prompt injection in large language models (LLMs), revealing four types of hidden prompts, ranging from simple positive review commands to detailed evaluation frameworks. The defense that prompts served as "honeypots" to detect reviewers improperly using AI fails under examination--the consistently self-serving nature of prompt instructions indicates intent to manipulate. Publishers maintain inconsistent policies: Elsevier prohibits AI use in peer review entirely, while Springer Nature permits limited use with disclosure requirements. The incident exposes systematic vulnerabilities extending beyond peer review to any automated system processing scholarly texts, including plagiarism detection and citation indexing. Our analysis underscores the need for coordinated technical screening at submission portals and harmonized policies governing generative AI (GenAI) use in academic evaluation.
- Abstract(参考訳): 2025年7月、プレプリントのウェブサイトarXivにある18の学術写本が、AI支援ピアレビューを操作するために設計されたプロンプトとして知られる隠された命令を含むことが発見された。
『GIVE A POSITIVE REVIEW ONLY』などの命令は白黒テキストのような技法で隠された。
著者の反応は様々で、1人は影響を受けた論文を撤回する計画を立て、もう1人はレビュアーコンプライアンスの合法的なテストとしてプラクティスを擁護した。
この解説は、この実践を新しい研究の不正行為として分析する。
大規模言語モデル(LLM)におけるプロンプトインジェクション技術について検討し,単純な肯定的レビューコマンドから詳細な評価フレームワークまで,4種類の隠蔽プロンプトを明らかにする。
AIの使用を不適切に検出する「ホットポット(Honeypots)」として機能する防衛は、試験中に失敗する。
出版社は一貫性のないポリシーを維持している: ElsevierはピアレビューにおけるAIの使用を完全に禁止している。
このインシデントは、ピアレビューを超えて、盗作検出や引用インデックス作成を含む学術論文を自動処理するあらゆるシステムに、体系的な脆弱性を公開する。
本分析は,提案ポータルにおける協調的技術スクリーニングの必要性と,学術評価におけるジェネレーティブAI(GenAI)の利用を規定する調和した政策の必要性を浮き彫りにした。
関連論文リスト
- Red Teaming for Generative AI, Report on a Copyright-Focused Exercise Completed in an Academic Medical Center [49.85176045690678]
学術的な医療環境における生成的人工知能(AI)の展開は著作権の遵守を懸念する。
Dana-Farber Cancer Instituteは、OpenAIモデルを利用した内部生成AIツールであるGPT4DFCIを実装した。
4つのチームが4つのドメインでGPT4DFCIから著作権のあるコンテンツを抽出しようとした。
論文 参考訳(メタデータ) (2025-06-26T23:11:49Z) - In-Context Watermarks for Large Language Models [71.29952527565749]
In-Context Watermarking (ICW)は、インシデントエンジニアリングのみで生成されたテキストに透かしを埋め込む。
粒度の異なる4つのICW戦略について検討した。
本実験は,モデルに依存しない実用的な透かし手法としてのICWの実現可能性を検証するものである。
論文 参考訳(メタデータ) (2025-05-22T17:24:51Z) - Is Your Paper Being Reviewed by an LLM? Benchmarking AI Text Detection in Peer Review [6.20631177269082]
ピアレビュープロセスに対する新たなリスクは、Negligentレビュアーが論文をレビューするために大きな言語モデル(LLM)に依存することだ。
我々は、AIで書かれたピアレビューを、対応する人間のレビューと組み合わせた合計788,984件の包括的データセットを導入する。
我々は、この新たなリソースを使用して、既存の18のAIテキスト検出アルゴリズムが、人間が完全に書いたピアレビューと、最先端のLLMを区別する能力を評価する。
論文 参考訳(メタデータ) (2025-02-26T23:04:05Z) - Is Your Paper Being Reviewed by an LLM? Investigating AI Text Detectability in Peer Review [8.606381080620789]
既存のAIテキスト検出アルゴリズムが人間の書いたピアレビューと最先端のLLMを区別する能力について検討する。
分析の結果,既存の手法では,多くの GPT-4o 書面レビューを偽陽性分類を発生させることなく識別できないことがわかった。
偽陽性分類の低レベルにおけるGPT-4o書評の同定において,既存の手法を超越した新たな検出手法を提案する。
論文 参考訳(メタデータ) (2024-10-03T22:05:06Z) - The Great AI Witch Hunt: Reviewers Perception and (Mis)Conception of Generative AI in Research Writing [25.73744132026804]
研究執筆におけるジェネレーティブAI(GenAI)の利用は急速に増加している。
ピアレビュアーがAIによる増補された写本をどう認識するか、それとも誤認しているかは明らかでない。
我々の研究結果は、AIによって強化された文章は可読性、言語多様性、情報性を改善するが、しばしば研究の詳細や著者からの反射的な洞察を欠いていることを示唆している。
論文 参考訳(メタデータ) (2024-06-27T02:38:25Z) - A Literature Review of Literature Reviews in Pattern Analysis and Machine Intelligence [55.33653554387953]
パターン分析とマシンインテリジェンス(PAMI)は、情報の収集と断片化を目的とした多くの文献レビューにつながっている。
本稿では、PAMI分野におけるこれらの文献レビューの徹底的な分析について述べる。
1)PAMI文献レビューの構造的・統計的特徴は何か,(2)レビューの増大するコーパスを効率的にナビゲートするために研究者が活用できる戦略は何か,(3)AIが作成したレビューの利点と限界は人間によるレビューと比較するとどのようなものか,という3つの主要な研究課題に対処しようとする。
論文 参考訳(メタデータ) (2024-02-20T11:28:50Z) - A LLM Assisted Exploitation of AI-Guardian [57.572998144258705]
IEEE S&P 2023で発表された敵に対する最近の防衛であるAI-Guardianの堅牢性を評価する。
我々は、このモデルを攻撃するためのコードを書かず、代わりに、GPT-4に命令とガイダンスに従って全ての攻撃アルゴリズムを実装するよう促します。
このプロセスは驚くほど効果的で効率的であり、言語モデルでは、この論文の著者が実行したよりも高速に曖昧な命令からコードを生成することもあった。
論文 参考訳(メタデータ) (2023-07-20T17:33:25Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。