論文の概要: BadScientist: Can a Research Agent Write Convincing but Unsound Papers that Fool LLM Reviewers?
- arxiv url: http://arxiv.org/abs/2510.18003v1
- Date: Mon, 20 Oct 2025 18:37:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.515368
- Title: BadScientist: Can a Research Agent Write Convincing but Unsound Papers that Fool LLM Reviewers?
- Title(参考訳): BadScientist:研究員がLLMレビュアーを楽しませる紙を書けるか?
- Authors: Fengqing Jiang, Yichen Feng, Yuetai Li, Luyao Niu, Basel Alomair, Radha Poovendran,
- Abstract要約: 製造指向の紙生成エージェントがマルチモデルLCMレビューシステムを欺くことができるかどうかを考察する。
我々のジェネレータは、実際の実験を必要としないプレゼンテーション操作戦略を採用している。
健全な集約数学にもかかわらず、整合性検査は体系的に失敗する。
- 参考スコア(独自算出の注目度): 21.78901120638025
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The convergence of LLM-powered research assistants and AI-based peer review systems creates a critical vulnerability: fully automated publication loops where AI-generated research is evaluated by AI reviewers without human oversight. We investigate this through \textbf{BadScientist}, a framework that evaluates whether fabrication-oriented paper generation agents can deceive multi-model LLM review systems. Our generator employs presentation-manipulation strategies requiring no real experiments. We develop a rigorous evaluation framework with formal error guarantees (concentration bounds and calibration analysis), calibrated on real data. Our results reveal systematic vulnerabilities: fabricated papers achieve acceptance rates up to . Critically, we identify \textit{concern-acceptance conflict} -- reviewers frequently flag integrity issues yet assign acceptance-level scores. Our mitigation strategies show only marginal improvements, with detection accuracy barely exceeding random chance. Despite provably sound aggregation mathematics, integrity checking systematically fails, exposing fundamental limitations in current AI-driven review systems and underscoring the urgent need for defense-in-depth safeguards in scientific publishing.
- Abstract(参考訳): LLMを使った研究アシスタントとAIベースのピアレビューシステムの収束は、重大な脆弱性を生み出している。
製造指向紙生成エージェントがマルチモデルLCMレビューシステムを騙すことができるかどうかを評価するフレームワークである。
我々のジェネレータは、実際の実験を必要としないプレゼンテーション操作戦略を採用している。
我々は,実データに基づく厳密な評価フレームワークを開発し,形式的エラー保証(集中バウンダリとキャリブレーション解析)を行う。
本研究の結果, 組織的脆弱性が明らかとなった。
批判的に言えば、 \textit{concern-acceptance conflict} -- レビュアーは、しばしば整合性の問題にフラグを立てるが、受け入れレベルのスコアを割り当てる。
我々の緩和戦略は限界的な改善しか示さず、検出精度はランダムな確率を超えることはほとんどない。
確実に健全なアグリゲーション数学にもかかわらず、整合性チェックは体系的に失敗し、現在のAI駆動のレビューシステムの基本的限界を明らかにし、科学出版における防御の緊急の必要性を強調している。
関連論文リスト
- The More You Automate, the Less You See: Hidden Pitfalls of AI Scientist Systems [11.543423308064275]
AI科学者システムは、仮説生成から論文執筆までの完全な研究ワークフローを実行することができる。
この精査の欠如は、研究成果の完全性、信頼性、信頼性を損なう可能性のある欠陥を導入するリスクを生じさせる。
現代のAI科学者システムでは、不適切なベンチマーク選択、データ漏洩、メトリック誤用、ポストホック選択バイアスの4つの潜在的な障害モードを特定している。
論文 参考訳(メタデータ) (2025-09-10T16:04:24Z) - Automatic Reviewers Fail to Detect Faulty Reasoning in Research Papers: A New Counterfactual Evaluation Framework [55.078301794183496]
我々は、高品質なピアレビューを支えるコアレビュースキル、すなわち欠陥のある研究ロジックの検出に注力する。
これは、論文の結果、解釈、クレームの間の内部の一貫性を評価することを含む。
本稿では,このスキルを制御条件下で分離し,テストする,完全自動対物評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-29T08:48:00Z) - CoCoNUTS: Concentrating on Content while Neglecting Uninformative Textual Styles for AI-Generated Peer Review Detection [60.52240468810558]
我々は、AI生成ピアレビューの詳細なデータセットの上に構築されたコンテンツ指向ベンチマークであるCoCoNUTSを紹介する。
また、マルチタスク学習フレームワークを介してAIレビュー検出を行うCoCoDetを開発し、レビューコンテンツにおけるAIのより正確で堅牢な検出を実現する。
論文 参考訳(メタデータ) (2025-08-28T06:03:11Z) - The AI Imperative: Scaling High-Quality Peer Review in Machine Learning [49.87236114682497]
AIによるピアレビューは、緊急の研究とインフラの優先事項になるべきだ、と私たちは主張する。
我々は、事実検証の強化、レビュアーのパフォーマンスの指導、品質改善における著者の支援、意思決定におけるAC支援におけるAIの具体的な役割を提案する。
論文 参考訳(メタデータ) (2025-06-09T18:37:14Z) - LLM-Safety Evaluations Lack Robustness [58.334290876531036]
我々は、大規模言語モデルに対する現在の安全アライメント研究は、多くのノイズ源によって妨げられていると論じる。
本研究では,将来の攻撃・防衛用紙の評価において,ノイズやバイアスを低減させる一連のガイドラインを提案する。
論文 参考訳(メタデータ) (2025-03-04T12:55:07Z) - Is Your Paper Being Reviewed by an LLM? Benchmarking AI Text Detection in Peer Review [6.20631177269082]
ピアレビュープロセスに対する新たなリスクは、Negligentレビュアーが論文をレビューするために大きな言語モデル(LLM)に依存することだ。
我々は、AIで書かれたピアレビューを、対応する人間のレビューと組み合わせた合計788,984件の包括的データセットを導入する。
我々は、この新たなリソースを使用して、既存の18のAIテキスト検出アルゴリズムが、人間が完全に書いたピアレビューと、最先端のLLMを区別する能力を評価する。
論文 参考訳(メタデータ) (2025-02-26T23:04:05Z) - Are We There Yet? Revealing the Risks of Utilizing Large Language Models in Scholarly Peer Review [66.73247554182376]
大規模言語モデル(LLM)がピアレビューに統合された。
未確認のLLMの採用は、ピアレビューシステムの完全性に重大なリスクをもたらす。
5%のレビューを操作すれば、論文の12%が上位30%のランキングでその地位を失う可能性がある。
論文 参考訳(メタデータ) (2024-12-02T16:55:03Z) - Is Your Paper Being Reviewed by an LLM? Investigating AI Text Detectability in Peer Review [8.606381080620789]
既存のAIテキスト検出アルゴリズムが人間の書いたピアレビューと最先端のLLMを区別する能力について検討する。
分析の結果,既存の手法では,多くの GPT-4o 書面レビューを偽陽性分類を発生させることなく識別できないことがわかった。
偽陽性分類の低レベルにおけるGPT-4o書評の同定において,既存の手法を超越した新たな検出手法を提案する。
論文 参考訳(メタデータ) (2024-10-03T22:05:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。