論文の概要: Breaking the Reviewer: Assessing the Vulnerability of Large Language Models in Automated Peer Review Under Textual Adversarial Attacks
- arxiv url: http://arxiv.org/abs/2506.11113v1
- Date: Sun, 08 Jun 2025 16:57:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.473698
- Title: Breaking the Reviewer: Assessing the Vulnerability of Large Language Models in Automated Peer Review Under Textual Adversarial Attacks
- Title(参考訳): レビューを破る: テキスト・アタックによるピア・レビューにおける大規模言語モデルの脆弱性の評価
- Authors: Tzu-Ling Lin, Wei-Chih Chen, Teng-Fang Hsiao, Hou-I Liu, Ya-Hsin Yeh, Yu Kai Chan, Wen-Sheng Lien, Po-Yen Kuo, Philip S. Yu, Hong-Han Shuai,
- Abstract要約: 本稿では,大規模言語モデル (LLM) が,敵対的攻撃の存在下で自動レビュアーとして使用されることのロバスト性について検討する。
テキスト操作はLLM評価を歪ませる可能性があるため,本評価は重大な脆弱性を明らかにする。
我々の発見は、学術コミュニケーションの完全性よりも、AIの強化を確実にするために、敵対的リスクに対処することの重要性を強調した。
- 参考スコア(独自算出の注目度): 38.04549194339918
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Peer review is essential for maintaining academic quality, but the increasing volume of submissions places a significant burden on reviewers. Large language models (LLMs) offer potential assistance in this process, yet their susceptibility to textual adversarial attacks raises reliability concerns. This paper investigates the robustness of LLMs used as automated reviewers in the presence of such attacks. We focus on three key questions: (1) The effectiveness of LLMs in generating reviews compared to human reviewers. (2) The impact of adversarial attacks on the reliability of LLM-generated reviews. (3) Challenges and potential mitigation strategies for LLM-based review. Our evaluation reveals significant vulnerabilities, as text manipulations can distort LLM assessments. We offer a comprehensive evaluation of LLM performance in automated peer reviewing and analyze its robustness against adversarial attacks. Our findings emphasize the importance of addressing adversarial risks to ensure AI strengthens, rather than compromises, the integrity of scholarly communication.
- Abstract(参考訳): ピアレビューは学術的品質を維持するのに不可欠であるが、提出数の増加はレビュアーに重大な負担を与える。
大規模言語モデル(LLM)は、このプロセスにおいて潜在的に補助を提供するが、テキストの敵対攻撃への感受性は信頼性の懸念を引き起こす。
本稿では, 自動レビュアーとして使用するLDMのロバスト性について検討する。
1) レビュー作成におけるLLMの有効性について, 人間のレビュアーと比較して検討した。
2) LLM 作成レビューの信頼性に対する敵攻撃の影響
(3)LCMに基づくレビューの課題と可能性
テキスト操作はLLM評価を歪ませる可能性があるため,本評価は重大な脆弱性を明らかにする。
我々は、自動ピアレビューにおけるLLM性能の総合評価を行い、敵攻撃に対するロバスト性を解析する。
我々の発見は、学術コミュニケーションの完全性よりも、AIの強化を確実にするために、敵対的リスクに対処することの重要性を強調した。
関連論文リスト
- LLM-Safety Evaluations Lack Robustness [58.334290876531036]
我々は、大規模言語モデルに対する現在の安全アライメント研究は、多くのノイズ源によって妨げられていると論じる。
本研究では,将来の攻撃・防衛用紙の評価において,ノイズやバイアスを低減させる一連のガイドラインを提案する。
論文 参考訳(メタデータ) (2025-03-04T12:55:07Z) - Human-Readable Adversarial Prompts: An Investigation into LLM Vulnerabilities Using Situational Context [45.821481786228226]
本研究では,状況文脈を利用した状況駆動型逆転フルプロンプトが効果的であるが,検出がはるかに困難であることを示す。
映画脚本を状況的文脈の枠組みとして利用する攻撃を開発した。
我々は, p-核サンプリングによるAdvPrompterフレームワークを拡張し, 多様な可読テキストを生成する。
論文 参考訳(メタデータ) (2024-12-20T21:43:52Z) - Are We There Yet? Revealing the Risks of Utilizing Large Language Models in Scholarly Peer Review [66.73247554182376]
大規模言語モデル(LLM)がピアレビューに統合された。
未確認のLLMの採用は、ピアレビューシステムの完全性に重大なリスクをもたらす。
5%のレビューを操作すれば、論文の12%が上位30%のランキングでその地位を失う可能性がある。
論文 参考訳(メタデータ) (2024-12-02T16:55:03Z) - Assessing Adversarial Robustness of Large Language Models: An Empirical Study [24.271839264950387]
大規模言語モデル(LLM)は自然言語処理に革命をもたらしたが、敵の攻撃に対する頑強さは依然として重要な問題である。
Llama, OPT, T5 など,主要なオープンソース LLM の脆弱性を露呈する,新しいホワイトボックス型攻撃手法を提案する。
論文 参考訳(メタデータ) (2024-05-04T22:00:28Z) - Is LLM-as-a-Judge Robust? Investigating Universal Adversarial Attacks on Zero-shot LLM Assessment [8.948475969696075]
LLM(Large Language Models)は、筆記試験やベンチマークシステムなどの実世界の状況で使用される強力なゼロショットアセスメントである。
本研究では,LLMを判断し,膨らませたスコアを判断するために,短い普遍的対数句を欺くことができることを示す。
判定-LLMは,絶対スコアリングに使用する場合,これらの攻撃に対して有意に感受性が高いことが判明した。
論文 参考訳(メタデータ) (2024-02-21T18:55:20Z) - CriticEval: Evaluating Large Language Model as Critic [110.29766259843453]
CriticEvalは、大規模言語モデルの批判能力を包括的かつ確実に評価するように設計された、新しいベンチマークである。
包括性を確保するため、CriticalEvalは9つの異なるタスクシナリオの4次元から批判能力を評価する。
信頼性を確保するため、多数の批判が注釈付けされ、参照として機能する。
論文 参考訳(メタデータ) (2024-02-21T12:38:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。