Fugu-MT 論文翻訳(概要): Are We There Yet? Revealing the Risks of Utilizing Large Language Models in Scholarly Peer Review

論文の概要: Are We There Yet? Revealing the Risks of Utilizing Large Language Models in Scholarly Peer Review

arxiv url: http://arxiv.org/abs/2412.01708v1
Date: Mon, 02 Dec 2024 16:55:03 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-04 21:11:22.664263
Title: Are We There Yet? Revealing the Risks of Utilizing Large Language Models in Scholarly Peer Review
Title（参考訳）: いまだに存在するか? Scholarly Peer Reviewにおける大規模言語モデルの利用リスク
Authors: Rui Ye, Xianghe Pang, Jingyi Chai, Jiaao Chen, Zhenfei Yin, Zhen Xiang, Xiaowen Dong, Jing Shao, Siheng Chen,
Abstract要約: 大規模言語モデル(LLM)がピアレビューに統合された。未確認のLLMの採用は、ピアレビューシステムの完全性に重大なリスクをもたらす。 5%のレビューを操作すれば、論文の12%が上位30%のランキングでその地位を失う可能性がある。
参考スコア（独自算出の注目度）: 66.73247554182376
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Scholarly peer review is a cornerstone of scientific advancement, but the system is under strain due to increasing manuscript submissions and the labor-intensive nature of the process. Recent advancements in large language models (LLMs) have led to their integration into peer review, with promising results such as substantial overlaps between LLM- and human-generated reviews. However, the unchecked adoption of LLMs poses significant risks to the integrity of the peer review system. In this study, we comprehensively analyze the vulnerabilities of LLM-generated reviews by focusing on manipulation and inherent flaws. Our experiments show that injecting covert deliberate content into manuscripts allows authors to explicitly manipulate LLM reviews, leading to inflated ratings and reduced alignment with human reviews. In a simulation, we find that manipulating 5% of the reviews could potentially cause 12% of the papers to lose their position in the top 30% rankings. Implicit manipulation, where authors strategically highlight minor limitations in their papers, further demonstrates LLMs' susceptibility compared to human reviewers, with a 4.5 times higher consistency with disclosed limitations. Additionally, LLMs exhibit inherent flaws, such as potentially assigning higher ratings to incomplete papers compared to full papers and favoring well-known authors in single-blind review process. These findings highlight the risks of over-reliance on LLMs in peer review, underscoring that we are not yet ready for widespread adoption and emphasizing the need for robust safeguards.
Abstract（参考訳）: 学術的考察は、学術的な進歩の基盤であるが、原稿の提出が増加し、その過程の労働集約性により、制度は緊張している。大規模言語モデル(LLM)の最近の進歩は、LLM-と人為的レビューのかなりの重複といった有望な結果とともに、ピアレビューへの統合につながっている。しかし、未確認のLSMの採用は、ピアレビューシステムの完全性に重大なリスクをもたらす。本研究では,LLM生成レビューの脆弱性を,操作性や固有の欠陥に着目して包括的に解析する。実験の結果,原稿に隠された意図的な内容を注入することで,著者がLLMレビューを明示的に操作し,評価が膨らみ,ヒトレビューとの整合性が低下することが確認された。シミュレーションでは、5%のレビューを操作すると、論文の12%が上位30%のランキングでその地位を失う可能性がある。著者が論文の小さな制限を戦略的に強調するインプリシット操作は、人間のレビュアーと比較してLLMの感受性をさらに証明し、公開制限の4.5倍の一貫性を持つ。加えて、LCMは、完全な論文よりも高い評価を不完全な論文に割り当てる可能性があり、一冊のレビュープロセスで有名な著者を好むなど、固有の欠陥がある。これらの知見は、ピアレビューにおけるLCMの過度な信頼のリスクを浮き彫りにし、我々はまだ広く採用される準備が整っていないことを強調し、堅牢な保護の必要性を強調している。

関連論文リスト

Detecting LLM-Written Peer Reviews [37.51215252353345]
大規模な言語モデル(LLM)を使用して、独立して記述するのではなく、レビューを生成するという、遅延レビュープラクティスの台頭に対する懸念が高まっている。 LLM生成コンテンツを検出する既存のツールは、LLM生成されたレビューと単にLLMによって研磨されたレビューとを区別するために設計されていない。本研究では, LLM生成レビューの識別に簡単なアプローチを用いて, LLMに透かしを埋めるように依頼するために, LLM生成レビューをPDF経由で間接的にインジェクションする。
論文参考訳（メタデータ） (2025-03-20T01:11:35Z)
Automatically Evaluating the Paper Reviewing Capability of Large Language Models [46.0003776499898]
大きな言語モデル(LLM)は補助を提供する可能性を示しているが、研究はそれらが生成するレビューに重大な制限を報告している。本研究では, LLMの論文レビュー機能と専門家によるレビュー機能を比較することで, 自動評価パイプラインを構築した。
論文参考訳（メタデータ） (2025-02-24T12:05:27Z)
AI-Driven Review Systems: Evaluating LLMs in Scalable and Bias-Aware Academic Reviews [18.50142644126276]
我々は,人選好のアリーナを用いて,人選好と自動レビューのアライメントを評価する。我々は、LLMを微調整して人間の好みを予測し、LLM同士の真っ向からの戦いにおいて、どのレビューが好まれるかを予測する。我々は、公開可能なarXivおよびオープンアクセスのNatureジャーナルのレビューをオンラインで公開し、著者が研究論文をレビューし、改訂し、品質を改善するのに役立つ無料サービスを提供しています。
論文参考訳（メタデータ） (2024-08-19T19:10:38Z)
LLMs Assist NLP Researchers: Critique Paper (Meta-)Reviewing [106.45895712717612]
大規模言語モデル(LLM)は、様々な生成タスクにおいて顕著な汎用性を示している。本研究は,NLP研究者を支援するLLMの話題に焦点を当てる。私たちの知る限りでは、このような包括的な分析を提供するのはこれが初めてです。
論文参考訳（メタデータ） (2024-06-24T01:30:22Z)
Finding Blind Spots in Evaluator LLMs with Interpretable Checklists [23.381287828102995]
テキスト生成タスクにおける評価器として,Large Language Models (LLMs) の有効性を検討する。我々は,4つの重要な能力を評価する上で,評価用LLMの習熟度を評価するための新しいフレームワークであるFBIを提案する。
論文参考訳（メタデータ） (2024-06-19T10:59:48Z)
Decompose and Aggregate: A Step-by-Step Interpretable Evaluation Framework [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文参考訳（メタデータ） (2024-05-24T08:12:30Z)
Is LLM-as-a-Judge Robust? Investigating Universal Adversarial Attacks on Zero-shot LLM Assessment [8.948475969696075]
LLM(Large Language Models)は、筆記試験やベンチマークシステムなどの実世界の状況で使用される強力なゼロショットアセスメントである。本研究では,LLMを判断し,膨らませたスコアを判断するために,短い普遍的対数句を欺くことができることを示す。判定-LLMは,絶対スコアリングに使用する場合,これらの攻撃に対して有意に感受性が高いことが判明した。
論文参考訳（メタデータ） (2024-02-21T18:55:20Z)
Large Language Models are Not Yet Human-Level Evaluators for Abstractive Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文参考訳（メタデータ） (2023-05-22T14:58:13Z)
Appraising the Potential Uses and Harms of LLMs for Medical Systematic Reviews [21.546144601311187]
大規模言語モデル(LLM)は、必要に応じて文献レビューを自動的に生成する可能性がある。 LLMは幻覚や省略によって不正確な(そして潜在的に誤解を招く)テキストを生成することがある。
論文参考訳（メタデータ） (2023-05-19T17:09:19Z)
Benchmarking Large Language Models for News Summarization [79.37850439866938]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。 LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文参考訳（メタデータ） (2023-01-31T18:46:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。