Fugu-MT 論文翻訳(概要): Is Your Paper Being Reviewed by an LLM? Investigating AI Text Detectability in Peer Review

論文の概要: Is Your Paper Being Reviewed by an LLM? Investigating AI Text Detectability in Peer Review

arxiv url: http://arxiv.org/abs/2410.03019v1
Date: Thu, 3 Oct 2024 22:05:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-03 04:25:56.042898
Title: Is Your Paper Being Reviewed by an LLM? Investigating AI Text Detectability in Peer Review
Title（参考訳）: 論文はLLMでレビューされるか? ピアレビューでAIテキストの検出可能性を探る
Authors: Sungduk Yu, Man Luo, Avinash Madasu, Vasudev Lal, Phillip Howard,
Abstract要約: 既存のAIテキスト検出アルゴリズムが人間の書いたピアレビューと最先端のLLMを区別する能力について検討する。分析の結果,既存の手法では,多くの GPT-4o 書面レビューを偽陽性分類を発生させることなく識別できないことがわかった。偽陽性分類の低レベルにおけるGPT-4o書評の同定において,既存の手法を超越した新たな検出手法を提案する。
参考スコア（独自算出の注目度）: 8.606381080620789
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Peer review is a critical process for ensuring the integrity of published scientific research. Confidence in this process is predicated on the assumption that experts in the relevant domain give careful consideration to the merits of manuscripts which are submitted for publication. With the recent rapid advancements in the linguistic capabilities of large language models (LLMs), a new potential risk to the peer review process is that negligent reviewers will rely on LLMs to perform the often time consuming process of reviewing a paper. In this study, we investigate the ability of existing AI text detection algorithms to distinguish between peer reviews written by humans and different state-of-the-art LLMs. Our analysis shows that existing approaches fail to identify many GPT-4o written reviews without also producing a high number of false positive classifications. To address this deficiency, we propose a new detection approach which surpasses existing methods in the identification of GPT-4o written peer reviews at low levels of false positive classifications. Our work reveals the difficulty of accurately identifying AI-generated text at the individual review level, highlighting the urgent need for new tools and methods to detect this type of unethical application of generative AI.
Abstract（参考訳）: ピアレビューは、公表された科学研究の完全性を保証するための重要なプロセスである。この過程での信任性は、関係分野の専門家が出版のために提出された写本の長所を慎重に検討する、という前提に基づいている。大規模言語モデル(LLM)の言語能力の最近の急速な進歩により、ピアレビュープロセスにおける新たな潜在的なリスクは、ネグリジェントレビュアーが論文をレビューする時間を要するプロセスを実行するためにLLMに依存することである。本研究では,既存のAIテキスト検出アルゴリズムが,人間によって書かれたピアレビューと,最先端のLLMを区別する能力について検討する。分析の結果,既存の手法では,多くの GPT-4o 書面レビューを偽陽性分類を発生させることなく識別できないことがわかった。そこで本研究では,GPT-4o書評において,偽陽性分類の低レベルにおいて,既存の手法を超越した新たな検出手法を提案する。我々の研究は、個々のレビューレベルでAI生成テキストを正確に識別することの難しさを明らかにし、生成AIのこのような非倫理的応用を検出するための新しいツールや方法が緊急に必要であることを強調している。

関連論文リスト

BadScientist: Can a Research Agent Write Convincing but Unsound Papers that Fool LLM Reviewers? [21.78901120638025]
製造指向の紙生成エージェントがマルチモデルLCMレビューシステムを欺くことができるかどうかを考察する。我々のジェネレータは、実際の実験を必要としないプレゼンテーション操作戦略を採用している。健全な集約数学にもかかわらず、整合性検査は体系的に失敗する。
論文参考訳（メタデータ） (2025-10-20T18:37:11Z)
ReviewGuard: Enhancing Deficient Peer Review Detection via LLM-Driven Data Augmentation [3.9199635838637072]
ReviewGuardは、欠陥レビューを検出して分類する自動化システムである。最終コーパスは6,634枚、実際のレビュー24,657枚、合成レビュー46,438枚である。不十分なレビューでは、評価スコアの低下、自己報告の信頼性の向上、構造的な複雑さの低減、ネガティブな感情の比率の向上が示されています。
論文参考訳（メタデータ） (2025-10-18T15:45:26Z)
Automatic Reviewers Fail to Detect Faulty Reasoning in Research Papers: A New Counterfactual Evaluation Framework [55.078301794183496]
我々は、高品質なピアレビューを支えるコアレビュースキル、すなわち欠陥のある研究ロジックの検出に注力する。これは、論文の結果、解釈、クレームの間の内部の一貫性を評価することを含む。本稿では,このスキルを制御条件下で分離し,テストする,完全自動対物評価フレームワークを提案する。
論文参考訳（メタデータ） (2025-08-29T08:48:00Z)
CoCoNUTS: Concentrating on Content while Neglecting Uninformative Textual Styles for AI-Generated Peer Review Detection [60.52240468810558]
我々は、AI生成ピアレビューの詳細なデータセットの上に構築されたコンテンツ指向ベンチマークであるCoCoNUTSを紹介する。また、マルチタスク学習フレームワークを介してAIレビュー検出を行うCoCoDetを開発し、レビューコンテンツにおけるAIのより正確で堅牢な検出を実現する。
論文参考訳（メタデータ） (2025-08-28T06:03:11Z)
Beyond "Not Novel Enough": Enriching Scholarly Critique with LLM-Assisted Feedback [81.0031690510116]
本稿では,3段階を通して専門家レビューアの動作をモデル化する,自動ノベルティ評価のための構造化アプローチを提案する。本手法は,人文のノベルティレビューを大規模に分析した結果から得られたものである。 182 ICLR 2025 の提出で評価されたこの手法は、人間の推論と86.5%の一致と、新規性の結論に関する75.3%の合意を達成している。
論文参考訳（メタデータ） (2025-08-14T16:18:37Z)
Identity Theft in AI Conference Peer Review [50.18240135317708]
人工知能(AI)研究における科学的ピアレビュープロセスにおいて,新たに発見されたID盗難事例について論じる。論文評価の操作に不正なレビュアープロファイルを作成することにより、不正直な研究者がピアレビューシステムをどのように活用するかを詳述する。
論文参考訳（メタデータ） (2025-08-06T02:36:52Z)
Hidden Prompts in Manuscripts Exploit AI-Assisted Peer Review [0.0]
プレプリントのウェブサイト arXiv にある18の学術写本は、AI支援ピアレビューを操作するために設計された隠された命令を含んでいることが発見された。著者の反応は様々で、1人は影響を受けた論文を撤回する計画を立て、もう1人はレビュアーコンプライアンスの合法的なテストとしてプラクティスを擁護した。大規模言語モデル (LLM) におけるプロンプト注入技術について検討し, 4種類の隠蔽プロンプトを明らかにする。
論文参考訳（メタデータ） (2025-07-08T17:11:13Z)
The AI Imperative: Scaling High-Quality Peer Review in Machine Learning [49.87236114682497]
AIによるピアレビューは、緊急の研究とインフラの優先事項になるべきだ、と私たちは主張する。我々は、事実検証の強化、レビュアーのパフォーマンスの指導、品質改善における著者の支援、意思決定におけるAC支援におけるAIの具体的な役割を提案する。
論文参考訳（メタデータ） (2025-06-09T18:37:14Z)
Your Language Model Can Secretly Write Like Humans: Contrastive Paraphrase Attacks on LLM-Generated Text Detectors [65.27124213266491]
テキスト検出を効果的に欺く訓練不要な方法である textbfContrastive textbfParaphrase textbfAttack (CoPA) を提案する。 CoPAは、大規模言語モデルによって生成される人間のような分布とは対照的に、補助的な機械的な単語分布を構築している。我々の理論的分析は、提案された攻撃の優越性を示唆している。
論文参考訳（メタデータ） (2025-05-21T10:08:39Z)
Detecting LLM-Generated Peer Reviews [37.51215252353345]
大規模言語モデル(LLM)の台頭は、一部のレビュアーが独立して記述するのではなく、レビューを生成するためにこれらのツールに依存するのではないかという懸念を提起している。論文のPDFを通じて間接的インジェクションを行うアプローチを考察し,LLMが生成したレビューに隠された透かしを埋め込むよう促す。本稿では,複数のレビューにまたがって家族的誤り率を制御し,標準的な修正よりも高い統計力を実現する透かし方式と仮説テストを導入する。
論文参考訳（メタデータ） (2025-03-20T01:11:35Z)
Is Your Paper Being Reviewed by an LLM? A New Benchmark Dataset and Approach for Detecting AI Text in Peer Review [6.20631177269082]
我々は、AIで書かれたピアレビューを、対応する人間のレビューと組み合わせた合計788,984件の包括的データセットを導入する。我々は、この新たなリソースを使用して、既存の18のAIテキスト検出アルゴリズムが、人間が書いたピアレビューと、最先端のLLMを区別する能力を評価する。
論文参考訳（メタデータ） (2025-02-26T23:04:05Z)
ReviewEval: An Evaluation Framework for AI-Generated Reviews [9.35023998408983]
本研究は、AI生成レビューのための総合的な評価フレームワークを紹介する。人間の評価との整合性を測定し、事実の正確性を検証し、分析的な深さを評価し、実行可能な洞察を識別する。我々のフレームワークは、AIベースのレビューシステムを評価するための標準化されたメトリクスを確立する。
論文参考訳（メタデータ） (2025-02-17T12:22:11Z)
Are We There Yet? Revealing the Risks of Utilizing Large Language Models in Scholarly Peer Review [66.73247554182376]
大規模言語モデル(LLM)がピアレビューに統合された。未確認のLLMの採用は、ピアレビューシステムの完全性に重大なリスクをもたらす。 5%のレビューを操作すれば、論文の12%が上位30%のランキングでその地位を失う可能性がある。
論文参考訳（メタデータ） (2024-12-02T16:55:03Z)
AI-Driven Review Systems: Evaluating LLMs in Scalable and Bias-Aware Academic Reviews [18.50142644126276]
我々は,人選好のアリーナを用いて,人選好と自動レビューのアライメントを評価する。我々は、LLMを微調整して人間の好みを予測し、LLM同士の真っ向からの戦いにおいて、どのレビューが好まれるかを予測する。我々は、公開可能なarXivおよびオープンアクセスのNatureジャーナルのレビューをオンラインで公開し、著者が研究論文をレビューし、改訂し、品質を改善するのに役立つ無料サービスを提供しています。
論文参考訳（メタデータ） (2024-08-19T19:10:38Z)
RelevAI-Reviewer: A Benchmark on AI Reviewers for Survey Paper Relevance [0.8089605035945486]
本稿では,調査論文レビューの課題を分類問題として概念化するシステムであるRelevAI-Reviewerを提案する。 25,164のインスタンスからなる新しいデータセットを導入する。各インスタンスには1つのプロンプトと4つの候補論文があり、それぞれがプロンプトに関連している。我々は,各論文の関連性を判断し,最も関連性の高い論文を識別できる機械学習(ML)モデルを開発した。
論文参考訳（メタデータ） (2024-06-13T06:42:32Z)
Monitoring AI-Modified Content at Scale: A Case Study on the Impact of ChatGPT on AI Conference Peer Reviews [51.453135368388686]
本稿では,大規模言語モデル (LLM) によって実質的に修正あるいは生成される可能性のある大規模コーパスにおけるテキストの分数推定手法を提案する。我々の最大可能性モデルは、専門家による参照テキストとAIによる参照テキストを利用して、コーパスレベルでの実世界のLLM使用を正確かつ効率的に検証する。
論文参考訳（メタデータ） (2024-03-11T21:51:39Z)
A Literature Review of Literature Reviews in Pattern Analysis and Machine Intelligence [58.6354685593418]
本稿では, レビューを評価するために, 記事レベル, フィールド正規化, 大規模言語モデルを用いた書誌指標を提案する。新たに登場したAI生成の文献レビューも評価されている。この研究は、文学レビューの現在の課題についての洞察を与え、彼らの開発に向けた今後の方向性を思い起こさせる。
論文参考訳（メタデータ） (2024-02-20T11:28:50Z)
Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。本稿では,基準自由度に欠陥があるかどうかを考察する。 GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文参考訳（メタデータ） (2024-02-18T12:36:23Z)
Hidding the Ghostwriters: An Adversarial Evaluation of AI-Generated Student Essay Detection [29.433764586753956]
大規模言語モデル(LLM)は、テキスト生成タスクにおいて顕著な機能を示した。これらのモデルの利用には、盗作行為、偽ニュースの普及、教育演習における問題など、固有のリスクが伴う。本稿では,AI生成した学生エッセイデータセットであるAIG-ASAPを構築し,このギャップを埋めることを目的とする。
論文参考訳（メタデータ） (2024-02-01T08:11:56Z)
Counter Turing Test CT^2: AI-Generated Text Detection is Not as Easy as You May Think -- Introducing AI Detectability Index [9.348082057533325]
AI生成テキスト検出(AGTD)はすでに研究で注目を集めているトピックとして現れている。本稿では,既存のAGTD手法の脆弱性を総合的に評価することを目的とした手法のベンチマークであるCounter Turing Test (CT2)を紹介する。
論文参考訳（メタデータ） (2023-10-08T06:20:36Z)
Beyond Black Box AI-Generated Plagiarism Detection: From Sentence to Document Level [4.250876580245865]
既存のAI生成テキスト分類器は精度が限られており、しばしば偽陽性を生成する。自然言語処理(NLP)技術を用いた新しい手法を提案する。与えられた質問の複数のパラフレーズ付きバージョンを生成し、それを大きな言語モデルに入力し、回答を生成する。本研究では,コサイン類似度に基づくコントラスト的損失関数を用いて,生成文と学生の反応とをマッチングする。
論文参考訳（メタデータ） (2023-06-13T20:34:55Z)
MGTBench: Benchmarking Machine-Generated Text Detection [54.81446366272403]
本稿では,強力な大規模言語モデル(LLM)に対するMGT検出のための最初のベンチマークフレームワークを提案する。一般に単語が多ければ多いほど性能が向上し,ほとんどの検出手法はトレーニングサンプルをはるかに少なくして同様の性能が得られることを示す。本研究は, テキスト属性タスクにおいて, モデルに基づく検出手法が依然として有効であることを示す。
論文参考訳（メタデータ） (2023-03-26T21:12:36Z)
Can AI-Generated Text be Reliably Detected? [54.670136179857344]
LLMの規制されていない使用は、盗作、偽ニュースの生成、スパムなど、悪意のある結果をもたらす可能性がある。最近の研究は、生成されたテキスト出力に存在する特定のモデルシグネチャを使用するか、透かし技術を適用してこの問題に対処しようとしている。本稿では,これらの検出器は実用シナリオにおいて信頼性が低いことを示す。
論文参考訳（メタデータ） (2023-03-17T17:53:19Z)
A Dataset on Malicious Paper Bidding in Peer Review [84.68308372858755]
悪意あるレビュアーは、紙の割り当てを非倫理的に操作するために戦略的に入札した。この問題を緩和するための方法の作成と評価への重要な障害は、悪意ある紙入札に関する公開データの欠如である。我々は、参加者に正直に、悪意的に入札するよう指示されたモックカンファレンス活動から収集された、新しいデータセットをリリースする。
論文参考訳（メタデータ） (2022-06-24T20:23:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。