Fugu-MT 論文翻訳(概要): AI-Driven Review Systems: Evaluating LLMs in Scalable and Bias-Aware Academic Reviews

論文の概要: AI-Driven Review Systems: Evaluating LLMs in Scalable and Bias-Aware Academic Reviews

arxiv url: http://arxiv.org/abs/2408.10365v1
Date: Mon, 19 Aug 2024 19:10:38 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-21 17:53:16.046586
Title: AI-Driven Review Systems: Evaluating LLMs in Scalable and Bias-Aware Academic Reviews
Title（参考訳）: AI駆動レビューシステム - スケーラブルでバイアス対応の学術レビューにおけるLLMの評価
Authors: Keith Tyser, Ben Segev, Gaston Longhitano, Xin-Yu Zhang, Zachary Meeks, Jason Lee, Uday Garg, Nicholas Belsten, Avi Shporer, Madeleine Udell, Dov Te'eni, Iddo Drori,
Abstract要約: 我々は,人選好のアリーナを用いて,人選好と自動レビューのアライメントを評価する。我々は、LLMを微調整して人間の好みを予測し、LLM同士の真っ向からの戦いにおいて、どのレビューが好まれるかを予測する。我々は、公開可能なarXivおよびオープンアクセスのNatureジャーナルのレビューをオンラインで公開し、著者が研究論文をレビューし、改訂し、品質を改善するのに役立つ無料サービスを提供しています。
参考スコア（独自算出の注目度）: 18.50142644126276
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Automatic reviewing helps handle a large volume of papers, provides early feedback and quality control, reduces bias, and allows the analysis of trends. We evaluate the alignment of automatic paper reviews with human reviews using an arena of human preferences by pairwise comparisons. Gathering human preference may be time-consuming; therefore, we also use an LLM to automatically evaluate reviews to increase sample efficiency while reducing bias. In addition to evaluating human and LLM preferences among LLM reviews, we fine-tune an LLM to predict human preferences, predicting which reviews humans will prefer in a head-to-head battle between LLMs. We artificially introduce errors into papers and analyze the LLM's responses to identify limitations, use adaptive review questions, meta prompting, role-playing, integrate visual and textual analysis, use venue-specific reviewing materials, and predict human preferences, improving upon the limitations of the traditional review processes. We make the reviews of publicly available arXiv and open-access Nature journal papers available online, along with a free service which helps authors review and revise their research papers and improve their quality. This work develops proof-of-concept LLM reviewing systems that quickly deliver consistent, high-quality reviews and evaluate their quality. We mitigate the risks of misuse, inflated review scores, overconfident ratings, and skewed score distributions by augmenting the LLM with multiple documents, including the review form, reviewer guide, code of ethics and conduct, area chair guidelines, and previous year statistics, by finding which errors and shortcomings of the paper may be detected by automated reviews, and evaluating pairwise reviewer preferences. This work identifies and addresses the limitations of using LLMs as reviewers and evaluators and enhances the quality of the reviewing process.
Abstract（参考訳）: 自動レビューは大量の論文を扱うのに役立ち、早期のフィードバックと品質管理を提供し、バイアスを減らし、トレンドの分析を可能にする。我々は,人選好のアリーナを用いて,人選好と自動レビューのアライメントを評価する。人選好の収集には時間を要する可能性があるため、レビューを自動的に評価し、バイアスを低減しながらサンプル効率を向上させるためにもLLMを使用している。 LLMレビューにおける人間とLLMの選好の評価に加えて、LLMを微調整して人間の選好を予測し、LLM間の真っ向からの戦いにおいて、どのレビューが好まれるかを予測する。論文にエラーを人工的に導入し,LCMの応答を分析して限界を識別し,適応的なレビュー質問,メタプロンプト,ロールプレイング,視覚的およびテキスト的分析の統合,会場固有のレビュー材料の使用,人間の嗜好の予測,従来のレビュープロセスの限界の改善などを行う。我々は、公開可能なarXivおよびオープンアクセスのNatureジャーナルのレビューをオンラインで公開し、著者が研究論文をレビューし、改訂し、品質を改善するのに役立つ無料サービスを提供しています。本研究は,一貫した高品質なレビューを迅速に提供し,その品質を評価する,概念実証LLMレビューシステムの開発である。我々は、レビューフォーム、レビュアーガイド、倫理・行動規範、エリアチェアガイドライン、前年の統計などの複数の文書でLCMを増補することにより、誤用、膨らませたレビュースコア、過信評価、スキュードスコア分布のリスクを軽減し、自動レビューによって論文の誤りや欠点を検知し、ペアワイズレビュアーの選好を評価する。この研究は、LLMをレビュアーや評価者として使用することの限界を特定し、対処し、レビュープロセスの品質を高める。

関連論文リスト

Reviewing Scientific Papers for Critical Problems With Reasoning LLMs: Baseline Approaches and Automatic Evaluation [0.552480439325792]
本稿では,いくつかのベースラインアプローチと,トップ推論 LLM を判断として用いた拡張可能な自動評価フレームワークを提案する。 O3は、全てのモデルで最低限のコストで、最高の問題識別性能を示した。本稿では,文書に基づく科学的理解・推論に関する知見を提供し,今後の応用の基盤となる。
論文参考訳（メタデータ） (2025-05-28T06:14:30Z)
Detecting LLM-Written Peer Reviews [37.51215252353345]
大規模な言語モデル(LLM)を使用して、独立して記述するのではなく、レビューを生成するという、遅延レビュープラクティスの台頭に対する懸念が高まっている。 LLM生成コンテンツを検出する既存のツールは、LLM生成されたレビューと単にLLMによって研磨されたレビューとを区別するために設計されていない。本研究では, LLM生成レビューの識別に簡単なアプローチを用いて, LLMに透かしを埋めるように依頼するために, LLM生成レビューをPDF経由で間接的にインジェクションする。
論文参考訳（メタデータ） (2025-03-20T01:11:35Z)
ReviewAgents: Bridging the Gap Between Human and AI-Generated Paper Reviews [26.031039064337907]
学術論文レビュー(Academic paper review)は、研究コミュニティにおける批判的だが時間を要する課題である。学術出版物の増加に伴い、レビュープロセスの自動化が大きな課題となっている。大規模言語モデル(LLM)を利用して学術論文レビューを生成するフレームワークであるReviewAgentsを提案する。
論文参考訳（メタデータ） (2025-03-11T14:56:58Z)
Automatically Evaluating the Paper Reviewing Capability of Large Language Models [46.0003776499898]
大きな言語モデル(LLM)は補助を提供する可能性を示しているが、研究はそれらが生成するレビューに重大な制限を報告している。本研究では, LLMの論文レビュー機能と専門家によるレビュー機能を比較することで, 自動評価パイプラインを構築した。
論文参考訳（メタデータ） (2025-02-24T12:05:27Z)
Are We There Yet? Revealing the Risks of Utilizing Large Language Models in Scholarly Peer Review [66.73247554182376]
大規模言語モデル(LLM)がピアレビューに統合された。未確認のLLMの採用は、ピアレビューシステムの完全性に重大なリスクをもたらす。 5%のレビューを操作すれば、論文の12%が上位30%のランキングでその地位を失う可能性がある。
論文参考訳（メタデータ） (2024-12-02T16:55:03Z)
Evaluating the Evaluator: Measuring LLMs' Adherence to Task Evaluation Instructions [18.93335792080899]
LLMs-as-a-judgeがAI判断と人間の判断の整合性に与える影響について検討する。我々は、LLMによる最先端評価で一般的に使用される品質基準の分類を集約し、それを審査員として厳密なモデルベンチマークとして提供する。
論文参考訳（メタデータ） (2024-08-16T14:49:35Z)
Review-LLM: Harnessing Large Language Models for Personalized Review Generation [8.898103706804616]
大規模言語モデル(LLM)は、優れたテキストモデリングと生成能力を示している。パーソナライズされたレビュー生成のためのLLMをカスタマイズするReview-LLMを提案する。
論文参考訳（メタデータ） (2024-07-10T09:22:19Z)
LLMs Assist NLP Researchers: Critique Paper (Meta-)Reviewing [106.45895712717612]
大規模言語モデル(LLM)は、様々な生成タスクにおいて顕著な汎用性を示している。本研究は,NLP研究者を支援するLLMの話題に焦点を当てる。私たちの知る限りでは、このような包括的な分析を提供するのはこれが初めてです。
論文参考訳（メタデータ） (2024-06-24T01:30:22Z)
Large Language Models as Evaluators for Recommendation Explanations [23.938202791437337]
我々は,LLMがレコメンデーション・リコメンデーション・リコメンデーションの評価に役立てられるかどうかを検討する。我々は,評価者ラベルとユーザが提供する真実との相関を計測するために,3段階のメタ評価戦略を設計し,適用する。本研究は,LLMを評価対象として活用することは,レコメンデーション説明文の評価において,正確かつ再現可能で費用対効果の高いソリューションであることを示す。
論文参考訳（メタデータ） (2024-06-05T13:23:23Z)
Auto-Arena: Automating LLM Evaluations with Agent Peer Battles and Committee Discussions [77.66677127535222]
Auto-ArenaはLLMエージェントを使用した評価プロセス全体を自動化した革新的なフレームワークである。我々の実験では、Auto-Arenaは92.14%の相関関係を示し、以前の専門家が注釈付けしたベンチマークをすべて上回っている。
論文参考訳（メタデータ） (2024-05-30T17:19:19Z)
DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文参考訳（メタデータ） (2024-05-24T08:12:30Z)
A Literature Review of Literature Reviews in Pattern Analysis and Machine Intelligence [58.6354685593418]
本稿では, レビューを評価するために, 記事レベル, フィールド正規化, 大規模言語モデルを用いた書誌指標を提案する。新たに登場したAI生成の文献レビューも評価されている。この研究は、文学レビューの現在の課題についての洞察を与え、彼らの開発に向けた今後の方向性を思い起こさせる。
論文参考訳（メタデータ） (2024-02-20T11:28:50Z)
Reviewer2: Optimizing Review Generation Through Prompt Generation [27.379753994272875]
本稿では、Reviewer2と呼ばれる効率的な2段階レビュー生成フレームワークを提案する。従来の作業とは異なり、このアプローチは、レビューが対処する可能性のある側面の分布を明示的にモデル化する。アスペクトプロンプトでアノテートした27k論文と99kレビューの大規模なレビューデータセットを生成します。
論文参考訳（メタデータ） (2024-02-16T18:43:10Z)
PRE: A Peer Review Based Large Language Model Evaluator [14.585292530642603]
既存のパラダイムは、LLMの性能を評価するために、人間アノテーションまたはモデルベースの評価器のいずれかに依存している。ピアレビュープロセスを通じてLLMを自動的に評価できる新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-01-28T12:33:14Z)
Evaluating Large Language Models at Evaluating Instruction Following [54.49567482594617]
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。異なる評価器がLLMBarに対して異なる性能を示し、最高の評価器でさえ改善の余地があることが判明した。
論文参考訳（メタデータ） (2023-10-11T16:38:11Z)
Can Large Language Models Be an Alternative to Human Evaluations? [80.81532239566992]
大規模言語モデル(LLM)は、タスク命令のみを提供する場合、目に見えないタスクに対して例外的な性能を示す。 LLM評価の結果は、専門家による評価の結果と一致していることを示す。
論文参考訳（メタデータ） (2023-05-03T07:28:50Z)
Ranking Scientific Papers Using Preference Learning [48.78161994501516]
我々はこれをピアレビューテキストとレビュアースコアに基づく論文ランキング問題とみなした。ピアレビューに基づいて最終決定を行うための,新しい多面的総合評価フレームワークを提案する。
論文参考訳（メタデータ） (2021-09-02T19:41:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。