Fugu-MT 論文翻訳(概要): ReviewerGPT? An Exploratory Study on Using Large Language Models for Paper Reviewing

論文の概要: ReviewerGPT? An Exploratory Study on Using Large Language Models for Paper Reviewing

arxiv url: http://arxiv.org/abs/2306.00622v1
Date: Thu, 1 Jun 2023 12:45:53 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-02 16:26:10.339132
Title: ReviewerGPT? An Exploratory Study on Using Large Language Models for Paper Reviewing
Title（参考訳）: レビュアーGPT? 大規模言語モデルを用いた論文レビューのための探索的研究
Authors: Ryan Liu and Nihar B. Shah
Abstract要約: 大規模言語モデル(LLM)の3つの課題について検討する。 13の短いコンピュータサイエンス論文をそれぞれ意図的に挿入した誤りで作成し、LSMにこれらの論文の正しさを確認するよう依頼する。 119のチェックリストの質問、紙のペア、LLMの精度は86.6%であることがわかった。
参考スコア（独自算出の注目度）: 37.172078596855656
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Given the rapid ascent of large language models (LLMs), we study the question: (How) can large language models help in reviewing of scientific papers or proposals? We first conduct some pilot studies where we find that (i) GPT-4 outperforms other LLMs (Bard, Vicuna, Koala, Alpaca, LLaMa, Dolly, OpenAssistant, StableLM), and (ii) prompting with a specific question (e.g., to identify errors) outperforms prompting to simply write a review. With these insights, we study the use of LLMs (specifically, GPT-4) for three tasks: 1. Identifying errors: We construct 13 short computer science papers each with a deliberately inserted error, and ask the LLM to check for the correctness of these papers. We observe that the LLM finds errors in 7 of them, spanning both mathematical and conceptual errors. 2. Verifying checklists: We task the LLM to verify 16 closed-ended checklist questions in the respective sections of 15 NeurIPS 2022 papers. We find that across 119 {checklist question, paper} pairs, the LLM had an 86.6% accuracy. 3. Choosing the "better" paper: We generate 10 pairs of abstracts, deliberately designing each pair in such a way that one abstract was clearly superior than the other. The LLM, however, struggled to discern these relatively straightforward distinctions accurately, committing errors in its evaluations for 6 out of the 10 pairs. Based on these experiments, we think that LLMs have a promising use as reviewing assistants for specific reviewing tasks, but not (yet) for complete evaluations of papers or proposals.
Abstract（参考訳）: 大規模言語モデル(LLMs)の急速な上昇を踏まえ、我々は疑問を考察する: (大規模言語モデルは科学論文や提案のレビューにどのように役立つのか? まずいくつかのパイロット研究を行い i) GPT-4は、他のLLM(Bard, Vicuna, Koala, Alpaca, LLaMa, Dolly, OpenAssistant, StableLM)より優れ、 (ii) 特定の質問(例えば、エラーを識別する)のプロンプトは、単にレビューを書くように促す。これらの知見から,LLM(特にGPT-4)を3つのタスクに利用することを検討した。 1. 誤りの特定: 意図的に挿入されたエラーでそれぞれ13の短いコンピュータ科学論文を構築し,これらの論文の正しさを確認する。我々は, LLM が 7 つの誤りの内, 数学的および概念的誤りの2つにまたがっていることを観察した。 2. チェックリストの検証: 15 個のNeurIPS 2022 論文の各セクションで 16 個のクローズドエンドチェックリスト質問の検証を LLM に依頼する。 119の {checklist question, paper} ペアの llm は86.6% の精度を持つことがわかった。 3.「より良い」論文を選択する:我々は10組の抽象概念を生成し、一方の抽象概念が他方よりも明らかに優れているように意図的に各ペアをデザインする。しかし、LSMはこれらの比較的単純な区別を正確に識別するのに苦労し、10組中6組の評価において誤りを犯した。これらの実験に基づき, LLM は特定のレビュータスクのレビューアシスタントとして有望な利用であるが, 論文や提案の完全な評価には適していないと考えられる。

関連論文リスト

On the Effectiveness of LLM-as-a-judge for Code Generation and Summarization [54.965787768076254]
大規模言語モデルは、最近、Q&Aのような複雑な自然言語処理タスクの裁判官として活用されている。コード生成とコード要約という2つのコード関連タスクに対するLLMs-as-a-judgeの有効性について検討した。
論文参考訳（メタデータ） (2025-07-22T13:40:26Z)
Verifying the Verifiers: Unveiling Pitfalls and Potentials in Fact Verifiers [59.168391398830515]
我々は,14のファクトチェックベンチマークのサンプルを用いて,12の事前学習LDMと1つの特殊ファクト検証器を評価した。データセットにおけるアノテーションエラーとあいまいさに対処することの重要性を強調します。最上位のパフォーマンスを実現するために、前作でしばしば見落とされがちな、数ショットのインコンテキストの例を持つフロンティアLSM。
論文参考訳（メタデータ） (2025-06-16T10:32:10Z)
Order Matters in Hallucination: Reasoning Order as Benchmark and Reflexive Prompting for Large-Language-Models [0.0]
大規模言語モデル(LLM)は、その誕生以来、様々な学術分野や産業分野にまたがって大きな注目を集めてきた。 LLMはしばしば「ハロシン化問題」に悩まされるが、出力は文法的にも論理的にも一貫性があり、事実の正確性に欠ける。
論文参考訳（メタデータ） (2024-08-09T14:34:32Z)
LLMs Assist NLP Researchers: Critique Paper (Meta-)Reviewing [106.45895712717612]
大規模言語モデル(LLM)は、様々な生成タスクにおいて顕著な汎用性を示している。本研究は,NLP研究者を支援するLLMの話題に焦点を当てる。私たちの知る限りでは、このような包括的な分析を提供するのはこれが初めてです。
論文参考訳（メタデータ） (2024-06-24T01:30:22Z)
Evaluating LLMs at Detecting Errors in LLM Responses [30.645694514606507]
この研究は、LLMによる客観的、現実的で多様なエラーからなる最初のエラー検出ベンチマークであるReaLMistakeを紹介した。我々はReaLMistakeを用いて12の大規模言語モデルに基づいて誤り検出を行う。
論文参考訳（メタデータ） (2024-04-04T17:19:47Z)
The Earth is Flat? Unveiling Factual Errors in Large Language Models [89.94270049334479]
ChatGPTのような大規模言語モデル(LLM)は、事前学習や微調整の知識が豊富にあるため、様々な応用がある。それにもかかわらず、医療、ジャーナリズム、教育といった重要な分野に懸念を抱き、事実と常識の誤りを引き起こす傾向にある。 LLMにおける事実不正確な事実を明らかにすることを目的とした,新しい自動テストフレームワークであるFactCheckerを紹介する。
論文参考訳（メタデータ） (2024-01-01T14:02:27Z)
Knowing What LLMs DO NOT Know: A Simple Yet Effective Self-Detection Method [36.24876571343749]
大規模言語モデル(LLM)は自然言語処理(NLP)タスクにおいて大きな可能性を示している。近年の文献では、LLMは断続的に非実効応答を生成する。本研究では,LLM が知らない質問が非現実的な結果を生成する傾向にあることを検知する新たな自己検出手法を提案する。
論文参考訳（メタデータ） (2023-10-27T06:22:14Z)
Large Language Models can Learn Rules [106.40747309894236]
大規模言語モデル(LLM)を用いた推論のためのルールライブラリを学習するフレームワークであるHtTを提案する。リレーショナル推論、数値推論、概念学習に関する実験は、HtTが既存のプロンプト法を改善することを示す。学習されたルールは、異なるモデルや同じ問題の異なる形式にも転送可能である。
論文参考訳（メタデータ） (2023-10-10T23:07:01Z)
Statistical Knowledge Assessment for Large Language Models [79.07989821512128]
ファクトイドの問題に関する様々なプロンプトを考慮すれば、大きな言語モデル(LLM)は事実的に正しい答えを確実に生成できるだろうか? LLMの事実知識を評価する統計的手法であるKaRRを提案する。この結果から,同じバックボーン構造を持つLLMの知識はスケーリング法則に則っており,命令追従データに基づくチューニングは,実際に正しいテキストを確実に生成するモデルの能力を損なう場合があることがわかった。
論文参考訳（メタデータ） (2023-05-17T18:54:37Z)
Large Language Models are Better Reasoners with Self-Verification [48.534270563880845]
大規模言語モデル(LLM)は、いくつかの自然言語処理タスクにおいて強力な推論能力を示している。思考の連鎖(CoT)を促進させるLLMは、個別のミスに非常に敏感な、多段階のプロンプトと多段階の予測を必要とする。また,LLMにも同様な自己検証能力があることを示す。
論文参考訳（メタデータ） (2022-12-19T15:51:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。