論文の概要: LLMs Assist NLP Researchers: Critique Paper (Meta-)Reviewing
- arxiv url: http://arxiv.org/abs/2406.16253v2
- Date: Tue, 25 Jun 2024 18:04:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-27 17:56:11.819989
- Title: LLMs Assist NLP Researchers: Critique Paper (Meta-)Reviewing
- Title(参考訳): LLMs Assist NLP researchers: Critique Paper (Meta-) Reviewing
- Authors: Jiangshu Du, Yibo Wang, Wenting Zhao, Zhongfen Deng, Shuaiqi Liu, Renze Lou, Henry Peng Zou, Pranav Narayanan Venkit, Nan Zhang, Mukund Srinath, Haoran Ranran Zhang, Vipul Gupta, Yinghui Li, Tao Li, Fei Wang, Qin Liu, Tianlin Liu, Pengzhi Gao, Congying Xia, Chen Xing, Jiayang Cheng, Zhaowei Wang, Ying Su, Raj Sanjay Shah, Ruohao Guo, Jing Gu, Haoran Li, Kangda Wei, Zihao Wang, Lu Cheng, Surangika Ranathunga, Meng Fang, Jie Fu, Fei Liu, Ruihong Huang, Eduardo Blanco, Yixin Cao, Rui Zhang, Philip S. Yu, Wenpeng Yin,
- Abstract要約: 大規模言語モデル(LLM)は、様々な生成タスクにおいて顕著な汎用性を示している。
本研究は,NLP研究者を支援するLLMの話題に焦点を当てる。
私たちの知る限りでは、このような包括的な分析を提供するのはこれが初めてです。
- 参考スコア(独自算出の注目度): 106.45895712717612
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work is motivated by two key trends. On one hand, large language models (LLMs) have shown remarkable versatility in various generative tasks such as writing, drawing, and question answering, significantly reducing the time required for many routine tasks. On the other hand, researchers, whose work is not only time-consuming but also highly expertise-demanding, face increasing challenges as they have to spend more time reading, writing, and reviewing papers. This raises the question: how can LLMs potentially assist researchers in alleviating their heavy workload? This study focuses on the topic of LLMs assist NLP Researchers, particularly examining the effectiveness of LLM in assisting paper (meta-)reviewing and its recognizability. To address this, we constructed the ReviewCritique dataset, which includes two types of information: (i) NLP papers (initial submissions rather than camera-ready) with both human-written and LLM-generated reviews, and (ii) each review comes with "deficiency" labels and corresponding explanations for individual segments, annotated by experts. Using ReviewCritique, this study explores two threads of research questions: (i) "LLMs as Reviewers", how do reviews generated by LLMs compare with those written by humans in terms of quality and distinguishability? (ii) "LLMs as Metareviewers", how effectively can LLMs identify potential issues, such as Deficient or unprofessional review segments, within individual paper reviews? To our knowledge, this is the first work to provide such a comprehensive analysis.
- Abstract(参考訳): この作品は2つの重要なトレンドによって動機付けられている。
一方、大規模言語モデル(LLM)は、書込み、描画、質問応答といった様々な生成タスクにおいて顕著な汎用性を示し、多くのルーチンタスクに要する時間を大幅に削減している。
一方で、研究に時間を要するだけでなく、高度な専門知識を必要とする研究者は、論文の読解、執筆、レビューにより多くの時間を費やす必要があるため、ますます課題に直面している。
LLMは、研究者が重い作業負荷を軽減するのにどのように役立つのか?
本研究は, LLMがNLP研究者を支援すること, 特に, LLMが紙(メタ)をレビューする際の有効性および認識可能性について考察する。
これを解決するために,2種類の情報を含むReviewCritiqueデータセットを構築した。
一 人書き書面及びLLM作成書面によるNLP書類(カメラ可読書面より初期提出書面)及び
(ii)各レビューには「欠陥」ラベルと、専門家が注釈を付けた個々のセグメントの対応説明が添付されている。
ReviewCritiqueを用いて、本研究では2つの研究課題を探求する。
(i)「レビュアーとしてのLLM」では、LLMが生成したレビューは、品質と差別性の観点から人間によって書かれたレビューとどのように比較されるか。
(二)「メタリビューアとしてのLLM」は、個々の論文レビューにおいて、欠陥や非専門レビューセグメントなどの潜在的な問題をLLMがいかに効果的に特定できるか。
私たちの知る限りでは、このような包括的な分析を提供するのはこれが初めてです。
関連論文リスト
- Usefulness of LLMs as an Author Checklist Assistant for Scientific Papers: NeurIPS'24 Experiment [59.09144776166979]
大規模言語モデル(LLM)は、科学的ピアレビューを支援する上で有望だが議論の余地のあるツールである。
本研究は,論文提出を提出基準に適合させるツールとして,会議環境におけるLCMの有用性を評価する。
論文 参考訳(メタデータ) (2024-11-05T18:58:00Z) - From Test-Taking to Test-Making: Examining LLM Authoring of Commonsense Assessment Items [0.18416014644193068]
LLMをコモンセンス評価項目の著者とみなす。
我々はLLMに対して、コモンセンス推論のための顕著なベンチマークのスタイルでアイテムを生成するよう促す。
元のCOPAベンチマークの回答に成功するLCMも、自分自身の項目のオーサリングに成功していることがわかった。
論文 参考訳(メタデータ) (2024-10-18T22:42:23Z) - The LLM Effect: Are Humans Truly Using LLMs, or Are They Being Influenced By Them Instead? [60.01746782465275]
大規模言語モデル(LLM)は、様々な分析タスクにおいて、人間のパフォーマンスに近い能力を示している。
本稿では,Human-LLMパートナーシップに着目した構造化ユーザスタディにより,特殊作業におけるLLMの効率と精度について検討する。
論文 参考訳(メタデータ) (2024-10-07T02:30:18Z) - Prompting LLMs to Compose Meta-Review Drafts from Peer-Review Narratives
of Scholarly Manuscripts [6.2701471990853594]
大規模言語モデル(LLM)は、複数の専門家によるピアレビューの物語に基づいてメタレビューを生成することができる。
本稿では,3つのLLMを用いてメタレビューを自動的に生成するケーススタディを行う。
論文 参考訳(メタデータ) (2024-02-23T20:14:16Z) - PRE: A Peer Review Based Large Language Model Evaluator [14.585292530642603]
既存のパラダイムは、LLMの性能を評価するために、人間アノテーションまたはモデルベースの評価器のいずれかに依存している。
ピアレビュープロセスを通じてLLMを自動的に評価できる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-28T12:33:14Z) - Can LLMs Grade Short-Answer Reading Comprehension Questions : An Empirical Study with a Novel Dataset [0.0]
本稿では,Large Language Models (LLMs) の最新のバージョンが,形式的アセスメントのための短解問題に使用される可能性について検討する。
ガーナで150人以上の学生が実施した一連の読解評価から抽出した,短い回答読解質問の新しいデータセットを紹介した。
本論文は, 有能なヒトラッカーと比較して, 生成性LLMの児童短解反応の各種構成がいかに良好かを実証的に評価した。
論文 参考訳(メタデータ) (2023-10-26T17:05:40Z) - Aligning Large Language Models with Human: A Survey [53.6014921995006]
広範囲なテキストコーパスで訓練されたLarge Language Models (LLM) は、幅広い自然言語処理(NLP)タスクの先導的なソリューションとして登場した。
その顕著な性能にもかかわらず、これらのモデルは、人間の指示を誤解したり、偏見のあるコンテンツを生成したり、事実的に誤った情報を生成するといった、ある種の制限を受ける傾向にある。
本調査では,これらのアライメント技術の概要について概観する。
論文 参考訳(メタデータ) (2023-07-24T17:44:58Z) - A Survey on Evaluation of Large Language Models [87.60417393701331]
大規模言語モデル(LLM)は、学術と産業の両方で人気が高まっている。
本稿では,評価方法,評価方法,評価方法の3つの重要な側面に焦点をあてる。
論文 参考訳(メタデータ) (2023-07-06T16:28:35Z) - Sentiment Analysis in the Era of Large Language Models: A Reality Check [69.97942065617664]
本稿では,大規模言語モデル(LLM)の様々な感情分析タスクの実行能力について検討する。
26のデータセット上の13のタスクのパフォーマンスを評価し、ドメイン固有のデータセットに基づいて訓練された小言語モデル(SLM)と比較した。
論文 参考訳(メタデータ) (2023-05-24T10:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。