Fugu-MT 論文翻訳(概要): Prompting LLMs to Compose Meta-Review Drafts from Peer-Review Narratives of Scholarly Manuscripts

論文の概要: Prompting LLMs to Compose Meta-Review Drafts from Peer-Review Narratives of Scholarly Manuscripts

arxiv url: http://arxiv.org/abs/2402.15589v1
Date: Fri, 23 Feb 2024 20:14:16 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-27 17:47:51.739375
Title: Prompting LLMs to Compose Meta-Review Drafts from Peer-Review Narratives of Scholarly Manuscripts
Title（参考訳）: 学術書評文からメタレビュー資料を作成するためのLCMのプロンプト
Authors: Shubhra Kanti Karmaker Santu, Sanjeev Kumar Sinha, Naman Bansal, Alex Knipper, Souvika Sarkar, John Salvador, Yash Mahajan, Sri Guttikonda, Mousumi Akter, Matthew Freestone, Matthew C. Williams Jr
Abstract要約: 大規模言語モデル(LLM)は、複数の専門家によるピアレビューの物語に基づいてメタレビューを生成することができる。本稿では,3つのLLMを用いてメタレビューを自動的に生成するケーススタディを行う。
参考スコア（独自算出の注目度）: 6.2701471990853594
License: http://creativecommons.org/licenses/by/4.0/
Abstract: One of the most important yet onerous tasks in the academic peer-reviewing process is composing meta-reviews, which involves understanding the core contributions, strengths, and weaknesses of a scholarly manuscript based on peer-review narratives from multiple experts and then summarizing those multiple experts' perspectives into a concise holistic overview. Given the latest major developments in generative AI, especially Large Language Models (LLMs), it is very compelling to rigorously study the utility of LLMs in generating such meta-reviews in an academic peer-review setting. In this paper, we perform a case study with three popular LLMs, i.e., GPT-3.5, LLaMA2, and PaLM2, to automatically generate meta-reviews by prompting them with different types/levels of prompts based on the recently proposed TELeR taxonomy. Finally, we perform a detailed qualitative study of the meta-reviews generated by the LLMs and summarize our findings and recommendations for prompting LLMs for this complex task.
Abstract（参考訳）: 学術的ピアレビュープロセスにおいて最も重要なものの1つは、複数の専門家によるピアレビュー物語に基づいた学術的原稿のコアな貢献、強み、弱みを理解し、それらの複数の専門家の視点を簡潔な全体論的概要に要約するメタレビューを作成することである。生成型AI、特にLarge Language Models(LLMs)の最近の大きな発展を考えると、学術的なピアレビュー環境でそのようなメタレビューを生成する上でのLLMの有用性を厳格に研究することは非常に魅力的である。本稿では,GPT-3.5,LLaMA2,PaLM2の3種類のLLMを用いて,最近提案されたTELeR分類に基づいて,異なるタイプのプロンプトでメタレビューを自動生成するケーススタディを行う。最後に,LLMが生み出すメタリビューの質的研究を行い,この複雑なタスクに対してLLMを促進させるための知見と勧告を要約する。

関連論文リスト

Leveraging LLMs as Meta-Judges: A Multi-Agent Framework for Evaluating LLM Judgments [6.270885758858811]
大規模言語モデル(LLM)は様々な分野に広く適用されているが、タスクが複雑化するにつれて、その応答を評価することはますます困難になっている。提案する3段階のメタジャッジ選択パイプラインは,1) GPT-4とヒトの専門家による包括的ルーリックの開発,2) 3つの高度なLCMエージェントによる判定,3)低スコア判定の除去のためのしきい値の適用,である。ジャッジベンチデータセットの実験結果は、生判定と比較して約15.55%改善し、単エージェントベースラインよりも約8.37%改善したことを示している。
論文参考訳（メタデータ） (2025-04-23T20:32:12Z)
From Test-Taking to Test-Making: Examining LLM Authoring of Commonsense Assessment Items [0.18416014644193068]
LLMをコモンセンス評価項目の著者とみなす。我々はLLMに対して、コモンセンス推論のための顕著なベンチマークのスタイルでアイテムを生成するよう促す。元のCOPAベンチマークの回答に成功するLCMも、自分自身の項目のオーサリングに成功していることがわかった。
論文参考訳（メタデータ） (2024-10-18T22:42:23Z)
A Survey on Benchmarks of Multimodal Large Language Models [65.87641718350639]
本稿では,Multimodal Large Language Models (MLLM) のベンチマークと評価について概説する。本研究では,(1)知覚と理解,(2)認知と推論,(3)特定のドメイン,(4)キー能力,(5)他のモダリティに着目した。我々のキーとなる主張は、MLLMの開発をより良いものにするための重要な規律として評価されるべきである、ということである。
論文参考訳（メタデータ） (2024-08-16T09:52:02Z)
LLMs Assist NLP Researchers: Critique Paper (Meta-)Reviewing [106.45895712717612]
大規模言語モデル(LLM)は、様々な生成タスクにおいて顕著な汎用性を示している。本研究は,NLP研究者を支援するLLMの話題に焦点を当てる。私たちの知る限りでは、このような包括的な分析を提供するのはこれが初めてです。
論文参考訳（メタデータ） (2024-06-24T01:30:22Z)
Peer Review as A Multi-Turn and Long-Context Dialogue with Role-Based Interactions [62.0123588983514]
大規模言語モデル(LLM)は様々な分野にまたがる幅広い応用を実証してきた。我々は、ピアレビュープロセスを多ターン長文対話として再構築し、著者、レビュアー、意思決定者に対して異なる役割を担っている。複数の情報源から収集された92,017件のレビューを含む26,841件の論文を含む包括的データセットを構築した。
論文参考訳（メタデータ） (2024-06-09T08:24:17Z)
A Sentiment Consolidation Framework for Meta-Review Generation [40.879419691373826]
我々は、科学的領域に対する感情要約の一形態であるメタレビュー生成に焦点を当てる。本稿ではメタレビューを生成するために,大規模言語モデルのための新しいプロンプト手法を提案する。
論文参考訳（メタデータ） (2024-02-28T02:40:09Z)
Benchmarking LLMs on the Semantic Overlap Summarization Task [9.656095701778975]
本稿では,セマンティック・オーバーラップ・サマリゼーション(SOS)タスクにおいて,Large Language Models (LLM) を包括的に評価する。本稿では, ROUGE, BERTscore, SEM-F1$などの定評ある指標を, 2種類の代替物語のデータセット上で報告する。
論文参考訳（メタデータ） (2024-02-26T20:33:50Z)
Large Language Models: A Survey [69.72787936480394]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。 LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文参考訳（メタデータ） (2024-02-09T05:37:09Z)
PRE: A Peer Review Based Large Language Model Evaluator [14.585292530642603]
既存のパラダイムは、LLMの性能を評価するために、人間アノテーションまたはモデルベースの評価器のいずれかに依存している。ピアレビュープロセスを通じてLLMを自動的に評価できる新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-01-28T12:33:14Z)
Evaluating Large Language Models at Evaluating Instruction Following [54.49567482594617]
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。異なる評価器がLLMBarに対して異なる性能を示し、最高の評価器でさえ改善の余地があることが判明した。
論文参考訳（メタデータ） (2023-10-11T16:38:11Z)
A Comprehensive Overview of Large Language Models [68.22178313875618]
大規模言語モデル(LLM)は、最近自然言語処理タスクにおいて顕著な機能を示した。本稿では, LLM関連概念の幅広い範囲について, 既存の文献について概説する。
論文参考訳（メタデータ） (2023-07-12T20:01:52Z)
MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models [73.86954509967416]
マルチモーダル言語モデル(MLLM)は、マルチモーダルタスクを実行するために強力なLLMに依存している。本稿では,MLLM 評価ベンチマーク MME について述べる。知覚能力と認知能力の両方を合計14のサブタスクで測定する。
論文参考訳（メタデータ） (2023-06-23T09:22:36Z)
On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文参考訳（メタデータ） (2023-05-23T16:56:04Z)
Introspective Tips: Large Language Model for In-Context Decision Making [48.96711664648164]
我々は,大規模言語モデル(LLM)の自己最適化を促進するために,イントロスペクティブティップス(Introspective Tips)を採用している。本手法は,少数ショットとゼロショットの両方の学習状況において,エージェントの性能を向上させる。 TextWorldにおける100以上のゲームに関する実験は、我々のアプローチの優れたパフォーマンスを示している。
論文参考訳（メタデータ） (2023-05-19T11:20:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。