論文の概要: MARG: Multi-Agent Review Generation for Scientific Papers
- arxiv url: http://arxiv.org/abs/2401.04259v1
- Date: Mon, 8 Jan 2024 22:24:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-10 18:23:30.910688
- Title: MARG: Multi-Agent Review Generation for Scientific Papers
- Title(参考訳): MARG:科学論文のマルチエージェントレビュー生成
- Authors: Mike D'Arcy, Tom Hope, Larry Birnbaum, Doug Downey
- Abstract要約: 内部議論に携わる複数のLLMインスタンスを用いたフィードバック生成手法であるMARGを開発した。
エージェント間で紙テキストを分散することにより、MARGはベースLLMの入力長制限を超えて、論文の全文を消費することができる。
ユーザスタディでは、GPT-4を用いたベースラインメソッドは、ジェネリックコメントや非常にジェネリックコメントを半分以上の時間で生成するものとして評価された。
本システムでは, GPT-4による具体的なフィードバック生成能力を大幅に向上させ, 一般的なコメントの率を60%から29%に削減し, 紙あたり3.7の良質なコメントを生成する(2.2倍)。
- 参考スコア(独自算出の注目度): 28.78019426139167
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the ability of LLMs to generate feedback for scientific papers and
develop MARG, a feedback generation approach using multiple LLM instances that
engage in internal discussion. By distributing paper text across agents, MARG
can consume the full text of papers beyond the input length limitations of the
base LLM, and by specializing agents and incorporating sub-tasks tailored to
different comment types (experiments, clarity, impact) it improves the
helpfulness and specificity of feedback. In a user study, baseline methods
using GPT-4 were rated as producing generic or very generic comments more than
half the time, and only 1.7 comments per paper were rated as good overall in
the best baseline. Our system substantially improves the ability of GPT-4 to
generate specific and helpful feedback, reducing the rate of generic comments
from 60% to 29% and generating 3.7 good comments per paper (a 2.2x
improvement).
- Abstract(参考訳): 我々は,科学論文のフィードバックを生成するLLMの能力について検討し,内部議論に携わる複数のLLMインスタンスを用いたフィードバック生成手法であるMARGを開発した。
エージェント間で紙のテキストを配布することにより、MARGは、ベースLSMの入力長制限を超えて論文の全文を消費し、エージェントを専門化し、異なるコメントタイプ(実験、明確性、影響)に合わせて調整されたサブタスクを組み込むことで、フィードバックの有用性と特異性を改善することができる。
ユーザスタディでは、GPT-4を用いたベースラインメソッドは、ジェネリックあるいは非常にジェネリックなコメントを半分以上生成するものとして評価され、1紙あたりのコメントは1.7に過ぎなかった。
本システムでは, GPT-4による具体的なフィードバック生成能力を大幅に向上させ, 一般的なコメントの率を60%から29%に削減し, 紙あたり3.7の良質なコメントを生成する(2.2倍)。
関連論文リスト
- Impact of LLM-based Review Comment Generation in Practice: A Mixed Open-/Closed-source User Study [13.650356901064807]
このユーザスタディはMozillaとUbisoftの2つの組織で実施された。
LLM生成コメントの8.1%と7.2%が各組織のレビュアーによって受け入れられた。
リファクタリング関連のコメントは、機能的なコメントよりも受け入れやすい。
論文 参考訳(メタデータ) (2024-11-11T16:12:11Z) - AI-Driven Review Systems: Evaluating LLMs in Scalable and Bias-Aware Academic Reviews [18.50142644126276]
我々は,人選好のアリーナを用いて,人選好と自動レビューのアライメントを評価する。
我々は、LLMを微調整して人間の好みを予測し、LLM同士の真っ向からの戦いにおいて、どのレビューが好まれるかを予測する。
我々は、公開可能なarXivおよびオープンアクセスのNatureジャーナルのレビューをオンラインで公開し、著者が研究論文をレビューし、改訂し、品質を改善するのに役立つ無料サービスを提供しています。
論文 参考訳(メタデータ) (2024-08-19T19:10:38Z) - LLMs Assist NLP Researchers: Critique Paper (Meta-)Reviewing [106.45895712717612]
大規模言語モデル(LLM)は、様々な生成タスクにおいて顕著な汎用性を示している。
本研究は,NLP研究者を支援するLLMの話題に焦点を当てる。
私たちの知る限りでは、このような包括的な分析を提供するのはこれが初めてです。
論文 参考訳(メタデータ) (2024-06-24T01:30:22Z) - Improving the Validity of Automatically Generated Feedback via
Reinforcement Learning [50.067342343957876]
強化学習(RL)を用いた正当性と整合性の両方を最適化するフィードバック生成フレームワークを提案する。
具体的には、直接選好最適化(DPO)によるトレーニングのための拡張データセットにおいて、GPT-4のアノテーションを使用してフィードバックペアよりも好みを生成する。
論文 参考訳(メタデータ) (2024-03-02T20:25:50Z) - Reviewer2: Optimizing Review Generation Through Prompt Generation [27.379753994272875]
本稿では、Reviewer2と呼ばれる効率的な2段階レビュー生成フレームワークを提案する。
従来の作業とは異なり、このアプローチは、レビューが対処する可能性のある側面の分布を明示的にモデル化する。
アスペクトプロンプトでアノテートした27k論文と99kレビューの大規模なレビューデータセットを生成します。
論文 参考訳(メタデータ) (2024-02-16T18:43:10Z) - CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。
CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文 参考訳(メタデータ) (2023-11-30T16:52:42Z) - LLMRefine: Pinpointing and Refining Large Language Models via Fine-Grained Actionable Feedback [65.84061725174269]
最近の大規模言語モデル(LLM)は、世代品質を改善するために人間のフィードバックを活用している。
LLMの出力を最適化する推論時間最適化手法であるLLMRefineを提案する。
機械翻訳、長文質問応答(QA)、話題要約を含む3つのテキスト生成タスクについて実験を行った。
LLMRefineは、すべてのベースラインアプローチを一貫して上回り、翻訳タスクの1.7 MetricXポイント、ASQAの8.1 ROUGE-L、トピックの要約の2.2 ROUGE-Lの改善を実現している。
論文 参考訳(メタデータ) (2023-11-15T19:52:11Z) - Can large language models provide useful feedback on research papers? A
large-scale empirical analysis [38.905758846360435]
高品質なピアレビューは入手がますます困難になっている。
GPT-4のような大規模言語モデル(LLM)のブレークスルーにより、科学的なフィードバックを得るためにLLMを使うことへの関心が高まっている。
我々はGPT-4を用いた自動パイプラインを作成し、科学論文の全PDFにコメントを提供した。
論文 参考訳(メタデータ) (2023-10-03T04:14:17Z) - Large Language Models on Wikipedia-Style Survey Generation: an Evaluation in NLP Concepts [21.150221839202878]
大規模言語モデル(LLM)は、様々な一般的なタスクで大きな成功を収めた。
本研究では,コンピュータ科学におけるNLPのニッチ分野に特有な簡潔な調査項目を生成する上で,LCMsの有効性について検討する。
人間の評価スコアとGPTによる評価スコアを比較し,詳細な分析を行った。
論文 参考訳(メタデータ) (2023-08-21T01:32:45Z) - Self-Refine: Iterative Refinement with Self-Feedback [62.78755306241981]
Self-Refineは、反復的なフィードバックと改善を通じて、大きな言語モデル(LLM)からの初期出力を改善するアプローチである。
GPT-3.5, ChatGPT, および GPT-4) LLM を用いて, 対話応答生成から数学的推論に至るまで, 7 つのタスクにまたがる自己決定性を評価する。
我々の研究は、GPT-4のような最先端のLCMでさえ、単純でスタンドアロンなアプローチを使用してテスト時にさらに改善できることを示します。
論文 参考訳(メタデータ) (2023-03-30T18:30:01Z) - G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment [64.01972723692587]
本稿では,大規模言語モデルにチェーン・オブ・シント(CoT)を組み込んだフレームワークであるG-Evalと,NLG出力の品質評価のためのフォームフィリングパラダイムを提案する。
GPT-4 をバックボーンモデルとした G-Eval は,要約タスクにおいて,0.514 と人間とのスピアマン相関を達成し,従来手法の差を大きく上回ることを示す。
論文 参考訳(メタデータ) (2023-03-29T12:46:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。