論文の概要: Peer Review as A Multi-Turn and Long-Context Dialogue with Role-Based Interactions
- arxiv url: http://arxiv.org/abs/2406.05688v1
- Date: Sun, 9 Jun 2024 08:24:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 18:27:03.133219
- Title: Peer Review as A Multi-Turn and Long-Context Dialogue with Role-Based Interactions
- Title(参考訳): 役割に基づく対話を伴う多言語・長期対話としてのピアレビュー
- Authors: Cheng Tan, Dongxin Lyu, Siyuan Li, Zhangyang Gao, Jingxuan Wei, Siqi Ma, Zicheng Liu, Stan Z. Li,
- Abstract要約: 大規模言語モデル(LLM)は様々な分野にまたがる幅広い応用を実証してきた。
我々は、ピアレビュープロセスを多ターン長文対話として再構築し、著者、レビュアー、意思決定者に対して異なる役割を担っている。
複数の情報源から収集された92,017件のレビューを含む26,841件の論文を含む包括的データセットを構築した。
- 参考スコア(独自算出の注目度): 62.0123588983514
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have demonstrated wide-ranging applications across various fields and have shown significant potential in the academic peer-review process. However, existing applications are primarily limited to static review generation based on submitted papers, which fail to capture the dynamic and iterative nature of real-world peer reviews. In this paper, we reformulate the peer-review process as a multi-turn, long-context dialogue, incorporating distinct roles for authors, reviewers, and decision makers. We construct a comprehensive dataset containing over 26,841 papers with 92,017 reviews collected from multiple sources, including the top-tier conference and prestigious journal. This dataset is meticulously designed to facilitate the applications of LLMs for multi-turn dialogues, effectively simulating the complete peer-review process. Furthermore, we propose a series of metrics to evaluate the performance of LLMs for each role under this reformulated peer-review setting, ensuring fair and comprehensive evaluations. We believe this work provides a promising perspective on enhancing the LLM-driven peer-review process by incorporating dynamic, role-based interactions. It aligns closely with the iterative and interactive nature of real-world academic peer review, offering a robust foundation for future research and development in this area. We open-source the dataset at https://github.com/chengtan9907/ReviewMT.
- Abstract(参考訳): 大規模言語モデル (LLM) は、様々な分野にわたる幅広い応用を実証し、学術的なピアレビュープロセスにおいて大きな可能性を示している。
しかし、既存のアプリケーションは、提出された論文に基づく静的レビュー生成に限られており、現実のピアレビューの動的かつ反復的な性質を捉えていない。
本稿では、著者、レビュアー、意思決定者に対して異なる役割を担いながら、ピアレビュープロセスをマルチターン長文対話として再構築する。
我々は,トップレベルのカンファレンスや有名なジャーナルなど,複数の情報源から収集された92,017件のレビューを含む,26,841件以上の論文を含む包括的なデータセットを構築した。
このデータセットは、マルチターン対話におけるLLMの活用を促進するために慎重に設計されており、完全なピアレビュープロセスを効果的にシミュレートしている。
さらに、この改訂されたピアレビュー設定の下で、各ロールに対するLCMの性能を評価するための一連の指標を提案し、公正かつ包括的な評価を確実にする。
この研究は、動的、ロールベースの相互作用を取り入れることで、LLM駆動のピアレビュープロセスを強化する上で有望な視点を提供すると考えている。
それは、現実世界の学術的査読の反復的でインタラクティブな性質と密接に一致し、この分野における将来の研究と開発のための堅牢な基盤を提供する。
データセットはhttps://github.com/chengtan9907/ReviewMT.comで公開しています。
関連論文リスト
- DiSCo Meets LLMs: A Unified Approach for Sparse Retrieval and Contextual Distillation in Conversational Search [19.694957365385896]
会話検索(英語: Conversational Search, CS)は、コーパスから関連文書を会話コンテキスト内で検索するタスクである。
現在の手法では、人間が書き直したクエリから埋め込みを蒸留してコンテキストモデリングタスクを学習することでこの問題に対処している。
本稿では,従来の目的を緩和し,検索とコンテキストモデリングを統一する新しい蒸留法を提案する。
論文 参考訳(メタデータ) (2024-10-18T17:03:17Z) - Adversarial Multi-Agent Evaluation of Large Language Models through Iterative Debates [0.0]
本稿では,対話エージェントのアンサンブル内で,大規模言語モデル(LLM)を提唱者として解釈するフレームワークを提案する。
このアプローチは、従来の人間ベースの評価や自動メトリクスと比較して、よりダイナミックで包括的な評価プロセスを提供します。
論文 参考訳(メタデータ) (2024-10-07T00:22:07Z) - ProCIS: A Benchmark for Proactive Retrieval in Conversations [21.23826888841565]
本稿では,280万件以上の会話からなるプロアクティブな文書検索のための大規模データセットを提案する。
クラウドソーシング実験を行い、高品質で比較的完全な妥当性判定を行う。
また、各文書に関連する会話部分に関するアノテーションを収集し、前向きな検索システムの評価を可能にする。
論文 参考訳(メタデータ) (2024-05-10T13:11:07Z) - Prompting LLMs to Compose Meta-Review Drafts from Peer-Review Narratives
of Scholarly Manuscripts [6.2701471990853594]
大規模言語モデル(LLM)は、複数の専門家によるピアレビューの物語に基づいてメタレビューを生成することができる。
本稿では,3つのLLMを用いてメタレビューを自動的に生成するケーススタディを行う。
論文 参考訳(メタデータ) (2024-02-23T20:14:16Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - FCC: Fusing Conversation History and Candidate Provenance for Contextual
Response Ranking in Dialogue Systems [53.89014188309486]
複数のチャネルからコンテキスト情報を統合できるフレキシブルなニューラルネットワークフレームワークを提案する。
会話応答ランキングタスクの評価に広く用いられているMSDialogデータセット上で,本モデルの評価を行った。
論文 参考訳(メタデータ) (2023-03-31T23:58:28Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - Investigating Fairness Disparities in Peer Review: A Language Model
Enhanced Approach [77.61131357420201]
我々は、大規模言語モデル(LM)の助けを借りて、ピアレビューにおける公平性格差の徹底した厳密な研究を行う。
我々は、2017年から現在までのICLR(International Conference on Learning Representations)カンファレンスで、包括的なリレーショナルデータベースを収集、組み立て、維持しています。
我々は、著作者性別、地理、著作者、機関的名声など、興味のある複数の保護属性に対する公平性の違いを仮定し、研究する。
論文 参考訳(メタデータ) (2022-11-07T16:19:42Z) - Revise and Resubmit: An Intertextual Model of Text-based Collaboration
in Peer Review [52.359007622096684]
ピアレビューは、ほとんどの科学分野における出版プロセスの重要な要素である。
既存のNLP研究は個々のテキストの分析に重点を置いている。
編集補助は、しばしばテキストのペア間の相互作用をモデル化する必要がある。
論文 参考訳(メタデータ) (2022-04-22T16:39:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。