論文の概要: GraphReview: Scientific Paper Evaluation via LLM-Based Graph Message Passing
- arxiv url: http://arxiv.org/abs/2605.27204v1
- Date: Tue, 26 May 2026 15:58:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:42.39805
- Title: GraphReview: Scientific Paper Evaluation via LLM-Based Graph Message Passing
- Title(参考訳): GraphReview: LLMベースのグラフメッセージパッシングによる科学論文の評価
- Authors: Pujun Zheng, Wanying Ren, Jiacheng Yao, Guoxiu He, Star X. Zhao,
- Abstract要約: セマンティックペーパーグラフ上でのレビュー信号メッセージパッシングとして紙評価を定式化するグラフベースのLCMフレームワークを提案する。
このグラフは、本質的な品質、同時代の論文間の同期リンク、および先行研究とのダイアクロニックリンクを共同でキャプチャする。
実験の結果、GraphReviewは最強のベースラインを一貫して上回り、意思決定とランキングの指標で平均29.7%の改善を達成した。
- 参考スコア(独自算出の注目度): 4.802002747361241
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scientific paper evaluation often involves not only assessing a manuscript itself, but also relating it to contemporaneous research and prior literature. However, existing LLM-based methods typically model these signals separately and lack a unified mechanism for propagating review evidence across papers. We propose $\textbf{GraphReview}$, a graph-based LLM framework that formulates paper evaluation as review-signal message passing over a semantic paper graph. The graph jointly captures intrinsic quality, synchronic links among contemporaneous papers, and diachronic links to prior work. LLMs are used to estimate node-level quality priors and generate edge-level comparative evidence through pairwise paper comparisons, while Personalized PageRank integrates review signals for quality ranking, decision prediction, and review generation. To produce higher-quality graph evidence, we propose reward-induced maximum likelihood objectives for training the LLM backbones. Experiments show that GraphReview consistently outperforms the strongest baseline, achieving average improvements of 29.7% on decision and ranking metrics, including gains of 23.7% in Accuracy and 57.6% in Spearman's $ρ$. It also produces higher-quality review texts and generalizes effectively across time periods and conference venues. The code is available at https://github.com/ECNU-Text-Computing/GraphReview.
- Abstract(参考訳): 科学論文の評価は、写本自体を評価するだけでなく、同時代の研究や先行文学にも関係していることが多い。
しかし、既存のLCMベースの手法は、一般的にこれらの信号を個別にモデル化し、論文間でレビューエビデンスを伝播する統一的なメカニズムを欠いている。
セマンティックペーパーグラフ上でのレビュー信号メッセージパッシングとして紙評価を定式化するグラフベースのLLMフレームワークである$\textbf{GraphReview}$を提案する。
このグラフは、本質的な品質、同時代の論文間の同期リンク、および先行研究とのダイアクロニックリンクを共同でキャプチャする。
LLMは、ノードレベルの品質優先順位を推定し、ペアの論文比較を通じてエッジレベルの比較エビデンスを生成するのに使われ、Personalized PageRankは品質ランキング、意思決定予測、レビュー生成のためのレビュー信号を統合する。
高品質なグラフエビデンスを生成するために,LLMバックボーンをトレーニングするための報酬誘導最大目標を提案する。
実験の結果、GraphReviewは最強のベースラインを一貫して上回り、意思決定とランキングの指標の平均的改善は29.7%、精度は23.7%、Spearmanの$ρ$は57.6%となっている。
また、高品質なレビューテキストを制作し、時間帯や会議会場で効果的に一般化する。
コードはhttps://github.com/ECNU-Text-Computing/GraphReviewで公開されている。
関連論文リスト
- Large language models for post-publication research evaluation: Evidence from expert recommendations and citation indicators [2.952559770088323]
大規模言語モデル(LLM)は、テキストコンテンツに基づいた自動研究評価のための新たな機会を提供する。
本研究では,LLMが専門家の判断や引用に基づく指標に対して出力をベンチマークすることで,ポストパブリケーションのピアレビュータスクをサポートできるかを検討する。
論文 参考訳(メタデータ) (2026-03-27T11:32:18Z) - CRISP: Characterizing Relative Impact of Scholarly Publications [70.25915589244961]
本稿では,大規模言語モデル(LLM)を用いた引用論文の中で,引用論文の全てを共同でランク付けするCRISPを提案する。
LLMの位置バイアスを軽減するために、ランダムな順序で各リストを3回ランク付けし、多数決によって影響ラベルを集約する。
CRISPは従来の最先端の衝撃分類器の精度を+9.5%、F1を+8.3%で上回っている。
論文 参考訳(メタデータ) (2026-03-25T16:42:30Z) - From Isolated Scoring to Collaborative Ranking: A Comparison-Native Framework for LLM-Based Paper Evaluation [12.13840753234467]
大規模言語モデル (LLM) は現在, 各論文に絶対スコアを独立に割り当てることで, 科学的論文評価に応用されている。
孤立スコアから協調ランキングへの紙評価のシフトを提案する。
当社のフレームワークは,強力なベースラインであるDeepReview-14Bに対して,textbf21.8%の平均相対的な改善を実現している。
論文 参考訳(メタデータ) (2026-03-18T10:55:02Z) - ReviewGraph: A Knowledge Graph Embedding Based Framework for Review Rating Prediction with Sentiment Features [3.195234044113248]
本研究は,テキストによる顧客レビューを知識グラフに変換する新しいフレームワークであるReviewGraph for Review Rating Prediction (RRP)を提案する。
グラフ埋め込み(Node2Vec)と感情機能を使用して、このフレームワークは機械学習分類器を通じてレビュー評価スコアを予測する。
ReviewGraphのアウトプットとプラットフォームをGitHubのページで公開します。
論文 参考訳(メタデータ) (2025-08-19T15:44:27Z) - Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [83.90988015005934]
不確実性定量化は機械学習アプリケーションにおいて重要な要素である。
最新のUQベースラインの集合を実装した新しいベンチマークを導入する。
我々は、11タスクにわたるUQと正規化技術に関する大規模な実証的研究を行い、最も効果的なアプローチを特定した。
論文 参考訳(メタデータ) (2024-06-21T20:06:31Z) - CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。
CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文 参考訳(メタデータ) (2023-11-30T16:52:42Z) - G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment [64.01972723692587]
本稿では,大規模言語モデルにチェーン・オブ・シント(CoT)を組み込んだフレームワークであるG-Evalと,NLG出力の品質評価のためのフォームフィリングパラダイムを提案する。
GPT-4 をバックボーンモデルとした G-Eval は,要約タスクにおいて,0.514 と人間とのスピアマン相関を達成し,従来手法の差を大きく上回ることを示す。
論文 参考訳(メタデータ) (2023-03-29T12:46:54Z) - FactGraph: Evaluating Factuality in Summarization with Semantic Graph
Representations [114.94628499698096]
文書と要約を構造化された意味表現(MR)に分解するFactGraphを提案する。
MRは、コアセマンティックの概念とその関係を記述し、文書と要約の両方の主要な内容を標準形式で集約し、データの疎結合を減少させる。
事実性を評価するための異なるベンチマークの実験では、FactGraphは以前のアプローチよりも最大15%優れていた。
論文 参考訳(メタデータ) (2022-04-13T16:45:33Z) - Ranking Scientific Papers Using Preference Learning [48.78161994501516]
我々はこれをピアレビューテキストとレビュアースコアに基づく論文ランキング問題とみなした。
ピアレビューに基づいて最終決定を行うための,新しい多面的総合評価フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-02T19:41:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。