論文の概要: From Isolated Scoring to Collaborative Ranking: A Comparison-Native Framework for LLM-Based Paper Evaluation
- arxiv url: http://arxiv.org/abs/2603.17588v1
- Date: Wed, 18 Mar 2026 10:55:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.656049
- Title: From Isolated Scoring to Collaborative Ranking: A Comparison-Native Framework for LLM-Based Paper Evaluation
- Title(参考訳): 孤立スコーリングから協調ランク付けへ:LCMによる紙評価の比較Native Framework
- Authors: Pujun Zheng, Jiacheng Yao, Jinquan Zheng, Chenyang Gu, Guoxiu He, Jiawei Liu, Yong Huang, Tianrui Guo, Wei Lu,
- Abstract要約: 大規模言語モデル (LLM) は現在, 各論文に絶対スコアを独立に割り当てることで, 科学的論文評価に応用されている。
孤立スコアから協調ランキングへの紙評価のシフトを提案する。
当社のフレームワークは,強力なベースラインであるDeepReview-14Bに対して,textbf21.8%の平均相対的な改善を実現している。
- 参考スコア(独自算出の注目度): 12.13840753234467
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are currently applied to scientific paper evaluation by assigning an absolute score to each paper independently. However, since score scales vary across conferences, time periods, and evaluation criteria, models trained on absolute scores are prone to fitting narrow, context-specific rules rather than developing robust scholarly judgment. To overcome this limitation, we propose shifting paper evaluation from isolated scoring to collaborative ranking. In particular, we design \textbf{C}omparison-\textbf{N}ative framework for \textbf{P}aper \textbf{E}valuation (\textbf{CNPE}), integrating comparison into both data construction and model learning. We first propose a graph-based similarity ranking algorithm to facilitate the sampling of more informative and discriminative paper pairs from a collection. We then enhance relative quality judgment through supervised fine-tuning and reinforcement learning with comparison-based rewards. At inference, the model performs pairwise comparisons over sampled paper pairs and aggregates these preference signals into a global relative quality ranking. Experimental results demonstrate that our framework achieves an average relative improvement of \textbf{21.8\%} over the strong baseline DeepReview-14B, while exhibiting robust generalization to five previously unseen datasets. \href{https://github.com/ECNU-Text-Computing/ComparisonReview}{Code}.
- Abstract(参考訳): 大規模言語モデル (LLM) は現在, 各論文に絶対スコアを独立に割り当てることで, 科学的論文評価に応用されている。
しかし、スコア尺度は会議、時間、評価基準によって異なるため、絶対スコアで訓練されたモデルは、堅牢な学術的判断を発達させるよりも、狭義の文脈固有の規則に適合する傾向がある。
この制限を克服するため,分離スコアから協調ランキングへの紙評価のシフトを提案する。
特に、データ構築とモデル学習の両面での比較を組み込んだ、 \textbf{C}omparison-\textbf{N}ative framework for \textbf{P}aper \textbf{E}valuation (\textbf{CNPE}) を設計する。
まず, グラフに基づく類似度ランキングアルゴリズムを提案し, より情報に富んだ, 識別可能な紙対をコレクションから抽出する。
そして、比較に基づく報酬による教師付き微調整と強化学習により、相対的な品質判断を強化する。
推測では、サンプル紙対に対してペアワイズ比較を行い、これらの選好信号をグローバルな相対的品質ランキングに集約する。
実験結果から,本フレームワークは強力なベースラインであるDeepReview-14Bに対して,従来の5つのデータセットに対して頑健な一般化を示しながら,平均的相対的改善を実現していることがわかった。
https://github.com/ECNU-Text-Computing/ComparisonReview}{Code}
関連論文リスト
- Direct-Scoring NLG Evaluators Can Use Pairwise Comparisons Too [42.13843953705695]
本稿では,合成要約を用いて,テスト時に一対のマシンランキングとして機能するダイレクトスコーリング手法を提案する。
提案手法は, 軸平均試料レベルの相関関係から, 最先端のペアワイズ評価器と同等に動作することを示す。
論文 参考訳(メタデータ) (2025-09-05T18:48:34Z) - AllSummedUp: un framework open-source pour comparer les metriques d'evaluation de resume [2.2153783542347805]
本稿では,自動要約評価における課題について検討する。
6つの代表的な指標で実施した実験に基づいて,文献における報告結果と実験環境における観察結果との間に有意な相違点が認められた。
SummEvalデータセットに適用された統一されたオープンソースフレームワークを導入し、評価指標の公平かつ透明な比較をサポートするように設計されている。
論文 参考訳(メタデータ) (2025-08-29T08:05:00Z) - Leveraging Reference Documents for Zero-Shot Ranking via Large Language Models [16.721450557704767]
RefRankは、固定参照文書に基づく単純で効果的な比較ランク付け手法である。
RefRankはポイントワイドのベースラインをはるかに上回り、少なくともペアワイドのアプローチと同等のパフォーマンスを達成できることを示した。
論文 参考訳(メタデータ) (2025-06-13T04:03:09Z) - FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets [69.91340332545094]
FLASKは、人間に基づく評価とモデルに基づく評価の両方のためのきめ細かい評価プロトコルである。
モデル性能の全体像を得るためには,評価の微粒化が重要であることを実験的に観察する。
論文 参考訳(メタデータ) (2023-07-20T14:56:35Z) - Investigating Crowdsourcing Protocols for Evaluating the Factual
Consistency of Summaries [59.27273928454995]
要約に適用される現在の事前学習モデルは、ソーステキストを誤って表現したり、外部情報を導入したりする事実上の矛盾がちである。
評価ベースのLikertスケールとランキングベースのBest-Worst Scalingプロトコルを用いた,事実整合性のためのクラウドソーシング評価フレームワークを構築した。
ランキングベースのプロトコルは、データセット間の要約品質をより信頼性の高い尺度を提供するのに対して、Likertレーティングの信頼性はターゲットデータセットと評価設計に依存する。
論文 参考訳(メタデータ) (2021-09-19T19:05:00Z) - Hierarchical Bi-Directional Self-Attention Networks for Paper Review
Rating Recommendation [81.55533657694016]
本稿では,階層型双方向自己注意ネットワークフレームワーク(HabNet)を提案する。
具体的には、文エンコーダ(レベル1)、レビュー内エンコーダ(レベル2)、レビュー間エンコーダ(レベル3)の3つのレベルで、論文レビューの階層構造を利用する。
我々は、最終的な受理決定を行う上で有用な予測者を特定することができ、また、数値的なレビュー評価とレビュアーが伝えるテキストの感情の不整合を発見するのに役立てることができる。
論文 参考訳(メタデータ) (2020-11-02T08:07:50Z) - Evaluating Text Coherence at Sentence and Paragraph Levels [17.99797111176988]
本稿では,既存の文順序付け手法の段落順序付けタスクへの適応について検討する。
また、ミニデータセットとノイズの多いデータセットを人工的に作成することで、既存のモデルの学習性と堅牢性を比較する。
我々は、リカレントグラフニューラルネットワークに基づくモデルがコヒーレンスモデリングの最適選択であると結論付けている。
論文 参考訳(メタデータ) (2020-06-05T03:31:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。