論文の概要: RATE: Reviewer Profiling and Annotation-free Training for Expertise Ranking in Peer Review Systems
- arxiv url: http://arxiv.org/abs/2601.19637v1
- Date: Tue, 27 Jan 2026 14:13:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.344972
- Title: RATE: Reviewer Profiling and Annotation-free Training for Expertise Ranking in Peer Review Systems
- Title(参考訳): RATE: ピアレビューシステムにおける専門家ランク付けのためのレビュアプロファイリングとアノテーションなしトレーニング
- Authors: Weicong Liu, Zixuan Yang, Yibo Zhao, Xiang Li,
- Abstract要約: LRベンチ(LR-bench)は,2024-2025のAI/NLP原稿を5段階の自己評価親和性評価で評価したベンチマークである。
また、レビュアーの最近の出版物をコンパクトなキーワードベースのプロファイルに抽出するレビュアー中心のランキングフレームワークであるRATEを提案する。
我々の手法は、常に最先端のパフォーマンスを達成し、明確なマージンで強力な埋め込みベースラインを上回ります。
- 参考スコア(独自算出の注目度): 6.083097040417168
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reviewer assignment is increasingly critical yet challenging in the LLM era, where rapid topic shifts render many pre-2023 benchmarks outdated and where proxy signals poorly reflect true reviewer familiarity. We address this evaluation bottleneck by introducing LR-bench, a high-fidelity, up-to-date benchmark curated from 2024-2025 AI/NLP manuscripts with five-level self-assessed familiarity ratings collected via a large-scale email survey, yielding 1055 expert-annotated paper-reviewer-score annotations. We further propose RATE, a reviewer-centric ranking framework that distills each reviewer's recent publications into compact keyword-based profiles and fine-tunes an embedding model with weak preference supervision constructed from heuristic retrieval signals, enabling matching each manuscript against a reviewer profile directly. Across LR-bench and the CMU gold-standard dataset, our approach consistently achieves state-of-the-art performance, outperforming strong embedding baselines by a clear margin. We release LR-bench at https://huggingface.co/datasets/Gnociew/LR-bench, and a GitHub repository at https://github.com/Gnociew/RATE-Reviewer-Assign.
- Abstract(参考訳): LLM時代には、高速なトピックシフトが多くの2023以前のベンチマークを時代遅れにし、プロキシシグナルが真のレビュアーの親しみを反映している。
我々は,2024-2025年のAI/NLP原稿から収集した高忠実で最新のベンチマークであるLR-benchを導入することで,この評価ボトルネックに対処する。
さらに、レビューア中心のランキングフレームワークであるRATEを提案し、レビューアの最近の出版物をコンパクトなキーワードベースのプロファイルに抽出し、ヒューリスティックな検索信号から構築された好みを弱める埋め込みモデルを微調整し、レビューアのプロフィールと直接一致するようにした。
LRベンチとCMUゴールドスタンダードデータセット全体で、我々のアプローチは一貫して最先端のパフォーマンスを達成し、強い埋め込みベースラインを明確なマージンで上回ります。
LR-benchはhttps://huggingface.co/datasets/Gnociew/LR-benchで、GitHubリポジトリはhttps://github.com/Gnociew/RATE-Reviewer-Assignでリリースしています。
関連論文リスト
- When Your Reviewer is an LLM: Biases, Divergence, and Prompt Injection Risks in Peer Review [34.067892820832405]
本稿では,学術レビュアーとして大規模言語モデル(LLM)を体系的に評価する。
ICLR 2023とNeurIPS 2022の1,441論文のキュレートされたデータセットを用いて、評価、強度、弱点を越えて、GPT-5-miniをヒトレビュアーに対して評価した。
以上の結果から, LLMは, より弱い論文に対する評価を一貫して向上させつつ, より強いコントリビューションに対する人間の判断と密に一致させることが示唆された。
論文 参考訳(メタデータ) (2025-09-12T00:57:50Z) - Benchmarking and Studying the LLM-based Code Review [34.93646390349726]
現在のベンチマークでは、きめ細かいコード単位、完全なプロジェクトコンテキストの欠如、不適切な評価指標の使用に重点を置いています。
SWRBenchはPR中心のレビューと完全なプロジェクトコンテキストを提供する新しいベンチマークです。
我々の貢献には、SWRBenchベンチマーク、その客観的評価方法、現在のACR機能に関する包括的な研究、効果的な拡張アプローチが含まれる。
論文 参考訳(メタデータ) (2025-09-01T14:13:34Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - Unblocking Fine-Grained Evaluation of Detailed Captions: An Explaining AutoRater and Critic-and-Revise Pipeline [58.832237984587664]
VNLI-Critiqueは,自動文レベルの事実性分類と批判生成のためのモデルである。
1) VNLI-CritiqueはM-HalDetectベンチマークの最先端性能によって検証された堅牢な一般化を実証し、(2) VNLI-CritiqueによるDOCCI-Critique向けAutoRaterは信頼性の高いVLMランキングを提供し、人間の事実性判断と優れた整合性を示す。
論文 参考訳(メタデータ) (2025-06-09T10:57:26Z) - LGAR: Zero-Shot LLM-Guided Neural Ranking for Abstract Screening in Systematic Literature Reviews [0.9314555897827079]
体系的な文献レビューは、トピックに関するすべての関連論文を特定し評価することを目的としている。
現在までに、大型言語モデル(LLM)を用いた抽象的なスクリーニング手法はバイナリ分類設定に重点を置いている。
ゼロショットLLMガイド付き抽象ランクラであるLGARを提案する。
論文 参考訳(メタデータ) (2025-05-30T16:18:50Z) - RAG-Zeval: Towards Robust and Interpretable Evaluation on RAG Responses through End-to-End Rule-Guided Reasoning [64.46921169261852]
RAG-Zevalは、ルール誘導推論タスクとして忠実さと正しさの評価を定式化する、新しいエンドツーエンドフレームワークである。
提案手法は、強化学習による評価者を訓練し、コンパクトなモデルにより包括的および音質評価を生成する。
実験では、RAG-Zevalの優れた性能を示し、人間の判断と最も強い相関性を達成した。
論文 参考訳(メタデータ) (2025-05-28T14:55:33Z) - Rank-R1: Enhancing Reasoning in LLM-based Document Rerankers via Reinforcement Learning [76.50690734636477]
ランキングタスクを実行する前にユーザクエリと候補文書の両方を推論する新しいLCMベースのリランカである Rank-R1 を導入する。
TREC DL と BRIGHT データセットを用いた実験により,Ranc-R1 が特に複雑なクエリに対して非常に有効であることが判明した。
論文 参考訳(メタデータ) (2025-03-08T03:14:26Z) - A Large-Scale Study of Relevance Assessments with Large Language Models: An Initial Look [52.114284476700874]
本稿では,4つの異なる関連性評価手法が展開された大規模評価(TREC 2024 RAG Track)の結果について報告する。
自動生成UMBRELA判定は、完全に手動による判断を置き換えて、実行レベルの有効性を正確に捉えることができる。
意外なことに、LLMアシストは完全な手作業による評価と相関を増さないようで、人間のループプロセスに関連するコストは明らかな有意義な利益をもたらすものではないことを示唆している。
論文 参考訳(メタデータ) (2024-11-13T01:12:35Z) - RaFe: Ranking Feedback Improves Query Rewriting for RAG [83.24385658573198]
アノテーションを使わずにクエリ書き換えモデルをトレーニングするためのフレームワークを提案する。
公開されているリランカを活用することで、フィードバックはリライトの目的とよく一致します。
論文 参考訳(メタデータ) (2024-05-23T11:00:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。