論文の概要: MERIT: Matching Expertise via Rubric-Informed Training for Reviewer Assignment
- arxiv url: http://arxiv.org/abs/2605.27865v1
- Date: Wed, 27 May 2026 02:26:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.693974
- Title: MERIT: Matching Expertise via Rubric-Informed Training for Reviewer Assignment
- Title(参考訳): MERIT:レビュアー・アサインメントのためのルーブリックインフォームドトレーニングによるエキスパートのマッチング
- Authors: Zixuan Yang, Yibo Zhao, Weicong Liu, Xiang Li,
- Abstract要約: 評価基準レベルの専門知識マッチングをスケーラブルな適合性監視に変換する2段階フレームワークを提案する。
第1段階では、レビュア評価を強化学習を用いて訓練し、論文が必要とする専門的側面を特定し、レビュアの以前の作業と適合させ、適合性を決定する。
第2段階では,評価器の予測を埋込み型レトリバーに蒸留し,大規模割当を効率的に行う。
- 参考スコア(独自算出の注目度): 6.083097040417168
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Matching submissions with suitable reviewers at scale is a growing challenge for major venues, yet existing approaches either rely on coarse proxy signals that conflate general relatedness with true suitability, or require expensive human annotations that are difficult to scale for training. We propose MERIT, a two-stage framework that bridges this gap by converting criterion-level expertise matching into scalable suitability supervision. In the first stage, we train a reviewer assessor via reinforcement learning to identify the expertise dimensions a paper requires, match them against the reviewer's prior work, and produce a suitability decision, with rewards provided by an LLM judge guided by paper-specific expertise rubrics. In the second stage, we distill the assessor's predictions into an embedding-based retriever for efficient large-scale assignment. Experiments show that our 4B reviewer assessor outperforms larger general-purpose LLMs on suitability classification, and the resulting retriever achieves state-of-the-art performance across LR-Bench and the CMU Gold dataset. Our code is available at https://github.com/Luli3220/MERIT.
- Abstract(参考訳): 大規模なレビュアーとのマッチングは、主要な会場ではますます困難になっているが、既存のアプローチでは、一般的な関連性を真の適合性と説明する粗いプロキシシグナルに依存するか、トレーニングのためにスケールするのが難しい高価な人間のアノテーションを必要とする。
このギャップを埋める2段階のフレームワークであるMERITを提案する。
第1段階では,レビュア評価器を強化学習を用いて訓練し,論文の要求する専門的側面を特定し,レビュアの以前の作業と一致させ,適性判定を行い,紙専門の専門用語で指導されたLLM審査員の報酬を与える。
第2段階では,評価器の予測を埋込み型レトリバーに蒸留し,大規模割当を効率的に行う。
実験により,我々の4Bレビュア評価器は,適合性分類においてより大きな汎用LLMよりも優れており,その結果,LR-BenchとCMUゴールドデータセット間の最先端性能を実現していることがわかった。
私たちのコードはhttps://github.com/Luli3220/MERIT.comから入手可能です。
関連論文リスト
- Augmenting Human Evaluation with LLM Judges: How Many Human Reviews Do You Need? [1.111977509278551]
大規模言語モデル(LLM)は、ハイテイクなアプリケーションを含むAIシステムの自動評価手段として、ますます利用されている。
専門家の人間格付けは高価でスケールが難しいが、LSM格付けは低コストで迅速に作成できる。
本稿では,LLM審査員の役割を代用的から補助的へとシフトさせ,LLM-as-a-judgeパラダイムを人的評価の強化の1つとして定式化する。
論文 参考訳(メタデータ) (2026-05-08T17:13:08Z) - BERT-as-a-Judge: A Robust Alternative to Lexical Methods for Efficient Reference-Based LLM Evaluation [11.37493959290663]
本稿では,参照型生成環境における回答の正当性を評価するためのエンコーダ駆動方式であるBERT-as-a-Judgeを紹介する。
より大規模なLLM審査員のパフォーマンスに適合しながら,語彙ベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-04-10T17:08:40Z) - Beyond Paper-to-Paper: Structured Profiling and Rubric Scoring for Paper-Reviewer Matching [5.731351860196096]
P2Rは、暗黙の論文間マッチングから明示的なプロファイルベースのマッチングに移行する、トレーニング不要のフレームワークである。
まず、セマンティックとアスペクトレベルの信号を組み合わせてハイリコール候補プールを形成するハイブリッド検索を実行する。
NeurIPS、SIGIR、SciRepEvalの実験では、P2Rは一貫して最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2026-04-07T13:27:40Z) - RubricRAG: Towards Interpretable and Reliable LLM Evaluation via Domain Knowledge Retrieval for Rubric Generation [11.21565372620296]
大規模言語モデル(LLM)は、スカラースコアや選好を出力する自動グレーダを使用して、ますます評価され、時には訓練される。
この解釈可能性の欠如は、モデル開発、データセットキュレーション、高レベルのデプロイメントに対する有用性を制限している。
本稿では,関連するクエリから推論時にルーリックからドメイン知識を抽出するシンプルな戦略RAGを紹介する。
論文 参考訳(メタデータ) (2026-03-21T17:10:14Z) - Expert Preference-based Evaluation of Automated Related Work Generation [54.29459509574242]
本稿では,従来の作業評価基準と専門家固有の嗜好を統合したマルチターン評価フレームワークGREPを提案する。
より優れたアクセシビリティを実現するため、我々はGREPの2つの変種を設計する: プロプライエタリなLLMを評価対象とするより正確な変種と、オープンウェイトなLLMをより安価な代替品である。
論文 参考訳(メタデータ) (2025-08-11T13:08:07Z) - CompassJudger-2: Towards Generalist Judge Model via Verifiable Rewards [72.44810390478229]
CompassJudger-2は、タスク駆動のマルチドメインデータキュレーション戦略によって制限を克服する新しいジェネラリストジャッジモデルである。
CompassJudger-2は、複数の判定と報奨ベンチマークで優れた結果を得る。
論文 参考訳(メタデータ) (2025-07-12T01:34:24Z) - Harnessing the Power of Reinforcement Learning for Language-Model-Based Information Retriever via Query-Document Co-Augmentation [35.70731674603417]
LLM(Large Language Models)は、ユーザクエリとコーパスドキュメントの拡張に使用することができる。
ユーザクエリとコーパスドキュメントの両方を拡張できるLLMベースのレトリバーを提案する。
提案手法は,疎密な設定と密な設定の両方において,LLMに基づく検索性能を大幅に向上させる。
論文 参考訳(メタデータ) (2025-06-23T14:14:43Z) - A Systematic Examination of Preference Learning through the Lens of Instruction-Following [83.71180850955679]
新たな合成データ生成パイプラインを用いて48,000の命令追従プロンプトを生成する。
合成プロンプトでは、リジェクションサンプリング(RS)とモンテカルロ木探索(MCTS)の2つの選好データセットキュレーション手法を用いる。
実験により、MCTSが生成した選好ペアにおける共有プレフィックスは、限界はあるが一貫した改善をもたらすことが明らかになった。
高コントラストの選好ペアは一般的に低コントラストのペアよりも優れているが、両者を組み合わせることで最高のパフォーマンスが得られることが多い。
論文 参考訳(メタデータ) (2024-12-18T15:38:39Z) - JudgeRank: Leveraging Large Language Models for Reasoning-Intensive Reranking [81.88787401178378]
本稿では,文書関連性を評価する際に,人間の認知過程をエミュレートする新しいエージェント・リランカであるJiceRankを紹介する。
我々は,推論集約型BRIGHTベンチマークを用いて判定Rankを評価し,第1段階の検索手法よりも性能が大幅に向上したことを示す。
さらに、JiceRankは、人気の高いBEIRベンチマークの細調整された最先端リランカと同等に動作し、ゼロショットの一般化能力を検証している。
論文 参考訳(メタデータ) (2024-10-31T18:43:12Z) - A Thorough Performance Benchmarking on Lightweight Embedding-based Recommender Systems [67.52782366565658]
State-of-the-art recommender system (RS) は、埋め込みベクトルによって符号化される分類的特徴に依存し、結果として非常に大きな埋め込みテーブルとなる。
軽量埋め込み型RSの繁栄にもかかわらず、評価プロトコルには幅広い多様性が見られる。
本研究では, LERSの性能, 効率, クロスタスク転送性について, 徹底的なベンチマークによる検討を行った。
論文 参考訳(メタデータ) (2024-06-25T07:45:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。