論文の概要: OmniReview: A Large-scale Benchmark and LLM-enhanced Framework for Realistic Reviewer Recommendation
- arxiv url: http://arxiv.org/abs/2602.08896v1
- Date: Mon, 09 Feb 2026 16:57:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.384935
- Title: OmniReview: A Large-scale Benchmark and LLM-enhanced Framework for Realistic Reviewer Recommendation
- Title(参考訳): OmniReview: リアルタイムレビュアレコメンデーションのための大規模ベンチマークとLLM拡張フレームワーク
- Authors: Yehua Huang, Penglei Sun, Zebin Chen, Zhenheng Tang, Xiaowen Chu,
- Abstract要約: Pro-MMoE(Pro-MMoE)は,大規模言語モデル(LLM)とマルチタスク学習を併用する新しいフレームワークである。
Pro-MMoEは7つのメトリクスのうち6つで最先端のパフォーマンスを実現し、現実的なレビュアーレコメンデーションのための新しいベンチマークを確立している。
- 参考スコア(独自算出の注目度): 22.223973340236594
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Academic peer review remains the cornerstone of scholarly validation, yet the field faces some challenges in data and methods. From the data perspective, existing research is hindered by the scarcity of large-scale, verified benchmarks and oversimplified evaluation metrics that fail to reflect real-world editorial workflows. To bridge this gap, we present OmniReview, a comprehensive dataset constructed by integrating multi-source academic platforms encompassing comprehensive scholarly profiles through the disambiguation pipeline, yielding 202, 756 verified review records. Based on this data, we introduce a three-tier hierarchical evaluaion framework to assess recommendations from recall to precise expert identification. From the method perspective, existing embedding-based approaches suffer from the information bottleneck of semantic compression and limited interpretability. To resolve these method limitations, we propose Profiling Scholars with Multi-gate Mixture-of-Experts (Pro-MMoE), a novel framework that synergizes Large Language Models (LLMs) with Multi-task Learning. Specifically, it utilizes LLM-generated semantic profiles to preserve fine-grained expertise nuances and interpretability, while employing a Task-Adaptive MMoE architecture to dynamically balance conflicting evaluation goals. Comprehensive experiments demonstrate that Pro-MMoE achieves state-of-the-art performance across six of seven metrics, establishing a new benchmark for realistic reviewer recommendation.
- Abstract(参考訳): 学術的ピアレビューは学術的検証の基礎であり続けているが、この分野はデータや手法のいくつかの課題に直面している。
データの観点から見れば、既存の研究は、大規模で検証されたベンチマークや、現実の編集ワークフローを反映できない過度に単純化された評価指標の不足によって妨げられている。
このギャップを埋めるために、我々は、曖昧なパイプラインを通して総合的な学術的プロファイルを含む複数ソースの学術プラットフォームを統合することで構築された総合的なデータセットであるOmniReviewを紹介し、202,756の検証記録を得た。
このデータに基づいて,リコールから正確な専門家識別まで,3階層の階層的評価フレームワークを導入する。
方法の観点からは、既存の埋め込みベースのアプローチはセマンティック圧縮の情報ボトルネックと限定的な解釈可能性に悩まされている。
これらの制限を解決するために,マルチタスク学習でLLMを相乗化する新しいフレームワークであるPro-MMoE (Multi-gate Mixture-of-Experts)を提案する。
具体的には、LLMの生成したセマンティックプロファイルを使用して、微粒な専門知識のニュアンスと解釈可能性を維持し、タスク適応型MMoEアーキテクチャを用いて、競合する評価目標の動的バランスをとる。
総合的な実験により、Pro-MMoEは7つのメトリクスのうち6つで最先端のパフォーマンスを達成し、現実的なレビュアーレコメンデーションのための新しいベンチマークを確立した。
関連論文リスト
- AllSummedUp: un framework open-source pour comparer les metriques d'evaluation de resume [2.2153783542347805]
本稿では,自動要約評価における課題について検討する。
6つの代表的な指標で実施した実験に基づいて,文献における報告結果と実験環境における観察結果との間に有意な相違点が認められた。
SummEvalデータセットに適用された統一されたオープンソースフレームワークを導入し、評価指標の公平かつ透明な比較をサポートするように設計されている。
論文 参考訳(メタデータ) (2025-08-29T08:05:00Z) - Beyond "Not Novel Enough": Enriching Scholarly Critique with LLM-Assisted Feedback [81.0031690510116]
本稿では,3段階を通して専門家レビューアの動作をモデル化する,自動ノベルティ評価のための構造化アプローチを提案する。
本手法は,人文のノベルティレビューを大規模に分析した結果から得られたものである。
182 ICLR 2025 の提出で評価されたこの手法は、人間の推論と86.5%の一致と、新規性の結論に関する75.3%の合意を達成している。
論文 参考訳(メタデータ) (2025-08-14T16:18:37Z) - Benchmarking and Rethinking Knowledge Editing for Large Language Models [34.80161437154527]
知識編集は,Large Language Models (LLM)内での組み込み知識の更新を目的としている。
パラメータ修正や外部メモリ統合といった既存のアプローチは、しばしば不整合評価目標や実験的な設定に悩まされる。
本研究は、現在の知識編集手法の限界に対する新たな洞察を提供し、より堅牢な代替手段としてコンテキストベースの推論の可能性を強調する。
論文 参考訳(メタデータ) (2025-05-24T13:32:03Z) - Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。
大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。
従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文 参考訳(メタデータ) (2025-04-10T04:09:47Z) - Training an LLM-as-a-Judge Model: Pipeline, Insights, and Practical Lessons [9.954960702259918]
本稿では,文脈認識評価を行うLLM(en:en:en:en:en:en:en:en:LLMs)ジャッジであるThemisを紹介する。
Themisの開発パイプラインの概要を概観し、シナリオに依存した評価プロンプトを強調します。
メタ評価のための人間ラベル付きベンチマークを2つ導入し、テミスが人間の嗜好を経済的に高度に調整できることを実証した。
論文 参考訳(メタデータ) (2025-02-05T08:35:55Z) - Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。
生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。
我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文 参考訳(メタデータ) (2024-10-02T20:48:28Z) - IDGen: Item Discrimination Induced Prompt Generation for LLM Evaluation [15.895295957106772]
大規模言語モデル(LLMs)を評価するためのID誘発即時合成フレームワークを提案する。
我々のデータ合成フレームワークは、幅と特異性の両方を優先し、LLMの能力を包括的に評価するプロンプトを生成することができる。
我々は、LSMの評価研究を容易にするために、3000以上の慎重に作成されたプロンプトのデータセットをリリースする。
論文 参考訳(メタデータ) (2024-09-27T16:29:12Z) - MLLM-Bench: Evaluating Multimodal LLMs with Per-sample Criteria [49.500322937449326]
MLLM(Multimodal large language model)は、AIアプリケーションの範囲を広げている。
既存のMLLMの自動評価手法は主にユーザエクスペリエンスを考慮せずにクエリを評価する場合に限られている。
本稿では,MLLM を判断基準として評価する MLLM の新しい評価パラダイムを提案する。
論文 参考訳(メタデータ) (2023-11-23T12:04:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。