論文の概要: A Gold Standard Dataset for the Reviewer Assignment Problem
- arxiv url: http://arxiv.org/abs/2303.16750v2
- Date: Fri, 30 May 2025 08:34:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.336311
- Title: A Gold Standard Dataset for the Reviewer Assignment Problem
- Title(参考訳): レビュアー割り当て問題のためのゴールドスタンダードデータセット
- Authors: Ivan Stelmakh, John Wieting, Sarina Xi, Graham Neubig, Nihar B. Shah,
- Abstract要約: 類似度スコア(Similarity score)とは、論文のレビューにおいて、レビュアーの専門知識を数値で見積もるものである。
既存のアルゴリズムを比較し、より良いアルゴリズムを開発する上で重要な課題は、公開された金標準データの欠如である。
研究コミュニティにリリースした類似度スコアの新しいデータセットを収集します。
- 参考スコア(独自算出の注目度): 70.45113777449373
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many peer-review venues are using algorithms to assign submissions to reviewers. The crux of such automated approaches is the notion of the "similarity score" -- a numerical estimate of the expertise of a reviewer in reviewing a paper -- and many algorithms have been proposed to compute these scores. However, these algorithms have not been subjected to a principled comparison, making it difficult for stakeholders to choose the algorithm in an evidence-based manner. The key challenge in comparing existing algorithms and developing better algorithms is the lack of publicly available gold-standard data. We address this challenge by collecting a novel dataset of similarity scores that we release to the research community. Our dataset consists of 477 self-reported expertise scores provided by 58 researchers who evaluated their expertise in reviewing papers they have read previously. Using our dataset, we compare several widely used similarity algorithms and offer key insights. First, all algorithms exhibit significant error, with misranking rates between 12%-30% in easier cases and 36%-43% in harder ones. Second, most specialized algorithms are designed to work with titles and abstracts of papers, and in this regime the SPECTER2 algorithm performs best. Interestingly, classical TF-IDF matches SPECTER2 in accuracy when given access to full submission texts. In contrast, off-the-shelf LLMs lag behind specialized approaches.
- Abstract(参考訳): 多くのピアレビュー会場では、レビュアーに投稿を割り当てるためにアルゴリズムを使用している。
このような自動化アプローチの要点は、論文のレビューにおいてレビュアーの専門知識を数値で見積もる「類似度スコア」の概念であり、これらのスコアを計算するために多くのアルゴリズムが提案されている。
しかし、これらのアルゴリズムは原則的な比較の対象になっていないため、利害関係者がエビデンスベースの方法でアルゴリズムを選択することは困難である。
既存のアルゴリズムを比較し、より良いアルゴリズムを開発する上で重要な課題は、公開された金標準データの欠如である。
我々は、研究コミュニティにリリースした類似度スコアの新しいデータセットを収集することで、この問題に対処する。
我々のデータセットは、これまでに読んだ論文をレビューする際の専門知識を評価した58人の研究者による477の自己報告された専門知識スコアで構成されています。
データセットを用いて、広く使われている類似性アルゴリズムを比較し、重要な洞察を提供する。
第一に、全てのアルゴリズムは大きなエラーを示し、簡単なケースでは12%-30%、難しいケースでは36%-43%と誤判定される。
第二に、ほとんどの特殊なアルゴリズムは論文のタイトルや要約を扱うように設計されており、この方式では SPECTER2 アルゴリズムが最善である。
興味深いことに、古典的なTF-IDFは、完全な提出テキストへのアクセスが与えられたときにSPECTER2と精度で一致している。
対照的に、市販のLLMは特殊なアプローチに遅れを取っている。
関連論文リスト
- Towards Comparable Active Learning [6.579888565581481]
近年の文献で報告されているリフトは、他の領域にあまり一般化せず、アクティブラーニング研究の不確定な状況に繋がることを示す。
本稿では,様々なタスクや領域にまたがるアルゴリズムを公平に比較するためのアクティブラーニングフレームワークと,評価のための高速で実行可能なオラクルアルゴリズムを提供することにより,これらの課題に対処する。
論文 参考訳(メタデータ) (2023-11-30T08:54:32Z) - Regularization-Based Methods for Ordinal Quantification [49.606912965922504]
順序の場合、すなわち n>2 クラスの集合上で全順序が定義される場合について研究する。
本稿では,従来のアルゴリズムよりも優れた正規化OQアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-13T16:04:06Z) - Towards Better Out-of-Distribution Generalization of Neural Algorithmic
Reasoning Tasks [51.8723187709964]
ニューラルネットワーク推論タスクのOOD一般化について検討する。
目標は、ディープニューラルネットワークを使用して入出力ペアからアルゴリズムを学ぶことである。
論文 参考訳(メタデータ) (2022-11-01T18:33:20Z) - Stochastic Differentially Private and Fair Learning [7.971065005161566]
我々は、収束することが保証されるフェアラーニングのための最初の微分プライベートアルゴリズムを提供する。
われわれのフレームワークは、人口格差や均等化オッズなど、さまざまな公平さを許容できるほど柔軟である。
本アルゴリズムは,複数の(非バイナリ)機密属性を持つ非バイナリ分類タスクに適用可能である。
論文 参考訳(メタデータ) (2022-10-17T06:54:57Z) - The CLRS Algorithmic Reasoning Benchmark [28.789225199559834]
アルゴリズムの学習表現は機械学習の新たな領域であり、ニューラルネットワークから古典的なアルゴリズムで概念をブリッジしようとしている。
本稿では,従来のアルゴリズムを包括するCLRS Algorithmic Reasoning Benchmarkを提案する。
我々のベンチマークは、ソート、探索、動的プログラミング、グラフアルゴリズム、文字列アルゴリズム、幾何アルゴリズムなど、様々なアルゴリズムの推論手順にまたがっている。
論文 参考訳(メタデータ) (2022-05-31T09:56:44Z) - Algorithmic Fairness Datasets: the Story so Far [68.45921483094705]
データ駆動アルゴリズムは、人々の幸福に直接影響し、批判的な決定をサポートするために、さまざまな領域で研究されている。
研究者のコミュニティは、既存のアルゴリズムの株式を調査し、新しいアルゴリズムを提案し、歴史的に不利な人口に対する自動意思決定のリスクと機会の理解を深めてきた。
公正な機械学習の進歩はデータに基づいており、適切に文書化された場合にのみ適切に使用できる。
残念なことに、アルゴリズムフェアネスコミュニティは、特定のリソース(オパシティ)に関する情報の不足と利用可能な情報の分散(スパーシティ)によって引き起こされる、集合的なデータドキュメント負債に悩まされている。
論文 参考訳(メタデータ) (2022-02-03T17:25:46Z) - Machine Learning for Online Algorithm Selection under Censored Feedback [71.6879432974126]
オンラインアルゴリズム選択(OAS)では、アルゴリズム問題クラスのインスタンスがエージェントに次々に提示され、エージェントは、固定された候補アルゴリズムセットから、おそらく最高のアルゴリズムを迅速に選択する必要がある。
SAT(Satisfiability)のような決定問題に対して、品質は一般的にアルゴリズムのランタイムを指す。
本研究では,OASのマルチアームバンディットアルゴリズムを再検討し,この問題に対処する能力について議論する。
ランタイム指向の損失に適応し、時間的地平線に依存しない空間的・時間的複雑さを維持しながら、部分的に検閲されたデータを可能にする。
論文 参考訳(メタデータ) (2021-09-13T18:10:52Z) - Run2Survive: A Decision-theoretic Approach to Algorithm Selection based
on Survival Analysis [75.64261155172856]
生存分析(SA)は、自然に検閲されたデータをサポートし、アルゴリズムランタイムの分散モデルを学習するためにそのようなデータを使用する適切な方法を提供する。
我々は、アルゴリズム選択に対する洗練された決定論的アプローチの基礎として、そのようなモデルを活用し、Run2Surviveを疑う。
標準ベンチマークASlibによる広範な実験では、我々のアプローチは競争力が高く、多くの場合、最先端のASアプローチよりも優れていることが示されている。
論文 参考訳(メタデータ) (2020-07-06T15:20:17Z) - Large-scale empirical validation of Bayesian Network structure learning
algorithms with noisy data [9.04391541965756]
本稿では、15個の構造学習アルゴリズムの性能について検討する。
各アルゴリズムは、複数のケーススタディ、サンプルサイズ、ノイズの種類、および複数の評価基準で評価される。
その結果、従来の合成性能は、実世界のパフォーマンスを10%以上50%以上で過大評価する可能性があることが示唆された。
論文 参考訳(メタデータ) (2020-05-18T18:40:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。