論文の概要: A Gold Standard Dataset for the Reviewer Assignment Problem
- arxiv url: http://arxiv.org/abs/2303.16750v1
- Date: Thu, 23 Mar 2023 16:15:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-31 15:49:45.206897
- Title: A Gold Standard Dataset for the Reviewer Assignment Problem
- Title(参考訳): レビュアー割り当て問題のためのゴールド標準データセット
- Authors: Ivan Stelmakh, John Wieting, Graham Neubig, Nihar B. Shah
- Abstract要約: 類似度スコア(Similarity score)とは、論文のレビューにおいて、レビュアーの専門知識を数値で見積もるものである。
私たちのデータセットは、58人の研究者による477の自己申告された専門知識スコアで構成されています。
2つの論文をレビュアーに関連付けるタスクは、簡単なケースでは12%~30%、ハードケースでは36%~43%である。
- 参考スコア(独自算出の注目度): 117.59690218507565
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many peer-review venues are either using or looking to use algorithms to
assign submissions to reviewers. The crux of such automated approaches is the
notion of the "similarity score"--a numerical estimate of the expertise of a
reviewer in reviewing a paper--and many algorithms have been proposed to
compute these scores. However, these algorithms have not been subjected to a
principled comparison, making it difficult for stakeholders to choose the
algorithm in an evidence-based manner. The key challenge in comparing existing
algorithms and developing better algorithms is the lack of the publicly
available gold-standard data that would be needed to perform reproducible
research. We address this challenge by collecting a novel dataset of similarity
scores that we release to the research community. Our dataset consists of 477
self-reported expertise scores provided by 58 researchers who evaluated their
expertise in reviewing papers they have read previously.
We use this data to compare several popular algorithms employed in computer
science conferences and come up with recommendations for stakeholders. Our main
findings are as follows. First, all algorithms make a non-trivial amount of
error. For the task of ordering two papers in terms of their relevance for a
reviewer, the error rates range from 12%-30% in easy cases to 36%-43% in hard
cases, highlighting the vital need for more research on the
similarity-computation problem. Second, most existing algorithms are designed
to work with titles and abstracts of papers, and in this regime the Specter+MFR
algorithm performs best. Third, to improve performance, it may be important to
develop modern deep-learning based algorithms that can make use of the full
texts of papers: the classical TD-IDF algorithm enhanced with full texts of
papers is on par with the deep-learning based Specter+MFR that cannot make use
of this information.
- Abstract(参考訳): 多くのピアレビュー会場では、アルゴリズムを使ってレビュアーに投稿を割り当てようとしている。
このような自動化アプローチのcruxは「類似度スコア」の概念であり、論文をレビューするレビュアーの専門知識を数値的に見積もることであり、これらのスコアを計算するために多くのアルゴリズムが提案されている。
しかし、これらのアルゴリズムは原則的に比較されていないため、利害関係者が証拠に基づく方法でアルゴリズムを選択することは困難である。
既存のアルゴリズムを比較し、より良いアルゴリズムを開発する上での鍵となる課題は、再現可能な研究を行うために必要な公開の金標準データがないことである。
我々は、研究コミュニティにリリースする類似度スコアの新たなデータセットを収集することで、この課題に対処します。
我々のデータセットは、これまでに読んだ論文をレビューする際の専門知識を評価した58人の研究者による477の専門知識スコアで構成されています。
このデータを使って、コンピュータサイエンスのカンファレンスで採用されているいくつかの一般的なアルゴリズムを比較し、ステークホルダーに推奨する。
主な発見は以下の通りである。
まず、すべてのアルゴリズムが非自明な誤りを犯す。
2つの論文をレビュー者と関連づけて注文するタスクでは、エラー率は簡単なケースでは12%-30%から難しいケースでは36%-43%まで様々であり、類似性計算問題に関するさらなる研究の必要性が強調されている。
第二に、既存のアルゴリズムは論文のタイトルや要約を扱うように設計されており、この方式ではSpecter+MFRアルゴリズムが最適である。
第3に、パフォーマンスを向上させるために、論文の全文を活用可能な、最新のディープラーニングベースのアルゴリズムを開発することが重要であるかもしれない。 論文の全文で拡張された古典的なtd-idfアルゴリズムは、この情報を使用することができないディープラーニングベースのspecter+mfrと同等です。
関連論文リスト
- Towards Comparable Active Learning [6.579888565581481]
近年の文献で報告されているリフトは、他の領域にあまり一般化せず、アクティブラーニング研究の不確定な状況に繋がることを示す。
本稿では,様々なタスクや領域にまたがるアルゴリズムを公平に比較するためのアクティブラーニングフレームワークと,評価のための高速で実行可能なオラクルアルゴリズムを提供することにより,これらの課題に対処する。
論文 参考訳(メタデータ) (2023-11-30T08:54:32Z) - Regularization-Based Methods for Ordinal Quantification [49.606912965922504]
順序の場合、すなわち n>2 クラスの集合上で全順序が定義される場合について研究する。
本稿では,従来のアルゴリズムよりも優れた正規化OQアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-13T16:04:06Z) - Towards Better Out-of-Distribution Generalization of Neural Algorithmic
Reasoning Tasks [51.8723187709964]
ニューラルネットワーク推論タスクのOOD一般化について検討する。
目標は、ディープニューラルネットワークを使用して入出力ペアからアルゴリズムを学ぶことである。
論文 参考訳(メタデータ) (2022-11-01T18:33:20Z) - Stochastic Differentially Private and Fair Learning [7.971065005161566]
我々は、収束することが保証されるフェアラーニングのための最初の微分プライベートアルゴリズムを提供する。
われわれのフレームワークは、人口格差や均等化オッズなど、さまざまな公平さを許容できるほど柔軟である。
本アルゴリズムは,複数の(非バイナリ)機密属性を持つ非バイナリ分類タスクに適用可能である。
論文 参考訳(メタデータ) (2022-10-17T06:54:57Z) - The CLRS Algorithmic Reasoning Benchmark [28.789225199559834]
アルゴリズムの学習表現は機械学習の新たな領域であり、ニューラルネットワークから古典的なアルゴリズムで概念をブリッジしようとしている。
本稿では,従来のアルゴリズムを包括するCLRS Algorithmic Reasoning Benchmarkを提案する。
我々のベンチマークは、ソート、探索、動的プログラミング、グラフアルゴリズム、文字列アルゴリズム、幾何アルゴリズムなど、様々なアルゴリズムの推論手順にまたがっている。
論文 参考訳(メタデータ) (2022-05-31T09:56:44Z) - Algorithmic Fairness Datasets: the Story so Far [68.45921483094705]
データ駆動アルゴリズムは、人々の幸福に直接影響し、批判的な決定をサポートするために、さまざまな領域で研究されている。
研究者のコミュニティは、既存のアルゴリズムの株式を調査し、新しいアルゴリズムを提案し、歴史的に不利な人口に対する自動意思決定のリスクと機会の理解を深めてきた。
公正な機械学習の進歩はデータに基づいており、適切に文書化された場合にのみ適切に使用できる。
残念なことに、アルゴリズムフェアネスコミュニティは、特定のリソース(オパシティ)に関する情報の不足と利用可能な情報の分散(スパーシティ)によって引き起こされる、集合的なデータドキュメント負債に悩まされている。
論文 参考訳(メタデータ) (2022-02-03T17:25:46Z) - Machine Learning for Online Algorithm Selection under Censored Feedback [71.6879432974126]
オンラインアルゴリズム選択(OAS)では、アルゴリズム問題クラスのインスタンスがエージェントに次々に提示され、エージェントは、固定された候補アルゴリズムセットから、おそらく最高のアルゴリズムを迅速に選択する必要がある。
SAT(Satisfiability)のような決定問題に対して、品質は一般的にアルゴリズムのランタイムを指す。
本研究では,OASのマルチアームバンディットアルゴリズムを再検討し,この問題に対処する能力について議論する。
ランタイム指向の損失に適応し、時間的地平線に依存しない空間的・時間的複雑さを維持しながら、部分的に検閲されたデータを可能にする。
論文 参考訳(メタデータ) (2021-09-13T18:10:52Z) - Run2Survive: A Decision-theoretic Approach to Algorithm Selection based
on Survival Analysis [75.64261155172856]
生存分析(SA)は、自然に検閲されたデータをサポートし、アルゴリズムランタイムの分散モデルを学習するためにそのようなデータを使用する適切な方法を提供する。
我々は、アルゴリズム選択に対する洗練された決定論的アプローチの基礎として、そのようなモデルを活用し、Run2Surviveを疑う。
標準ベンチマークASlibによる広範な実験では、我々のアプローチは競争力が高く、多くの場合、最先端のASアプローチよりも優れていることが示されている。
論文 参考訳(メタデータ) (2020-07-06T15:20:17Z) - Large-scale empirical validation of Bayesian Network structure learning
algorithms with noisy data [9.04391541965756]
本稿では、15個の構造学習アルゴリズムの性能について検討する。
各アルゴリズムは、複数のケーススタディ、サンプルサイズ、ノイズの種類、および複数の評価基準で評価される。
その結果、従来の合成性能は、実世界のパフォーマンスを10%以上50%以上で過大評価する可能性があることが示唆された。
論文 参考訳(メタデータ) (2020-05-18T18:40:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。