論文の概要: Who Reviews The Reviewers? A Multi-Level Jury Problem
- arxiv url: http://arxiv.org/abs/2211.08494v2
- Date: Tue, 19 Dec 2023 17:04:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 03:13:00.741064
- Title: Who Reviews The Reviewers? A Multi-Level Jury Problem
- Title(参考訳): 誰がレビュアーをレビューする?
多段階の陪審問題
- Authors: Ben Abramowitz, Omer Lev, Nicholas Mattei
- Abstract要約: 我々は、ある独立した確率(コンピテンス)で、基礎的真理についての推測を正しく表現する独立したレビュアー(専門家)のグループからのアドバイスを用いて二元的基底的真理を決定するという問題を考察する。
実践的な設定では、レビュアーは非能率であり、すなわち半分以下の能力であり、専門家の数は少ないかもしれないため、コンドルチェット・ジャリー・セオリームは実際は関係がない。
より多くの椅子を持つ方がよい場合もあるが、多くの場合、より多くのレビュアーを持つほうがよい。
- 参考スコア(独自算出の注目度): 20.193491214464185
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We consider the problem of determining a binary ground truth using advice
from a group of independent reviewers (experts) who express their guess about a
ground truth correctly with some independent probability (competence). In this
setting, when all reviewers are competent (competence greater than one-half),
the Condorcet Jury Theorem tells us that adding more reviewers increases the
overall accuracy, and if all competences are known, then there exists an
optimal weighting of the reviewers. However, in practical settings, reviewers
may be noisy or incompetent, i.e., competence below half, and the number of
experts may be small, so the asymptotic Condorcet Jury Theorem is not
practically relevant. In such cases we explore appointing one or more chairs
(judges) who determine the weight of each reviewer for aggregation, creating
multiple levels. However, these chairs may be unable to correctly identify the
competence of the reviewers they oversee, and therefore unable to compute the
optimal weighting. We give conditions when a set of chairs is able to weight
the reviewers optimally, and depending on the competence distribution of the
agents, give results about when it is better to have more chairs or more
reviewers. Through numerical simulations we show that in some cases it is
better to have more chairs, but in many cases it is better to have more
reviewers.
- Abstract(参考訳): 我々は、独立したレビュー者(専門家)のグループからのアドバイスを用いて二元基底真理を決定する問題を考察し、基底真理についての推測をある程度の独立確率(競合)で正しく表現する。
この設定では、すべてのレビュアーが能力(半数以上の能力)を持つ場合、コンドルチェットのJarry Theorem氏は、レビュアーを追加することで全体的な精度が向上し、すべてのコンピテンスが分かっている場合、レビュアーの最適な重み付けが存在すると言います。
しかし、実際的な場面では、レビュワーはうるさく、能力が半分以下であり、専門家の数は少ないため、漸近的なコンドルセト陪審定理は実際には関係しない。
そのような場合、各レビュアーの重みを決定する1つ以上の椅子(ジャッジ)を選定し、複数のレベルを作成します。
しかし、これらの椅子は、監督するレビュアーの能力を正確に識別できず、したがって最適な重み付けを計算することができない可能性がある。
一組の椅子がレビュアーを最適に重み付けできるような条件を与え、エージェントの能力分布に応じて、より多くの椅子やレビュアーを持つ方がよい時期について結果を与える。
数値シミュレーションにより、より多くの椅子を持つ方がよい場合もあるが、多くの場合、より多くのレビュアーを持つ方がよい。
関連論文リスト
- JudgeBench: A Benchmark for Evaluating LLM-based Judges [61.048125269475854]
judgeBenchは、知識、推論、数学、コーディングにまたがる挑戦的な応答ペアに関するLSMベースの判断を評価するためのベンチマークである。
審査員、微調整された審査員、マルチエージェントの審査員、報酬モデルに関する包括的な評価は、審査員ベンチが以前のベンチマークよりもかなり大きな課題を課していることを示している。
論文 参考訳(メタデータ) (2024-10-16T17:58:19Z) - On scalable oversight with weak LLMs judging strong LLMs [67.8628575615614]
我々は、2つのAIが1人の裁判官を納得させようとする議論、すなわち1人のAIが1人の裁判官を説得し、質問をする。
大規模言語モデル(LLM)をAIエージェントと人間の判断のためのスタンドインの両方として使用し、判断モデルがエージェントモデルよりも弱いと判断する。
論文 参考訳(メタデータ) (2024-07-05T16:29:15Z) - JudgeLM: Fine-tuned Large Language Models are Scalable Judges [54.007823006976516]
大規模言語モデル (LLM) を拡張性判断器 (JudgeLM) として微調整し, LLM を効率よく, かつ効率的に評価する手法を提案する。
まず, タスクシード, LLM 生成回答, GPT-4 生成判断を含む包括的, 大規模, 高品質なデータセットを提案する。
次に、微調整LDMにおける重要なバイアスを判断として分析し、位置バイアス、知識バイアス、フォーマットバイアスとみなす。
論文 参考訳(メタデータ) (2023-10-26T17:48:58Z) - Unsupervised Opinion Aggregation -- A Statistical Perspective [5.665646276894791]
複雑な意思決定システムは、根底にある真実が何であるかを理解するために意見に依存する。
本報告では, 基礎的真理を必要とせず, 各専門家の立場から知識を推測する統計的アプローチについて検討する。
論文 参考訳(メタデータ) (2023-08-20T23:14:52Z) - Peer Selection with Noisy Assessments [43.307040330622186]
現在最も正確なピアレビューアルゴリズムであるPeerNominationをWeightedPeerNominationに拡張します。
重み付け方式により、選択の全体的な精度が大幅に向上できることを解析的に示す。
論文 参考訳(メタデータ) (2021-07-21T14:47:11Z) - Can We Automate Scientific Reviewing? [89.50052670307434]
我々は、最先端自然言語処理(NLP)モデルを用いて、科学論文の第一パスピアレビューを生成する可能性について論じる。
我々は、機械学習領域で論文のデータセットを収集し、各レビューでカバーされているさまざまなコンテンツに注釈を付け、レビューを生成するために論文を取り込み、ターゲットの要約モデルを訓練する。
総合的な実験結果から、システム生成レビューは、人間によるレビューよりも、論文の多くの側面に触れる傾向にあることが示された。
論文 参考訳(メタデータ) (2021-01-30T07:16:53Z) - Prior and Prejudice: The Novice Reviewers' Bias against Resubmissions in
Conference Peer Review [35.24369486197371]
現代の機械学習とコンピュータサイエンスのカンファレンスは、ピアレビューの品質に挑戦する応募の数が急増している。
いくつかのカンファレンスは、著者が論文の以前の提出履歴を宣言するよう促したり、要求したりし始めた。
本研究は、レビュー対象の提出が以前、類似の会場で拒否されたという知識から生じる偏見について検討する。
論文 参考訳(メタデータ) (2020-11-30T09:35:37Z) - What Can We Do to Improve Peer Review in NLP? [69.11622020605431]
問題の一部は、レビュアーとエリアチェアが、リンゴとオレンジの比較を強制する未定義のタスクに直面していることだ、と我々は主張する。
先進的な方法はいくつかあるが、NLPコミュニティにおける一貫した実装のためのインセンティブとメカニズムを作成することが重要な課題である。
論文 参考訳(メタデータ) (2020-10-08T09:32:21Z) - Mitigating Manipulation in Peer Review via Randomized Reviewer
Assignments [96.114824979298]
コンファレンスピアレビューにおける3つの重要な課題は、特定の論文に割り当てられる悪意のある試みであり、"Torpedo reviewing"である。
我々は、これらの課題を共通の傘の下にまとめ、レビュアーの割り当てのための(ランダム化された)アルゴリズムを示すフレームワークを提案する。
我々のアルゴリズムは、悪意のあるレビュアーが希望する論文に割り当てられる確率を50%に抑えつつ、完全な最適類似性の90%以上を割り当てることができます。
論文 参考訳(メタデータ) (2020-06-29T23:55:53Z) - Aspect-based Sentiment Analysis of Scientific Reviews [12.472629584751509]
本研究は,受理論文と受理論文ではアスペクトベース感情の分布が著しく異なることを示す。
第2の目的として、論文を閲覧するレビュアーの間での意見の不一致の程度を定量化する。
また, 審査員と議長との意見の不一致の程度について検討し, 審査員間の意見の不一致が議長との意見の不一致と関係があることを見出した。
論文 参考訳(メタデータ) (2020-06-05T07:06:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。