論文の概要: Weighting Experts with Inaccurate Judges
- arxiv url: http://arxiv.org/abs/2211.08494v1
- Date: Tue, 15 Nov 2022 20:47:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 14:45:27.368497
- Title: Weighting Experts with Inaccurate Judges
- Title(参考訳): 不正確な判断で専門家を重くする
- Authors: Ben Abramowitz and Nicholas Mattei
- Abstract要約: 審査員のアンサンブルを使って専門家を重み付けすれば、どの審査員よりも優れた重み付けが得られる。
審査員と専門家のエージェントの最適な分割が、どのように分布に依存するかを示す。
- 参考スコア(独自算出の注目度): 31.564788318133264
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We consider the problem of aggregating binary votes from an ensemble of
experts to reveal an underlying binary ground truth where each expert votes
correctly with some independent probability. We focus on settings where the
number of agents is too small for asymptotic results to apply, many experts may
vote correctly with low probability, and there is no central authority who
knows the experts' competences, or their probabilities of voting correctly. Our
approach is to designate a second type of agent -- a judge -- to weight the
experts to improve overall accuracy. The catch is that the judge has imperfect
competence just like the experts. We demonstrate that having a single minimally
competent judge is often better than having none at all. Using an ensemble of
judges to weight the experts can provide a better weighting than any single
judge; even the optimal weighting under the right conditions. As our results
show, the ability of the judge(s) to distinguish between competent and
incompetent experts is paramount. Lastly, given a fixed set of agents with
unknown competences drawn i.i.d. from a common distribution, we show how the
optimal split of the agents between judges and experts depends on the
distribution.
- Abstract(参考訳): 我々は,各専門家が独立確率で正しく投票する,根底にある二元的事実を明らかにするために,専門家集団から二元投票を集約する問題を考える。
エージェントの数は漸近的な結果が適用できないほど小さく、多くの専門家は低い確率で正しく投票する可能性があり、専門家の能力や正しく投票する確率を知っている中央機関は存在しない。
我々のアプローチは、専門家を重み付けて全体的な正確性を改善するために、第2のタイプのエージェント -- 裁判官 -- を指定することです。
問題は、裁判官が専門家と同じように不完全な能力を持っていることだ。
我々は、最小限の能力を持つ裁判官を1人持つことが、全く持たないよりも良いことを実証する。
専門家の重み付けに裁判官のアンサンブルを使用すると、どの裁判官よりも重み付けが良くなり、適切な条件下での最適重み付けもできる。
その結果,審査員が有能な専門家と無能な専門家を区別する能力が最も重要であることがわかった。
最後に、共通の分布から引き出された未知の能力を持つエージェントの固定されたセットを考えると、審査員と専門家のエージェントの最適な分割が分布に依存するかを示す。
関連論文リスト
- JudgeBench: A Benchmark for Evaluating LLM-based Judges [61.048125269475854]
judgeBenchは、知識、推論、数学、コーディングにまたがる挑戦的な応答ペアに関するLSMベースの判断を評価するためのベンチマークである。
審査員、微調整された審査員、マルチエージェントの審査員、報酬モデルに関する包括的な評価は、審査員ベンチが以前のベンチマークよりもかなり大きな課題を課していることを示している。
論文 参考訳(メタデータ) (2024-10-16T17:58:19Z) - On scalable oversight with weak LLMs judging strong LLMs [67.8628575615614]
我々は、2つのAIが1人の裁判官を納得させようとする議論、すなわち1人のAIが1人の裁判官を説得し、質問をする。
大規模言語モデル(LLM)をAIエージェントと人間の判断のためのスタンドインの両方として使用し、判断モデルがエージェントモデルよりも弱いと判断する。
論文 参考訳(メタデータ) (2024-07-05T16:29:15Z) - JudgeLM: Fine-tuned Large Language Models are Scalable Judges [54.007823006976516]
大規模言語モデル (LLM) を拡張性判断器 (JudgeLM) として微調整し, LLM を効率よく, かつ効率的に評価する手法を提案する。
まず, タスクシード, LLM 生成回答, GPT-4 生成判断を含む包括的, 大規模, 高品質なデータセットを提案する。
次に、微調整LDMにおける重要なバイアスを判断として分析し、位置バイアス、知識バイアス、フォーマットバイアスとみなす。
論文 参考訳(メタデータ) (2023-10-26T17:48:58Z) - Unsupervised Opinion Aggregation -- A Statistical Perspective [5.665646276894791]
複雑な意思決定システムは、根底にある真実が何であるかを理解するために意見に依存する。
本報告では, 基礎的真理を必要とせず, 各専門家の立場から知識を推測する統計的アプローチについて検討する。
論文 参考訳(メタデータ) (2023-08-20T23:14:52Z) - Peer Selection with Noisy Assessments [43.307040330622186]
現在最も正確なピアレビューアルゴリズムであるPeerNominationをWeightedPeerNominationに拡張します。
重み付け方式により、選択の全体的な精度が大幅に向上できることを解析的に示す。
論文 参考訳(メタデータ) (2021-07-21T14:47:11Z) - Can We Automate Scientific Reviewing? [89.50052670307434]
我々は、最先端自然言語処理(NLP)モデルを用いて、科学論文の第一パスピアレビューを生成する可能性について論じる。
我々は、機械学習領域で論文のデータセットを収集し、各レビューでカバーされているさまざまなコンテンツに注釈を付け、レビューを生成するために論文を取り込み、ターゲットの要約モデルを訓練する。
総合的な実験結果から、システム生成レビューは、人間によるレビューよりも、論文の多くの側面に触れる傾向にあることが示された。
論文 参考訳(メタデータ) (2021-01-30T07:16:53Z) - Prior and Prejudice: The Novice Reviewers' Bias against Resubmissions in
Conference Peer Review [35.24369486197371]
現代の機械学習とコンピュータサイエンスのカンファレンスは、ピアレビューの品質に挑戦する応募の数が急増している。
いくつかのカンファレンスは、著者が論文の以前の提出履歴を宣言するよう促したり、要求したりし始めた。
本研究は、レビュー対象の提出が以前、類似の会場で拒否されたという知識から生じる偏見について検討する。
論文 参考訳(メタデータ) (2020-11-30T09:35:37Z) - What Can We Do to Improve Peer Review in NLP? [69.11622020605431]
問題の一部は、レビュアーとエリアチェアが、リンゴとオレンジの比較を強制する未定義のタスクに直面していることだ、と我々は主張する。
先進的な方法はいくつかあるが、NLPコミュニティにおける一貫した実装のためのインセンティブとメカニズムを作成することが重要な課題である。
論文 参考訳(メタデータ) (2020-10-08T09:32:21Z) - Mitigating Manipulation in Peer Review via Randomized Reviewer
Assignments [96.114824979298]
コンファレンスピアレビューにおける3つの重要な課題は、特定の論文に割り当てられる悪意のある試みであり、"Torpedo reviewing"である。
我々は、これらの課題を共通の傘の下にまとめ、レビュアーの割り当てのための(ランダム化された)アルゴリズムを示すフレームワークを提案する。
我々のアルゴリズムは、悪意のあるレビュアーが希望する論文に割り当てられる確率を50%に抑えつつ、完全な最適類似性の90%以上を割り当てることができます。
論文 参考訳(メタデータ) (2020-06-29T23:55:53Z) - Aspect-based Sentiment Analysis of Scientific Reviews [12.472629584751509]
本研究は,受理論文と受理論文ではアスペクトベース感情の分布が著しく異なることを示す。
第2の目的として、論文を閲覧するレビュアーの間での意見の不一致の程度を定量化する。
また, 審査員と議長との意見の不一致の程度について検討し, 審査員間の意見の不一致が議長との意見の不一致と関係があることを見出した。
論文 参考訳(メタデータ) (2020-06-05T07:06:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。