論文の概要: A jury evaluation theorem
- arxiv url: http://arxiv.org/abs/2412.16238v1
- Date: Thu, 19 Dec 2024 13:01:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:54:08.941288
- Title: A jury evaluation theorem
- Title(参考訳): 陪審評定定理
- Authors: Andrés Corrada-Emmanuel,
- Abstract要約: MVがいつグループ決定に最適かを考える理論は、コンドルセットの1785年の陪審決定定理にさかのぼる。
アメリカコミュニティサーベイの人口統計データセットにラベルをつける実験は、MVとAEをほぼエラー非依存のアンサンブルで比較するために行われた。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Majority voting (MV) is the prototypical ``wisdom of the crowd'' algorithm. Theorems considering when MV is optimal for group decisions date back to Condorcet's 1785 jury decision theorem. The same assumption of error independence used by Condorcet is used here to prove a jury evaluation theorem that does purely algebraic evaluation (AE). Three or more binary jurors are enough to obtain the only two possible statistics of their correctness on a joint test they took. AE is shown to be superior to MV since it allows one to choose the minority vote depending on how the jurors agree or disagree. In addition, AE is self-alarming about the failure of the error-independence assumption. Experiments labeling demographic datasets from the American Community Survey are carried out to compare MV and AE on nearly error-independent ensembles. In general, using algebraic evaluation leads to better classifier evaluations and group labeling decisions.
- Abstract(参考訳): マジョリティ投票(Majority voting、MV)は、「群衆の知恵」というアルゴリズムの原型である。
MVがいつグループ決定に最適かを考える理論は、コンドルセットの1785年の陪審決定定理にさかのぼる。
コンドルセットが用いた誤り独立性の仮定は、純粋に代数的評価(AE)を行う陪審評価定理を証明するために用いられる。
3人以上の陪審員は、彼らが行った共同試験で正当性に関する2つの可能な統計を得るのに十分である。
AEは、陪審員がどのように同意するか、あるいは同意するかによって、少数派票を選ぶことができるため、MVよりも優れていることが示されている。
さらに、AEはエラー独立性の仮定の失敗について自己アラームを行っている。
アメリカコミュニティサーベイの人口統計データセットにラベルをつける実験は、MVとAEをほぼエラー非依存のアンサンブルで比較するために行われた。
一般に、代数的評価を用いると、より優れた分類器評価とグループラベリング決定につながる。
関連論文リスト
- Diverging Preferences: When do Annotators Disagree and do Models Know? [92.24651142187989]
我々は,4つのハイレベルクラスにまたがる10のカテゴリにまたがる相違点の分類法を開発した。
意見の相違の大部分は、標準的な報酬モデリングアプローチに反対している。
本研究は,選好の変化を識別し,評価とトレーニングへの影響を緩和する手法を開発する。
論文 参考訳(メタデータ) (2024-10-18T17:32:22Z) - JudgeBench: A Benchmark for Evaluating LLM-based Judges [61.048125269475854]
judgeBenchは、知識、推論、数学、コーディングにまたがる挑戦的な応答ペアに関するLSMベースの判断を評価するためのベンチマークである。
審査員、微調整された審査員、マルチエージェントの審査員、報酬モデルに関する包括的な評価は、審査員ベンチが以前のベンチマークよりもかなり大きな課題を課していることを示している。
論文 参考訳(メタデータ) (2024-10-16T17:58:19Z) - Efficient Weighting Schemes for Auditing Instant-Runoff Voting Elections [57.67176250198289]
AWAIREは、適応的に重み付けされたテスト統計量であり、本質的には、テストに有効な仮説のセットを「学習」する。
我々は、より広範囲にスキームと設定を検討し、実践のための効率的な選択を特定し、推奨する。
現在のAWAIRE実装の制限は、少数の候補者に限られている。
論文 参考訳(メタデータ) (2024-02-18T10:13:01Z) - Evaluating Agents using Social Choice Theory [21.26784305333596]
我々は、投票理論のレンズを通して、多くの一般的な評価問題を見ることができると論じる。
各タスクは別個の投票者として解釈され、全体的な評価を得るためには、通常のランク付けやエージェントのペア比較しか必要としない。
これらの評価は解釈可能で柔軟性があり、現在クロスタスク評価に直面している多くの問題を回避している。
論文 参考訳(メタデータ) (2023-12-05T20:40:37Z) - Sentiment Analysis through LLM Negotiations [58.67939611291001]
感情分析の標準的なパラダイムは、単一のLCMに依存して、その決定を1ラウンドで行うことである。
本稿では,感情分析のためのマルチLLMネゴシエーションフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-03T12:35:29Z) - New Bounds on the Accuracy of Majority Voting for Multi-Class
Classification [5.95012663623095]
一般的な多クラス分類問題に対するMVFの精度は未だ不明である。
一定の条件下では、MVFの誤差率は、独立投票者の数が増えるにつれて指数関数的にゼロに低下する。
次に、真理発見アルゴリズムの精度について論じる。
論文 参考訳(メタデータ) (2023-09-18T08:16:41Z) - Proportional Aggregation of Preferences for Sequential Decision Making [20.374669324368625]
投票者の選好を適度に決定する問題について検討する。
各ラウンドにおいて、決定ルールは、各投票者が承認した選択肢のどれかを報告する一連の選択肢から決定を選ばなければならない。
比喩的正当化表現に基づく公理を用いて、この目的を定式化する。
論文 参考訳(メタデータ) (2023-06-26T17:10:10Z) - Large Language Models are not Fair Evaluators [60.27164804083752]
候補回答の品質ランキングは,文脈の出現順序を変えることで容易にハックできることがわかった。
この操作により、評価結果をスキューし、一方のモデルを他方よりもかなり優れているようにすることができる。
この問題を緩和するための3つのシンプルかつ効果的な戦略を持つフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T07:41:03Z) - Who Reviews The Reviewers? A Multi-Level Jury Problem [20.193491214464185]
我々は、ある独立した確率(コンピテンス)で、基礎的真理についての推測を正しく表現する独立したレビュアー(専門家)のグループからのアドバイスを用いて二元的基底的真理を決定するという問題を考察する。
実践的な設定では、レビュアーは非能率であり、すなわち半分以下の能力であり、専門家の数は少ないかもしれないため、コンドルチェット・ジャリー・セオリームは実際は関係がない。
より多くの椅子を持つ方がよい場合もあるが、多くの場合、より多くのレビュアーを持つほうがよい。
論文 参考訳(メタデータ) (2022-11-15T20:47:14Z) - Joint aggregation of cardinal and ordinal evaluations with an
application to a student paper competition [0.5076419064097732]
決定論における重要な問題は、個々のランク/レーティングを集団評価に集約することである。
2007 MSOMの学生論文コンペティションにおける新たな集約手法について述べる。
論文 参考訳(メタデータ) (2021-01-12T21:36:50Z) - On the Value of Out-of-Distribution Testing: An Example of Goodhart's
Law [78.10523907729642]
VQA-CPは視覚的質問応答の標準OODベンチマークとなっている。
ほとんどの公表された手法は、OOD分割の構成に関する明示的な知識に依存している。
ランダムに回答を生成できる手法を含む、恥ずかしいほど単純な手法が、いくつかの質問タイプで芸術の状態を超越していることを示す。
論文 参考訳(メタデータ) (2020-05-19T06:45:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。