論文の概要: Algebraic Evaluation Theorems
- arxiv url: http://arxiv.org/abs/2412.16238v2
- Date: Wed, 12 Mar 2025 16:31:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 15:37:13.900811
- Title: Algebraic Evaluation Theorems
- Title(参考訳): 代数的評価理論
- Authors: Andrés Corrada-Emmanuel,
- Abstract要約: MVがいつグループ決定に最適かを考える理論は、コンドルセットの1785年の陪審式決定定理にさかのぼる。
American Community Surveyによる人口統計データを用いた実験は、MVに対するAEの実用性を確認した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Majority voting (MV) is the prototypical ``wisdom of the crowd'' algorithm. Theorems considering when MV is optimal for group decisions date back to Condorcet's 1785 jury \emph{decision} theorem. The same error independence assumption underlying the theorem can be used to prove a jury \emph{evaluation} theorem that does purely algebraic evaluation (AE) of juror performance based on a batch of their decisions. Three or more binary jurors are enough to obtain the only two possible statistics of their correctness on a test they took. AE is superior to MV in three ways. First, its empirical assumptions are looser and can handle jurors less than 50\% accurate in making decisions. Second, it has point-like precision in evaluating them given its assumption of error independence. This precision enables a multi-accuracy approach that has higher labeling accuracy than MV and comes with empirical uncertainty bounds. And, third, it is self-alarming about the failure of its error independence assumption. Experiments using demographic data from the American Community Survey confirm the practical utility of AE over MV. Two implications of the theorem for AI safety are discussed - a principled way to terminate infinite monitoring chains (who grades the graders?) and the super-alignment problem (how do we evaluate agents doing tasks we do not understand?).
- Abstract(参考訳): マジョリティ投票(Majority voting、MV)は、「群衆の知恵」というアルゴリズムの原型である。
MVが群決定に最適であるかどうかを考える理論は、1785年のCondorcetの陪審員 \emph{decision} の定理に遡る。
定理の根底にある同じ誤差独立仮定は、陪審員の判断のバッチに基づいて純粋に代数的評価(AE)を行う陪審員 \emph{evaluation} 定理を証明するために用いられる。
3人以上の陪審員は、受験したテストで正当性に関する2つの可能な統計を得るのに十分である。
AEはMVより3つの点で優れている。
第一に、実験的な仮定はより緩く、意思決定において陪審員を50%未満の精度で扱うことができる。
第二に、エラー独立の仮定から評価する点のような精度がある。
この精度は、MVよりも高いラベル付け精度を持ち、経験的不確実性境界を持つマルチ精度アプローチを可能にする。
そして第三に、エラー独立の前提の失敗を自称している。
American Community Surveyによる人口統計データを用いた実験は、MVに対するAEの実用性を確認した。
AI安全性に関する定理の2つの意味が議論されている - 無限の監視チェーンを終了する原則的な方法(グレードラーはどれか?)とスーパーアライメント問題(我々が理解していないタスクを行うエージェントをどのように評価するか?
関連論文リスト
- Optimal bounds for dissatisfaction in perpetual voting [84.02572742131521]
我々は、投票者が何回も不満を抱いていないことを保証し、永遠の投票方法を考える。
我々は、不満のサブ線形成長が可能な有権者行動に関する十分な条件を特定する。
本稿では,専門家の助言による予測から得られた標準手法に基づいて,紛争条件下での不満をサブ線形に保証する投票手法を提案する。
論文 参考訳(メタデータ) (2024-12-20T19:58:55Z) - JudgeBench: A Benchmark for Evaluating LLM-based Judges [61.048125269475854]
judgeBenchは、知識、推論、数学、コーディングにまたがる挑戦的な応答ペアに関するLSMベースの判断を評価するためのベンチマークである。
審査員、微調整された審査員、マルチエージェントの審査員、報酬モデルに関する包括的な評価は、審査員ベンチが以前のベンチマークよりもかなり大きな課題を課していることを示している。
論文 参考訳(メタデータ) (2024-10-16T17:58:19Z) - Efficient Weighting Schemes for Auditing Instant-Runoff Voting Elections [57.67176250198289]
AWAIREは、適応的に重み付けされたテスト統計量であり、本質的には、テストに有効な仮説のセットを「学習」する。
我々は、より広範囲にスキームと設定を検討し、実践のための効率的な選択を特定し、推奨する。
現在のAWAIRE実装の制限は、少数の候補者に限られている。
論文 参考訳(メタデータ) (2024-02-18T10:13:01Z) - Evaluating Agents using Social Choice Theory [20.58298173034909]
我々は、投票理論のレンズを通して、多くの一般的な評価問題を見ることができると論じる。
各タスクは別個の投票者として解釈され、全体的な評価を得るためには、通常のランク付けやエージェントのペア比較しか必要としない。
これらの評価は解釈可能で柔軟性があり、現在クロスタスク評価に直面している多くの問題を回避している。
論文 参考訳(メタデータ) (2023-12-05T20:40:37Z) - Sentiment Analysis through LLM Negotiations [58.67939611291001]
感情分析の標準的なパラダイムは、単一のLCMに依存して、その決定を1ラウンドで行うことである。
本稿では,感情分析のためのマルチLLMネゴシエーションフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-03T12:35:29Z) - New Bounds on the Accuracy of Majority Voting for Multi-Class
Classification [5.95012663623095]
一般的な多クラス分類問題に対するMVFの精度は未だ不明である。
一定の条件下では、MVFの誤差率は、独立投票者の数が増えるにつれて指数関数的にゼロに低下する。
次に、真理発見アルゴリズムの精度について論じる。
論文 参考訳(メタデータ) (2023-09-18T08:16:41Z) - Proportional Aggregation of Preferences for Sequential Decision Making [20.374669324368625]
投票者の選好を適度に決定する問題について検討する。
各ラウンドにおいて、決定ルールは、各投票者が承認した選択肢のどれかを報告する一連の選択肢から決定を選ばなければならない。
比喩的正当化表現に基づく公理を用いて、この目的を定式化する。
論文 参考訳(メタデータ) (2023-06-26T17:10:10Z) - Large Language Models are not Fair Evaluators [60.27164804083752]
候補回答の品質ランキングは,文脈の出現順序を変えることで容易にハックできることがわかった。
この操作により、評価結果をスキューし、一方のモデルを他方よりもかなり優れているようにすることができる。
この問題を緩和するための3つのシンプルかつ効果的な戦略を持つフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T07:41:03Z) - Who Reviews The Reviewers? A Multi-Level Jury Problem [20.193491214464185]
我々は、ある独立した確率(コンピテンス)で、基礎的真理についての推測を正しく表現する独立したレビュアー(専門家)のグループからのアドバイスを用いて二元的基底的真理を決定するという問題を考察する。
実践的な設定では、レビュアーは非能率であり、すなわち半分以下の能力であり、専門家の数は少ないかもしれないため、コンドルチェット・ジャリー・セオリームは実際は関係がない。
より多くの椅子を持つ方がよい場合もあるが、多くの場合、より多くのレビュアーを持つほうがよい。
論文 参考訳(メタデータ) (2022-11-15T20:47:14Z) - Joint aggregation of cardinal and ordinal evaluations with an
application to a student paper competition [0.5076419064097732]
決定論における重要な問題は、個々のランク/レーティングを集団評価に集約することである。
2007 MSOMの学生論文コンペティションにおける新たな集約手法について述べる。
論文 参考訳(メタデータ) (2021-01-12T21:36:50Z) - On the Value of Out-of-Distribution Testing: An Example of Goodhart's
Law [78.10523907729642]
VQA-CPは視覚的質問応答の標準OODベンチマークとなっている。
ほとんどの公表された手法は、OOD分割の構成に関する明示的な知識に依存している。
ランダムに回答を生成できる手法を含む、恥ずかしいほど単純な手法が、いくつかの質問タイプで芸術の状態を超越していることを示す。
論文 参考訳(メタデータ) (2020-05-19T06:45:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。