論文の概要: Algebraic Evaluation Theorems
- arxiv url: http://arxiv.org/abs/2412.16238v2
- Date: Wed, 12 Mar 2025 16:31:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 19:00:48.70969
- Title: Algebraic Evaluation Theorems
- Title(参考訳): 代数的評価理論
- Authors: Andrés Corrada-Emmanuel,
- Abstract要約: MVがいつグループ決定に最適かを考える理論は、コンドルセットの1785年の陪審式決定定理にさかのぼる。
American Community Surveyによる人口統計データを用いた実験は、MVに対するAEの実用性を確認した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Majority voting (MV) is the prototypical ``wisdom of the crowd'' algorithm. Theorems considering when MV is optimal for group decisions date back to Condorcet's 1785 jury \emph{decision} theorem. The same error independence assumption underlying the theorem can be used to prove a jury \emph{evaluation} theorem that does purely algebraic evaluation (AE) of juror performance based on a batch of their decisions. Three or more binary jurors are enough to obtain the only two possible statistics of their correctness on a test they took. AE is superior to MV in three ways. First, its empirical assumptions are looser and can handle jurors less than 50\% accurate in making decisions. Second, it has point-like precision in evaluating them given its assumption of error independence. This precision enables a multi-accuracy approach that has higher labeling accuracy than MV and comes with empirical uncertainty bounds. And, third, it is self-alarming about the failure of its error independence assumption. Experiments using demographic data from the American Community Survey confirm the practical utility of AE over MV. Two implications of the theorem for AI safety are discussed - a principled way to terminate infinite monitoring chains (who grades the graders?) and the super-alignment problem (how do we evaluate agents doing tasks we do not understand?).
- Abstract(参考訳): マジョリティ投票(Majority voting、MV)は、「群衆の知恵」というアルゴリズムの原型である。
MVが群決定に最適であるかどうかを考える理論は、1785年のCondorcetの陪審員 \emph{decision} の定理に遡る。
定理の根底にある同じ誤差独立仮定は、陪審員の判断のバッチに基づいて純粋に代数的評価(AE)を行う陪審員 \emph{evaluation} 定理を証明するために用いられる。
3人以上の陪審員は、受験したテストで正当性に関する2つの可能な統計を得るのに十分である。
AEはMVより3つの点で優れている。
第一に、実験的な仮定はより緩く、意思決定において陪審員を50%未満の精度で扱うことができる。
第二に、エラー独立の仮定から評価する点のような精度がある。
この精度は、MVよりも高いラベル付け精度を持ち、経験的不確実性境界を持つマルチ精度アプローチを可能にする。
そして第三に、エラー独立の前提の失敗を自称している。
American Community Surveyによる人口統計データを用いた実験は、MVに対するAEの実用性を確認した。
AI安全性に関する定理の2つの意味が議論されている - 無限の監視チェーンを終了する原則的な方法(グレードラーはどれか?)とスーパーアライメント問題(我々が理解していないタスクを行うエージェントをどのように評価するか?
関連論文リスト
- JudgeBench: A Benchmark for Evaluating LLM-based Judges [61.048125269475854]
judgeBenchは、知識、推論、数学、コーディングにまたがる挑戦的な応答ペアに関するLSMベースの判断を評価するためのベンチマークである。
審査員、微調整された審査員、マルチエージェントの審査員、報酬モデルに関する包括的な評価は、審査員ベンチが以前のベンチマークよりもかなり大きな課題を課していることを示している。
論文 参考訳(メタデータ) (2024-10-16T17:58:19Z) - Criticality and Safety Margins for Reinforcement Learning [53.10194953873209]
我々は,定量化基盤真理とユーザにとっての明確な意義の両面から,批判的枠組みを定めようとしている。
エージェントがn連続的ランダム動作に対するポリシーから逸脱した場合の報酬の減少として真臨界を導入する。
我々はまた、真の臨界と統計的に単調な関係を持つ低オーバーヘッド計量であるプロキシ臨界の概念も導入する。
論文 参考訳(メタデータ) (2024-09-26T21:00:45Z) - A Peek into Token Bias: Large Language Models Are Not Yet Genuine Reasoners [58.15511660018742]
本研究では,大規模言語モデル (LLM) が真の推論能力を持つかどうかを評価するための仮説検証フレームワークを提案する。
我々は,相補的な誤りとシロジカルな問題を特徴とする,注意深く制御された合成データセットを開発した。
論文 参考訳(メタデータ) (2024-06-16T19:22:53Z) - Efficient Weighting Schemes for Auditing Instant-Runoff Voting Elections [57.67176250198289]
AWAIREは、適応的に重み付けされたテスト統計量であり、本質的には、テストに有効な仮説のセットを「学習」する。
我々は、より広範囲にスキームと設定を検討し、実践のための効率的な選択を特定し、推奨する。
現在のAWAIRE実装の制限は、少数の候補者に限られている。
論文 参考訳(メタデータ) (2024-02-18T10:13:01Z) - The logic of NTQR evaluations of noisy AI agents: Complete postulates
and logically consistent error correlations [0.0]
教師なし設定におけるノイズの多いAIエージェントの監視におけるAI安全性の問題について考察する。
本論文では,ML文献ですでにいくつかの仮定が特定されているが,そのようには認識されていないことを示す。
評価の代数的仮定による論理一貫性の定式化が,AIアルゴリズムを用いた機械の安全性向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-12-08T22:06:44Z) - Evaluating Agents using Social Choice Theory [21.26784305333596]
我々は、投票理論のレンズを通して、多くの一般的な評価問題を見ることができると論じる。
各タスクは別個の投票者として解釈され、全体的な評価を得るためには、通常のランク付けやエージェントのペア比較しか必要としない。
これらの評価は解釈可能で柔軟性があり、現在クロスタスク評価に直面している多くの問題を回避している。
論文 参考訳(メタデータ) (2023-12-05T20:40:37Z) - Sentiment Analysis through LLM Negotiations [58.67939611291001]
感情分析の標準的なパラダイムは、単一のLCMに依存して、その決定を1ラウンドで行うことである。
本稿では,感情分析のためのマルチLLMネゴシエーションフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-03T12:35:29Z) - New Bounds on the Accuracy of Majority Voting for Multi-Class
Classification [5.95012663623095]
一般的な多クラス分類問題に対するMVFの精度は未だ不明である。
一定の条件下では、MVFの誤差率は、独立投票者の数が増えるにつれて指数関数的にゼロに低下する。
次に、真理発見アルゴリズムの精度について論じる。
論文 参考訳(メタデータ) (2023-09-18T08:16:41Z) - Proportional Aggregation of Preferences for Sequential Decision Making [20.374669324368625]
投票者の選好を適度に決定する問題について検討する。
各ラウンドにおいて、決定ルールは、各投票者が承認した選択肢のどれかを報告する一連の選択肢から決定を選ばなければならない。
比喩的正当化表現に基づく公理を用いて、この目的を定式化する。
論文 参考訳(メタデータ) (2023-06-26T17:10:10Z) - Large Language Models are not Fair Evaluators [60.27164804083752]
候補回答の品質ランキングは,文脈の出現順序を変えることで容易にハックできることがわかった。
この操作により、評価結果をスキューし、一方のモデルを他方よりもかなり優れているようにすることができる。
この問題を緩和するための3つのシンプルかつ効果的な戦略を持つフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T07:41:03Z) - TheoremQA: A Theorem-driven Question Answering dataset [100.39878559382694]
GPT-4のこれらの問題を解決する能力は非並列であり、Program-of-Thoughts Promptingの精度は51%である。
TheoremQAは、350の定理をカバーする800の高品質な質問を含むドメインの専門家によってキュレートされる。
論文 参考訳(メタデータ) (2023-05-21T17:51:35Z) - Learning to Defer to Multiple Experts: Consistent Surrogate Losses,
Confidence Calibration, and Conformal Ensembles [0.966840768820136]
本研究は,L2D(L2D)を複数の専門家に委譲する学習の統計的特性について考察する。
我々は、一貫したサロゲート損失、信頼性校正、および専門家の原則的なアンサンブルを導出するオープンな問題に対処する。
論文 参考訳(メタデータ) (2022-10-30T21:27:29Z) - Pushing the limits of fairness impossibility: Who's the fairest of them
all? [6.396013144017572]
3つの指標を最大限に満たすために,不合理定理の限界を押し上げる枠組みを提案する。
モデル性能を最小限に抑えつつ,各定義の公平性を両立できることを示す実験を行った。
論文 参考訳(メタデータ) (2022-08-24T22:04:51Z) - Joint aggregation of cardinal and ordinal evaluations with an
application to a student paper competition [0.5076419064097732]
決定論における重要な問題は、個々のランク/レーティングを集団評価に集約することである。
2007 MSOMの学生論文コンペティションにおける新たな集約手法について述べる。
論文 参考訳(メタデータ) (2021-01-12T21:36:50Z) - Independence Tests Without Ground Truth for Noisy Learners [0.0]
独立二項分類器の正確な解について論じる。
その実用性はその唯一の前提によって妨げられている。
スカラー回帰器の基底真理不変系の同様の予想は解ける。
論文 参考訳(メタデータ) (2020-10-28T13:03:26Z) - Why do you think that? Exploring Faithful Sentence-Level Rationales
Without Supervision [60.62434362997016]
文レベルで忠実な論理を出力するモデルを作成するために,異なる訓練枠組みを提案する。
本モデルでは,各理性に基づいて各課題を個別に解決し,その課題を最もよく解決した者に高いスコアを割り当てることを学ぶ。
論文 参考訳(メタデータ) (2020-10-07T12:54:28Z) - On the Value of Out-of-Distribution Testing: An Example of Goodhart's
Law [78.10523907729642]
VQA-CPは視覚的質問応答の標準OODベンチマークとなっている。
ほとんどの公表された手法は、OOD分割の構成に関する明示的な知識に依存している。
ランダムに回答を生成できる手法を含む、恥ずかしいほど単純な手法が、いくつかの質問タイプで芸術の状態を超越していることを示す。
論文 参考訳(メタデータ) (2020-05-19T06:45:50Z) - Invariant Rationalization [84.1861516092232]
典型的な合理化基準、すなわち最大相互情報(MMI)は、合理性のみに基づいて予測性能を最大化する合理性を見つける。
ゲーム理論の不変な有理化基準を導入し、各環境において同じ予測器を最適にするために、有理を制約する。
理論的にも実証的にも、提案された理性は、素早い相関を除外し、異なるテストシナリオをより一般化し、人間の判断とよく一致させることができることを示す。
論文 参考訳(メタデータ) (2020-03-22T00:50:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。