Fugu-MT 論文翻訳(概要): A jury evaluation theorem

論文の概要: A jury evaluation theorem

arxiv url: http://arxiv.org/abs/2412.16238v1
Date: Thu, 19 Dec 2024 13:01:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-24 19:42:47.814862
Title: A jury evaluation theorem
Title（参考訳）: 陪審評定定理
Authors: Andrés Corrada-Emmanuel,
Abstract要約: MVがいつグループ決定に最適かを考える理論は、コンドルセットの1785年の陪審決定定理にさかのぼる。アメリカコミュニティサーベイの人口統計データセットにラベルをつける実験は、MVとAEをほぼエラー非依存のアンサンブルで比較するために行われた。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Majority voting (MV) is the prototypical ``wisdom of the crowd'' algorithm. Theorems considering when MV is optimal for group decisions date back to Condorcet's 1785 jury decision theorem. The same assumption of error independence used by Condorcet is used here to prove a jury evaluation theorem that does purely algebraic evaluation (AE). Three or more binary jurors are enough to obtain the only two possible statistics of their correctness on a joint test they took. AE is shown to be superior to MV since it allows one to choose the minority vote depending on how the jurors agree or disagree. In addition, AE is self-alarming about the failure of the error-independence assumption. Experiments labeling demographic datasets from the American Community Survey are carried out to compare MV and AE on nearly error-independent ensembles. In general, using algebraic evaluation leads to better classifier evaluations and group labeling decisions.
Abstract（参考訳）: マジョリティ投票(Majority voting、MV)は、「群衆の知恵」というアルゴリズムの原型である。 MVがいつグループ決定に最適かを考える理論は、コンドルセットの1785年の陪審決定定理にさかのぼる。コンドルセットが用いた誤り独立性の仮定は、純粋に代数的評価(AE)を行う陪審評価定理を証明するために用いられる。 3人以上の陪審員は、彼らが行った共同試験で正当性に関する2つの可能な統計を得るのに十分である。 AEは、陪審員がどのように同意するか、あるいは同意するかによって、少数派票を選ぶことができるため、MVよりも優れていることが示されている。さらに、AEはエラー独立性の仮定の失敗について自己アラームを行っている。アメリカコミュニティサーベイの人口統計データセットにラベルをつける実験は、MVとAEをほぼエラー非依存のアンサンブルで比較するために行われた。一般に、代数的評価を用いると、より優れた分類器評価とグループラベリング決定につながる。

関連論文リスト

Wild Guesses and Mild Guesses in Active Concept Learning [0.0]
大規模言語モデル(LLM)による仮説を提唱したニューロシンボリック・ベイズ学習者のトレードオフについて検討する。我々は,推定情報ゲイン(EIG)を最大化するためにクエリを選択するRational Active Learnerと,人型陽性テスト戦略(PTS)を比較した。以上の結果から,「確認バイアス」は認知的誤りではなく,人間の思考に特徴的な疎明でオープンな仮説空間において,抽出可能な推論を維持するための合理的適応である可能性が示唆された。
論文参考訳（メタデータ） (2026-02-06T16:04:44Z)
TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them [58.04324690859212]
自動評価器(LLM-as-a-judge)としての大規模言語モデル(LLM)は、現在の評価フレームワークにおいて重大な矛盾を明らかにしている。スコア比較不整合とペアワイズ・トランジティビティ不整合という2つの基本的不整合を同定する。我々は2つの重要なイノベーションを通じてこれらの制限に対処する確率的フレームワークであるTrustJudgeを提案する。
論文参考訳（メタデータ） (2025-09-25T13:04:29Z)
A Principled Approach to Randomized Selection under Uncertainty: Applications to Peer Review and Grant Funding [68.43987626137512]
本稿では,各項目の品質の間隔推定に基づくランダム化意思決定の枠組みを提案する。最適化に基づく最適化手法であるMERITを導入する。 MERITが既存のアプローチで保証されていない望ましい公理特性を満たすことを証明している。
論文参考訳（メタデータ） (2025-06-23T19:59:30Z)
Solving Inequality Proofs with Large Language Models [46.71658812761115]
不等式証明は様々な科学・数学分野において不可欠である。これにより、大きな言語モデル(LLM)の需要が高まるフロンティアとなる。我々は、Olympiadレベルの不平等を専門家が計算したデータセットであるIneqMathをリリースした。
論文参考訳（メタデータ） (2025-06-09T16:43:38Z)
Judging LLMs on a Simplex [2.088672652658465]
一般的な実践は、大言語モデル(LLM)自体を裁判官として使用することであるが、このアプローチの理論的性質はまだよく理解されていない。判定と候補の両方を確率的単純度上の点として表現する幾何学的枠組みは,何であるか,何であるかを識別できないのか,有用な知見を提供することができる。
論文参考訳（メタデータ） (2025-05-28T04:50:41Z)
Latent Veracity Inference for Identifying Errors in Stepwise Reasoning [78.29317733206643]
本稿では、精度割当てに対する離散探索アルゴリズムであるVeracity Search(VS)を紹介する。その他の方法では、後続の精度値よりも後続の分布において難解な推論を行う。 VSを一般化し、新しいコンテキストで正確なゼロショットの精度推論を可能にする。
論文参考訳（メタデータ） (2025-05-17T04:16:36Z)
JudgeBench: A Benchmark for Evaluating LLM-based Judges [61.048125269475854]
judgeBenchは、知識、推論、数学、コーディングにまたがる挑戦的な応答ペアに関するLSMベースの判断を評価するためのベンチマークである。審査員、微調整された審査員、マルチエージェントの審査員、報酬モデルに関する包括的な評価は、審査員ベンチが以前のベンチマークよりもかなり大きな課題を課していることを示している。
論文参考訳（メタデータ） (2024-10-16T17:58:19Z)
Criticality and Safety Margins for Reinforcement Learning [53.10194953873209]
我々は,定量化基盤真理とユーザにとっての明確な意義の両面から,批判的枠組みを定めようとしている。エージェントがn連続的ランダム動作に対するポリシーから逸脱した場合の報酬の減少として真臨界を導入する。我々はまた、真の臨界と統計的に単調な関係を持つ低オーバーヘッド計量であるプロキシ臨界の概念も導入する。
論文参考訳（メタデータ） (2024-09-26T21:00:45Z)
A Peek into Token Bias: Large Language Models Are Not Yet Genuine Reasoners [58.15511660018742]
本研究では,大規模言語モデル (LLM) が真の推論能力を持つかどうかを評価するための仮説検証フレームワークを提案する。我々は,相補的な誤りとシロジカルな問題を特徴とする,注意深く制御された合成データセットを開発した。
論文参考訳（メタデータ） (2024-06-16T19:22:53Z)
Efficient Weighting Schemes for Auditing Instant-Runoff Voting Elections [57.67176250198289]
AWAIREは、適応的に重み付けされたテスト統計量であり、本質的には、テストに有効な仮説のセットを「学習」する。我々は、より広範囲にスキームと設定を検討し、実践のための効率的な選択を特定し、推奨する。現在のAWAIRE実装の制限は、少数の候補者に限られている。
論文参考訳（メタデータ） (2024-02-18T10:13:01Z)
The logic of NTQR evaluations of noisy AI agents: Complete postulates and logically consistent error correlations [0.0]
教師なし設定におけるノイズの多いAIエージェントの監視におけるAI安全性の問題について考察する。本論文では,ML文献ですでにいくつかの仮定が特定されているが,そのようには認識されていないことを示す。評価の代数的仮定による論理一貫性の定式化が,AIアルゴリズムを用いた機械の安全性向上に有効であることを示す。
論文参考訳（メタデータ） (2023-12-08T22:06:44Z)
Evaluating Agents using Social Choice Theory [21.26784305333596]
我々は、投票理論のレンズを通して、多くの一般的な評価問題を見ることができると論じる。各タスクは別個の投票者として解釈され、全体的な評価を得るためには、通常のランク付けやエージェントのペア比較しか必要としない。これらの評価は解釈可能で柔軟性があり、現在クロスタスク評価に直面している多くの問題を回避している。
論文参考訳（メタデータ） (2023-12-05T20:40:37Z)
Sentiment Analysis through LLM Negotiations [58.67939611291001]
感情分析の標準的なパラダイムは、単一のLCMに依存して、その決定を1ラウンドで行うことである。本稿では,感情分析のためのマルチLLMネゴシエーションフレームワークを提案する。
論文参考訳（メタデータ） (2023-11-03T12:35:29Z)
New Bounds on the Accuracy of Majority Voting for Multi-Class Classification [5.95012663623095]
一般的な多クラス分類問題に対するMVFの精度は未だ不明である。一定の条件下では、MVFの誤差率は、独立投票者の数が増えるにつれて指数関数的にゼロに低下する。次に、真理発見アルゴリズムの精度について論じる。
論文参考訳（メタデータ） (2023-09-18T08:16:41Z)
Proportional Aggregation of Preferences for Sequential Decision Making [20.374669324368625]
投票者の選好を適度に決定する問題について検討する。各ラウンドにおいて、決定ルールは、各投票者が承認した選択肢のどれかを報告する一連の選択肢から決定を選ばなければならない。比喩的正当化表現に基づく公理を用いて、この目的を定式化する。
論文参考訳（メタデータ） (2023-06-26T17:10:10Z)
Large Language Models are not Fair Evaluators [60.27164804083752]
候補回答の品質ランキングは,文脈の出現順序を変えることで容易にハックできることがわかった。この操作により、評価結果をスキューし、一方のモデルを他方よりもかなり優れているようにすることができる。この問題を緩和するための3つのシンプルかつ効果的な戦略を持つフレームワークを提案する。
論文参考訳（メタデータ） (2023-05-29T07:41:03Z)
TheoremQA: A Theorem-driven Question Answering dataset [100.39878559382694]
GPT-4のこれらの問題を解決する能力は非並列であり、Program-of-Thoughts Promptingの精度は51%である。 TheoremQAは、350の定理をカバーする800の高品質な質問を含むドメインの専門家によってキュレートされる。
論文参考訳（メタデータ） (2023-05-21T17:51:35Z)
Learning to Defer to Multiple Experts: Consistent Surrogate Losses, Confidence Calibration, and Conformal Ensembles [0.966840768820136]
本研究は,L2D(L2D)を複数の専門家に委譲する学習の統計的特性について考察する。我々は、一貫したサロゲート損失、信頼性校正、および専門家の原則的なアンサンブルを導出するオープンな問題に対処する。
論文参考訳（メタデータ） (2022-10-30T21:27:29Z)
Pushing the limits of fairness impossibility: Who's the fairest of them all? [6.396013144017572]
3つの指標を最大限に満たすために,不合理定理の限界を押し上げる枠組みを提案する。モデル性能を最小限に抑えつつ,各定義の公平性を両立できることを示す実験を行った。
論文参考訳（メタデータ） (2022-08-24T22:04:51Z)
Joint aggregation of cardinal and ordinal evaluations with an application to a student paper competition [0.5076419064097732]
決定論における重要な問題は、個々のランク/レーティングを集団評価に集約することである。 2007 MSOMの学生論文コンペティションにおける新たな集約手法について述べる。
論文参考訳（メタデータ） (2021-01-12T21:36:50Z)
Independence Tests Without Ground Truth for Noisy Learners [0.0]
独立二項分類器の正確な解について論じる。その実用性はその唯一の前提によって妨げられている。スカラー回帰器の基底真理不変系の同様の予想は解ける。
論文参考訳（メタデータ） (2020-10-28T13:03:26Z)
Why do you think that? Exploring Faithful Sentence-Level Rationales Without Supervision [60.62434362997016]
文レベルで忠実な論理を出力するモデルを作成するために,異なる訓練枠組みを提案する。本モデルでは,各理性に基づいて各課題を個別に解決し,その課題を最もよく解決した者に高いスコアを割り当てることを学ぶ。
論文参考訳（メタデータ） (2020-10-07T12:54:28Z)
On the Value of Out-of-Distribution Testing: An Example of Goodhart's Law [78.10523907729642]
VQA-CPは視覚的質問応答の標準OODベンチマークとなっている。ほとんどの公表された手法は、OOD分割の構成に関する明示的な知識に依存している。ランダムに回答を生成できる手法を含む、恥ずかしいほど単純な手法が、いくつかの質問タイプで芸術の状態を超越していることを示す。
論文参考訳（メタデータ） (2020-05-19T06:45:50Z)
Invariant Rationalization [84.1861516092232]
典型的な合理化基準、すなわち最大相互情報(MMI)は、合理性のみに基づいて予測性能を最大化する合理性を見つける。ゲーム理論の不変な有理化基準を導入し、各環境において同じ予測器を最適にするために、有理を制約する。理論的にも実証的にも、提案された理性は、素早い相関を除外し、異なるテストシナリオをより一般化し、人間の判断とよく一致させることができることを示す。
論文参考訳（メタデータ） (2020-03-22T00:50:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。