Fugu-MT 論文翻訳(概要): A Unified Statistical Learning Model for Rankings and Scores with Application to Grant Panel Review

論文の概要: A Unified Statistical Learning Model for Rankings and Scores with Application to Grant Panel Review

arxiv url: http://arxiv.org/abs/2201.02539v1
Date: Fri, 7 Jan 2022 16:56:52 GMT
ステータス: 翻訳完了
システム内更新日: 2022-01-10 16:18:59.957722
Title: A Unified Statistical Learning Model for Rankings and Scores with Application to Grant Panel Review
Title（参考訳）: ランキングとスコアの統一統計的学習モデルとグラントパネルレビューへの応用
Authors: Michael Pearce and Elena A. Erosheva
Abstract要約: ランク付けとスコアは、審査員がオブジェクトのコレクションにおける好みや品質の知覚を表現するために使用する2つの一般的なデータタイプである。各タイプのデータを個別に研究するためのモデルが多数存在するが、両タイプのデータを同時に取得する統一統計モデルは存在しない。このギャップを埋めるために,Mallows-Binomialモデルを提案し,BinomialスコアモデルとMallowsの$phi$ランキングモデルを組み合わせた。
参考スコア（独自算出の注目度）: 1.240096657086732
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Rankings and scores are two common data types used by judges to express preferences and/or perceptions of quality in a collection of objects. Numerous models exist to study data of each type separately, but no unified statistical model captures both data types simultaneously without first performing data conversion. We propose the Mallows-Binomial model to close this gap, which combines a Mallows' $\phi$ ranking model with Binomial score models through shared parameters that quantify object quality, a consensus ranking, and the level of consensus between judges. We propose an efficient tree-search algorithm to calculate the exact MLE of model parameters, study statistical properties of the model both analytically and through simulation, and apply our model to real data from an instance of grant panel review that collected both scores and partial rankings. Furthermore, we demonstrate how model outputs can be used to rank objects with confidence. The proposed model is shown to sensibly combine information from both scores and rankings to quantify object quality and measure consensus with appropriate levels of statistical uncertainty.
Abstract（参考訳）: ランク付けとスコアは、審査員がオブジェクトのコレクションにおける好みや品質の知覚を表現するために使用する2つの一般的なデータタイプである。各型のデータを個別に研究するためのモデルが多数存在するが、データ変換を行うことなく両方のデータ型を同時にキャプチャする統一統計モデルは存在しない。このギャップを埋めるために,Mallows-Binomialモデルを提案する。これは,オブジェクトの品質,コンセンサスランキング,および審査員間のコンセンサスレベルを定量化する共有パラメータを通じて,Mallowsの$\phi$ランキングモデルとBiomialスコアモデルを組み合わせる。本研究では,モデルパラメータの正確なMLEを計算し,解析とシミュレーションの両方を通してモデルの統計特性を解析し,スコアと部分ランクの両方を収集した付与パネルレビューの事例から実データに適用する効率的な木探索アルゴリズムを提案する。さらに、モデル出力を用いてオブジェクトを信頼性でランク付けする方法を実証する。提案モデルは,スコアとランキングの情報をセンシティブに組み合わせ,対象の質を定量化し,統計的不確実性の適切なレベルとコンセンサスを測定する。

関連論文リスト

A Statistical Framework for Ranking LLM-Based Chatbots [57.59268154690763]
本稿では、ペア比較分析における特定の課題に対処するために、重要な進歩を取り入れた統計フレームワークを提案する。まず,人力比較のグルーピング処理能力を高める要因付きタイモデルを提案する。第2に、フレームワークを拡張して、競合間の共分散層をモデル化することで、パフォーマンス関係に関するより深い洞察を可能にします。第三に、パラメータ非特異性に起因する最適化の課題を、新しい制約を導入することで解決する。
論文参考訳（メタデータ） (2024-12-24T12:54:19Z)
On Evaluation of Vision Datasets and Models using Human Competency Frameworks [20.802372291783488]
アイテム応答理論(IRT)は、モデルと各データセット項目のアンサンブルに対して解釈可能な潜在パラメータを推論するフレームワークである。モデルキャリブレーションを評価し、情報的データサブセットを選択し、コンピュータビジョンにおけるモデルとデータセットを解析・比較するための潜在パラメータの有用性を実証する。
論文参考訳（メタデータ） (2024-09-06T06:20:11Z)
Area under the ROC Curve has the Most Consistent Evaluation for Binary Classification [3.1850615666574806]
本研究は, 有病率の異なるデータ間でのモデル評価において, 測定値の整合性について検討する。有病率の影響を受けない評価指標は、個々のモデルの一貫性のある評価と、モデルの集合の一貫性のあるランキングを提供する。
論文参考訳（メタデータ） (2024-08-19T17:52:38Z)
Anchor Points: Benchmarking Models with Much Fewer Examples [88.02417913161356]
6つの人気のある言語分類ベンチマークでは、多数の点の正しいクラスに対するモデル信頼度はモデル間で強く相関している。 Anchor Point Selectionは,データセット全体にわたるモデル動作をキャプチャする,データセットの小さなサブセットを選択する手法である。平均絶対誤差が低いデータセットの他のすべての点について、クラスごとの予測モデルを推定するために、いくつかのアンカーポイントを使用することができる。
論文参考訳（メタデータ） (2023-09-14T17:45:51Z)
A Unified Interactive Model Evaluation for Classification, Object Detection, and Instance Segmentation in Computer Vision [31.441561710096877]
コンピュータビジョンにおける分類,オブジェクト検出,インスタンスセグメンテーションのための統一モデル評価を支援するために,オープンソースビジュアル分析ツールUni-Evaluatorを開発した。我々の手法の背景にある重要な考え方は、異なるタスクにおける離散的および連続的な予測を統一された確率分布として定式化することである。これらの分布に基づいて,1)モデルの性能を概観する行列ベースの可視化,2)モデルの性能が不十分な問題のあるデータサブセットを識別するテーブル視覚化,3)興味のあるサンプルを表示するグリッド視覚化を開発する。
論文参考訳（メタデータ） (2023-08-09T18:11:28Z)
Universal Semi-supervised Model Adaptation via Collaborative Consistency Training [92.52892510093037]
我々は、Universal Semi-supervised Model Adaptation (USMA)と呼ばれる現実的で挑戦的なドメイン適応問題を導入する。本稿では,2つのモデル間の予測整合性を規則化する協調的整合性トレーニングフレームワークを提案する。実験により,いくつかのベンチマークデータセットにおける本手法の有効性が示された。
論文参考訳（メタデータ） (2023-07-07T08:19:40Z)
GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models [60.48306899271866]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。 GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文参考訳（メタデータ） (2023-04-19T14:58:27Z)
Statistical Model Criticism of Variational Auto-Encoders [15.005894753472894]
変分自動エンコーダ(VAE)の統計的評価のための枠組みを提案する。我々は、手書き文字のイメージと英文のコーパスをモデル化する文脈において、このフレームワークの2つの例をテストする。
論文参考訳（メタデータ） (2022-04-06T18:19:29Z)
How Faithful is your Synthetic Data? Sample-level Metrics for Evaluating and Auditing Generative Models [95.8037674226622]
ドメインに依存しない方法で生成モデルの忠実度,多様性,一般化性能を特徴付ける3次元評価指標を提案する。当社のメトリクスは、精度リコール分析により統計的発散測定を統合し、モデル忠実度と多様性のサンプルおよび分布レベルの診断を可能にします。
論文参考訳（メタデータ） (2021-02-17T18:25:30Z)
Characterizing Fairness Over the Set of Good Models Under Selective Labels [69.64662540443162]
同様の性能を実現するモデルセットに対して,予測公正性を特徴付けるフレームワークを開発する。到達可能なグループレベルの予測格差の範囲を計算するためのトラクタブルアルゴリズムを提供します。選択ラベル付きデータの実証的な課題に対処するために、我々のフレームワークを拡張します。
論文参考訳（メタデータ） (2021-01-02T02:11:37Z)
Robust Finite Mixture Regression for Heterogeneous Targets [70.19798470463378]
本稿では,サンプルクラスタの探索と,複数の不完全な混合型ターゲットを同時にモデル化するFMRモデルを提案する。我々は、高次元の学習フレームワークの下で、無症状のオラクルのパフォーマンス境界をモデルに提供します。その結果,我々のモデルは最先端の性能を達成できることがわかった。
論文参考訳（メタデータ） (2020-10-12T03:27:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。