論文の概要: Multivariate Stochastic Dominance via Optimal Transport and Applications to Models Benchmarking
- arxiv url: http://arxiv.org/abs/2406.06425v1
- Date: Mon, 10 Jun 2024 16:14:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 13:09:08.274392
- Title: Multivariate Stochastic Dominance via Optimal Transport and Applications to Models Benchmarking
- Title(参考訳): 最適輸送による多変量確率支配とモデルベンチマークへの応用
- Authors: Gabriel Rioux, Apoorva Nitsure, Mattia Rigotti, Kristjan Greenewald, Youssef Mroueh,
- Abstract要約: 最適輸送の枠組みの下で, ほぼ優位性をスムーズなコストで評価する統計モデルを導入する。
また、Sinkhornアルゴリズムを用いた仮説テストフレームワークと効率的な実装を提案する。
複数のメトリクスで評価された大規模言語モデルの比較とベンチマークを行う方法について紹介する。
- 参考スコア(独自算出の注目度): 21.23500484100963
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stochastic dominance is an important concept in probability theory, econometrics and social choice theory for robustly modeling agents' preferences between random outcomes. While many works have been dedicated to the univariate case, little has been done in the multivariate scenario, wherein an agent has to decide between different multivariate outcomes. By exploiting a characterization of multivariate first stochastic dominance in terms of couplings, we introduce a statistic that assesses multivariate almost stochastic dominance under the framework of Optimal Transport with a smooth cost. Further, we introduce an entropic regularization of this statistic, and establish a central limit theorem (CLT) and consistency of the bootstrap procedure for the empirical statistic. Armed with this CLT, we propose a hypothesis testing framework as well as an efficient implementation using the Sinkhorn algorithm. We showcase our method in comparing and benchmarking Large Language Models that are evaluated on multiple metrics. Our multivariate stochastic dominance test allows us to capture the dependencies between the metrics in order to make an informed and statistically significant decision on the relative performance of the models.
- Abstract(参考訳): 確率的支配は、確率論、計量学、社会的選択論において重要な概念であり、ランダムな結果の間のエージェントの選好を強固にモデル化する。
多くの作品が単変量ケースに捧げられているが、多変量シナリオではほとんど行われておらず、エージェントは異なる多変量結果を決定する必要がある。
結合性の観点からの多変量第一確率支配の特質を生かして、最適輸送の枠組みの下で、多変量ほぼ確率支配を円滑なコストで評価する統計モデルを導入する。
さらに、この統計量のエントロピー正則化を導入し、実験統計学のための中央極限定理(CLT)とブートストラップ手順の整合性を確立する。
このCLTを組み、Sinkhornアルゴリズムを用いた仮説テストフレームワークと効率的な実装を提案する。
複数のメトリクスで評価された大規模言語モデルの比較とベンチマークを行う方法について紹介する。
多変量確率的優位性テストにより、モデルの相対的性能に関する情報的および統計的に有意な決定を行うために、メトリクス間の依存関係をキャプチャできる。
関連論文リスト
- Unveiling the Statistical Foundations of Chain-of-Thought Prompting Methods [59.779795063072655]
CoT(Chain-of-Thought)の促進とその変種は、多段階推論問題を解決する効果的な方法として人気を集めている。
統計的推定の観点からCoTのプロンプトを解析し,その複雑さを包括的に評価する。
論文 参考訳(メタデータ) (2024-08-25T04:07:18Z) - Risk Aware Benchmarking of Large Language Models [36.95053112313244]
本稿では,統計的に有意な基礎モデルの社会技術的リスクを定量的に評価するための分布的枠組みを提案する。
本試験における2次統計は,計量学や数理ファイナンスでよく用いられる平均リスクモデルと関連していることを示す。
筆者らは,本フレームワークを用いて,命令からのドリフトや有害なコンテンツの出力に関連するリスクに関する,さまざまな大規模言語モデルを比較した。
論文 参考訳(メタデータ) (2023-10-11T02:08:37Z) - Multi-Symmetry Ensembles: Improving Diversity and Generalization via
Opposing Symmetries [14.219011458423363]
我々は,対称性軸に沿った仮説の多重性を捉えることで,多様なアンサンブルを構築するためのフレームワークであるマルチサイメトリ・アンサンブル(MSE)を提案する。
MSEは、ImageNetのような大規模で多様なデータセットでしばしば必要とされる矛盾する仮説の多重性を効果的にキャプチャする。
その固有の多様性の結果、MSEは分類性能、不確実な定量化、一連の伝達タスクの一般化を改善している。
論文 参考訳(メタデータ) (2023-03-04T19:11:54Z) - Bayesian Hierarchical Models for Counterfactual Estimation [12.159830463756341]
本稿では,多種多様なカウンターファクトの集合を推定する確率的パラダイムを提案する。
摂動を事前分布関数によるランダム変数として扱う。
収束特性の優れた勾配ベースサンプリング器は、後方サンプルを効率的に計算する。
論文 参考訳(メタデータ) (2023-01-21T00:21:11Z) - Comparing two samples through stochastic dominance: a graphical approach [2.867517731896504]
実世界のシナリオでは非決定論的測定が一般的である。
推定累積分布関数に従って2つのサンプルを視覚的に比較するフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-15T13:37:03Z) - Machine Learning for Multi-Output Regression: When should a holistic
multivariate approach be preferred over separate univariate ones? [62.997667081978825]
ランダムフォレストのような木に基づくアンサンブルは、統計学の手法の中で近代的な古典である。
これらの手法を広範囲なシミュレーションで比較し,多変量アンサンブル技術を用いた場合の主問題に答える。
論文 参考訳(メタデータ) (2022-01-14T08:44:25Z) - Trustworthy Multimodal Regression with Mixture of Normal-inverse Gamma
Distributions [91.63716984911278]
このアルゴリズムは、異なるモードの適応的統合の原理における不確かさを効率的に推定し、信頼できる回帰結果を生成する。
実世界のデータと実世界のデータの両方に対する実験結果から,多モード回帰タスクにおける本手法の有効性と信頼性が示された。
論文 参考訳(メタデータ) (2021-11-11T14:28:12Z) - A comprehensive comparative evaluation and analysis of Distributional
Semantic Models [61.41800660636555]
我々は、静的DSMによって生成されたり、BERTによって生成された文脈化されたベクトルを平均化して得られるような、型分布ベクトルの包括的評価を行う。
その結果、予測ベースモデルの優越性は現実よりも明らかであり、ユビキタスではないことが明らかとなった。
我々は認知神経科学からRepresentational similarity Analysis(RSA)の方法論を借りて、分布モデルによって生成された意味空間を検査する。
論文 参考訳(メタデータ) (2021-05-20T15:18:06Z) - Robust, Accurate Stochastic Optimization for Variational Inference [68.83746081733464]
また, 共通最適化手法は, 問題が適度に大きい場合, 変分近似の精度が低下することを示した。
これらの結果から,基礎となるアルゴリズムをマルコフ連鎖の生成とみなして,より堅牢で正確な最適化フレームワークを開発する。
論文 参考訳(メタデータ) (2020-09-01T19:12:11Z) - Decision-Making with Auto-Encoding Variational Bayes [71.44735417472043]
変分分布とは異なる後部近似を用いて意思決定を行うことが示唆された。
これらの理論的な結果から,最適モデルに関するいくつかの近似的提案を学習することを提案する。
おもちゃの例に加えて,単細胞RNAシークエンシングのケーススタディも紹介する。
論文 参考訳(メタデータ) (2020-02-17T19:23:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。