Fugu-MT 論文翻訳(概要): Multivariate Stochastic Dominance via Optimal Transport and Applications to Models Benchmarking

論文の概要: Multivariate Stochastic Dominance via Optimal Transport and Applications to Models Benchmarking

arxiv url: http://arxiv.org/abs/2406.06425v1
Date: Mon, 10 Jun 2024 16:14:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-11 13:09:08.274392
Title: Multivariate Stochastic Dominance via Optimal Transport and Applications to Models Benchmarking
Title（参考訳）: 最適輸送による多変量確率支配とモデルベンチマークへの応用
Authors: Gabriel Rioux, Apoorva Nitsure, Mattia Rigotti, Kristjan Greenewald, Youssef Mroueh,
Abstract要約: 最適輸送の枠組みの下で, ほぼ優位性をスムーズなコストで評価する統計モデルを導入する。また、Sinkhornアルゴリズムを用いた仮説テストフレームワークと効率的な実装を提案する。複数のメトリクスで評価された大規模言語モデルの比較とベンチマークを行う方法について紹介する。
参考スコア（独自算出の注目度）: 21.23500484100963
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Stochastic dominance is an important concept in probability theory, econometrics and social choice theory for robustly modeling agents' preferences between random outcomes. While many works have been dedicated to the univariate case, little has been done in the multivariate scenario, wherein an agent has to decide between different multivariate outcomes. By exploiting a characterization of multivariate first stochastic dominance in terms of couplings, we introduce a statistic that assesses multivariate almost stochastic dominance under the framework of Optimal Transport with a smooth cost. Further, we introduce an entropic regularization of this statistic, and establish a central limit theorem (CLT) and consistency of the bootstrap procedure for the empirical statistic. Armed with this CLT, we propose a hypothesis testing framework as well as an efficient implementation using the Sinkhorn algorithm. We showcase our method in comparing and benchmarking Large Language Models that are evaluated on multiple metrics. Our multivariate stochastic dominance test allows us to capture the dependencies between the metrics in order to make an informed and statistically significant decision on the relative performance of the models.
Abstract（参考訳）: 確率的支配は、確率論、計量学、社会的選択論において重要な概念であり、ランダムな結果の間のエージェントの選好を強固にモデル化する。多くの作品が単変量ケースに捧げられているが、多変量シナリオではほとんど行われておらず、エージェントは異なる多変量結果を決定する必要がある。結合性の観点からの多変量第一確率支配の特質を生かして、最適輸送の枠組みの下で、多変量ほぼ確率支配を円滑なコストで評価する統計モデルを導入する。さらに、この統計量のエントロピー正則化を導入し、実験統計学のための中央極限定理(CLT)とブートストラップ手順の整合性を確立する。このCLTを組み、Sinkhornアルゴリズムを用いた仮説テストフレームワークと効率的な実装を提案する。複数のメトリクスで評価された大規模言語モデルの比較とベンチマークを行う方法について紹介する。多変量確率的優位性テストにより、モデルの相対的性能に関する情報的および統計的に有意な決定を行うために、メトリクス間の依存関係をキャプチャできる。

関連論文リスト

D-Models and E-Models: Diversity-Stability Trade-offs in the Sampling Behavior of Large Language Models [91.21455683212224]
大規模言語モデル(LLMs)では、次の情報の関連性確率は、次の製品の関連性確率に関連付けられる。しかし、きめ細かいサンプリング確率がタスク要求に忠実に適合するかどうかは未解決の問題だ。 P_tokenが大きなステップ・ツー・ステップの変動を示し、P_taskとの整合性が低いDモデルと、P_tokenがより安定してP_taskに整合するEモデルである。
論文参考訳（メタデータ） (2026-01-25T14:59:09Z)
Center-Outward q-Dominance: A Sample-Computable Proxy for Strong Stochastic Dominance in Multi-Objective Optimisation [6.360379185272751]
我々は、中心-外側q-支配関係を導入し、それが強い一階支配(FSD)を意味することを証明した。また,q-dominanceに基づく実証試験手法を開発し,タイプIエラーを制御するために,明示的なサンプルサイズしきい値である$n*()$を導出する。
論文参考訳（メタデータ） (2025-11-16T10:40:17Z)
Model-free Methods for Event History Analysis and Efficient Adjustment (PhD Thesis) [55.2480439325792]
この論文は、モデルフリーの観点から統一された統計学への独立した貢献のシリーズである。第1章では、機械学習から予測技術を活用する柔軟なメソッドを定式化するために、モデルフリーの視点をどのように利用できるか、詳しく説明している。第2章では、あるプロセスの進化が他のプロセスに直接影響されるかどうかを記述した地域独立の概念を研究している。
論文参考訳（メタデータ） (2025-02-11T19:24:09Z)
Pairwise Comparisons without Stochastic Transitivity: Model, Theory and Applications [2.4938353164011446]
遷移性の仮定を伴わないペアワイズ比較データに対する統計モデル群を提案する。提案した推定器は、データの空間レベルに効果的に適応するミニマックスレート最適性を達成する。
論文参考訳（メタデータ） (2025-01-13T16:05:41Z)
Unveiling the Statistical Foundations of Chain-of-Thought Prompting Methods [59.779795063072655]
CoT(Chain-of-Thought)の促進とその変種は、多段階推論問題を解決する効果的な方法として人気を集めている。統計的推定の観点からCoTのプロンプトを解析し,その複雑さを包括的に評価する。
論文参考訳（メタデータ） (2024-08-25T04:07:18Z)
Risk Aware Benchmarking of Large Language Models [36.95053112313244]
本稿では,統計的に有意な基礎モデルの社会技術的リスクを定量的に評価するための分布的枠組みを提案する。本試験における2次統計は,計量学や数理ファイナンスでよく用いられる平均リスクモデルと関連していることを示す。筆者らは,本フレームワークを用いて,命令からのドリフトや有害なコンテンツの出力に関連するリスクに関する,さまざまな大規模言語モデルを比較した。
論文参考訳（メタデータ） (2023-10-11T02:08:37Z)
Multi-Symmetry Ensembles: Improving Diversity and Generalization via Opposing Symmetries [14.219011458423363]
我々は,対称性軸に沿った仮説の多重性を捉えることで,多様なアンサンブルを構築するためのフレームワークであるマルチサイメトリ・アンサンブル(MSE)を提案する。 MSEは、ImageNetのような大規模で多様なデータセットでしばしば必要とされる矛盾する仮説の多重性を効果的にキャプチャする。その固有の多様性の結果、MSEは分類性能、不確実な定量化、一連の伝達タスクの一般化を改善している。
論文参考訳（メタデータ） (2023-03-04T19:11:54Z)
Bayesian Hierarchical Models for Counterfactual Estimation [12.159830463756341]
本稿では,多種多様なカウンターファクトの集合を推定する確率的パラダイムを提案する。摂動を事前分布関数によるランダム変数として扱う。収束特性の優れた勾配ベースサンプリング器は、後方サンプルを効率的に計算する。
論文参考訳（メタデータ） (2023-01-21T00:21:11Z)
Collaborative Uncertainty Benefits Multi-Agent Multi-Modal Trajectory Forecasting [61.02295959343446]
この研究はまず、相互作用モジュールから生じる不確実性をモデル化する新しい概念であるコラボレーティブ不確実性(CU)を提案する。我々は、回帰と不確実性推定の両方を行うために、元の置換同変不確かさ推定器を備えた一般的なCU対応回帰フレームワークを構築した。提案するフレームワークを,プラグインモジュールとして現在のSOTAマルチエージェント軌道予測システムに適用する。
論文参考訳（メタデータ） (2022-07-11T21:17:41Z)
Comparing two samples through stochastic dominance: a graphical approach [2.867517731896504]
実世界のシナリオでは非決定論的測定が一般的である。推定累積分布関数に従って2つのサンプルを視覚的に比較するフレームワークを提案する。
論文参考訳（メタデータ） (2022-03-15T13:37:03Z)
Machine Learning for Multi-Output Regression: When should a holistic multivariate approach be preferred over separate univariate ones? [62.997667081978825]
ランダムフォレストのような木に基づくアンサンブルは、統計学の手法の中で近代的な古典である。これらの手法を広範囲なシミュレーションで比較し,多変量アンサンブル技術を用いた場合の主問題に答える。
論文参考訳（メタデータ） (2022-01-14T08:44:25Z)
Trustworthy Multimodal Regression with Mixture of Normal-inverse Gamma Distributions [91.63716984911278]
このアルゴリズムは、異なるモードの適応的統合の原理における不確かさを効率的に推定し、信頼できる回帰結果を生成する。実世界のデータと実世界のデータの両方に対する実験結果から,多モード回帰タスクにおける本手法の有効性と信頼性が示された。
論文参考訳（メタデータ） (2021-11-11T14:28:12Z)
A comprehensive comparative evaluation and analysis of Distributional Semantic Models [61.41800660636555]
我々は、静的DSMによって生成されたり、BERTによって生成された文脈化されたベクトルを平均化して得られるような、型分布ベクトルの包括的評価を行う。その結果、予測ベースモデルの優越性は現実よりも明らかであり、ユビキタスではないことが明らかとなった。我々は認知神経科学からRepresentational similarity Analysis(RSA)の方法論を借りて、分布モデルによって生成された意味空間を検査する。
論文参考訳（メタデータ） (2021-05-20T15:18:06Z)
Robust, Accurate Stochastic Optimization for Variational Inference [68.83746081733464]
また, 共通最適化手法は, 問題が適度に大きい場合, 変分近似の精度が低下することを示した。これらの結果から,基礎となるアルゴリズムをマルコフ連鎖の生成とみなして,より堅牢で正確な最適化フレームワークを開発する。
論文参考訳（メタデータ） (2020-09-01T19:12:11Z)
Decision-Making with Auto-Encoding Variational Bayes [71.44735417472043]
変分分布とは異なる後部近似を用いて意思決定を行うことが示唆された。これらの理論的な結果から,最適モデルに関するいくつかの近似的提案を学習することを提案する。おもちゃの例に加えて,単細胞RNAシークエンシングのケーススタディも紹介する。
論文参考訳（メタデータ） (2020-02-17T19:23:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。