論文の概要: Risk Assessment and Statistical Significance in the Age of Foundation
Models
- arxiv url: http://arxiv.org/abs/2310.07132v1
- Date: Wed, 11 Oct 2023 02:08:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 00:58:46.555957
- Title: Risk Assessment and Statistical Significance in the Age of Foundation
Models
- Title(参考訳): 基礎モデルの年齢におけるリスク評価と統計的意義
- Authors: Apoorva Nitsure, Youssef Mroueh, Mattia Rigotti, Kristjan Greenewald,
Brian Belgodere, Mikhail Yurochkin, Jiri Navratil, Igor Melnyk, and Jerret
Ross
- Abstract要約: 本稿では,統計的に有意な基礎モデルの社会技術的リスクを評価するための分布的枠組みを提案する。
本試験における2次統計は, 平均リスクモデルと相関し, 代替案を選択する際のリスクと実用性のバランスをとるために, エコノメトリや数理ファイナンスでよく用いられることを示す。
- 参考スコア(独自算出の注目度): 36.95053112313244
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a distributional framework for assessing socio-technical risks of
foundation models with quantified statistical significance. Our approach hinges
on a new statistical relative testing based on first and second order
stochastic dominance of real random variables. We show that the second order
statistics in this test are linked to mean-risk models commonly used in
econometrics and mathematical finance to balance risk and utility when choosing
between alternatives. Using this framework, we formally develop a risk-aware
approach for foundation model selection given guardrails quantified by
specified metrics. Inspired by portfolio optimization and selection theory in
mathematical finance, we define a \emph{metrics portfolio} for each model as a
means to aggregate a collection of metrics, and perform model selection based
on the stochastic dominance of these portfolios. The statistical significance
of our tests is backed theoretically by an asymptotic analysis via central
limit theorems instantiated in practice via a bootstrap variance estimate. We
use our framework to compare various large language models regarding risks
related to drifting from instructions and outputting toxic content.
- Abstract(参考訳): 本稿では,統計的に有意な基礎モデルの社会技術的リスクを評価するための分布的枠組みを提案する。
提案手法は,実確率変数の1次および2次確率支配に基づく新しい統計的相対性試験に基づく。
本試験における2次統計は, 平均リスクモデルと相関し, 代替案を選択する際のリスクと実用性のバランスをとるために, エコノメトリや数理ファイナンスでよく用いられることを示す。
このフレームワークを用いて,特定メトリクスによって定量化されたガードレールを基礎モデル選択のためのリスク対応アプローチを正式に開発する。
数学ファイナンスにおけるポートフォリオ最適化と選択理論に着想を得て、各モデルに対する'emph{metrics portfolio} をメトリクスの集合を集約する手段として定義し、これらのポートフォリオの確率的優位性に基づいてモデル選択を行う。
実験の統計的意義は, 中央極限定理による漸近解析によって理論的に裏付けられ, ブートストラップ分散推定によって実際にインスタンス化される。
我々は,提案手法を用いて,指示からの漂流と有害コンテンツの出力に関連するリスクに関する各種大規模言語モデルの比較を行った。
関連論文リスト
- Multivariate Stochastic Dominance via Optimal Transport and Applications to Models Benchmarking [21.23500484100963]
最適輸送の枠組みの下で, ほぼ優位性をスムーズなコストで評価する統計モデルを導入する。
また、Sinkhornアルゴリズムを用いた仮説テストフレームワークと効率的な実装を提案する。
複数のメトリクスで評価された大規模言語モデルの比較とベンチマークを行う方法について紹介する。
論文 参考訳(メタデータ) (2024-06-10T16:14:50Z) - Likelihood Ratio Confidence Sets for Sequential Decision Making [51.66638486226482]
確率に基づく推論の原理を再検討し、確率比を用いて妥当な信頼シーケンスを構築することを提案する。
本手法は, 精度の高い問題に特に適している。
提案手法は,オンライン凸最適化への接続に光を当てることにより,推定器の最適シーケンスを確実に選択する方法を示す。
論文 参考訳(メタデータ) (2023-11-08T00:10:21Z) - Distribution-free Deviation Bounds and The Role of Domain Knowledge in Learning via Model Selection with Cross-validation Risk Estimation [0.0]
リスク推定とモデル選択のためのクロスバリデーション技術は、統計学や機械学習で広く利用されている。
本稿では,クロスバリデーションリスク推定を用いたモデル選択による学習を汎用的な学習フレームワークとして提案する。
論文 参考訳(メタデータ) (2023-03-15T17:18:31Z) - On (assessing) the fairness of risk score models [2.0646127669654826]
リスクモデルは、ユーザに対して潜在的な結果について不確実性を伝えるという事実など、さまざまな理由から関心を集めている。
リスクスコアフェアネスの鍵となるデシダータムとして,異なるグループに類似した価値を提供する。
本稿では,従来提案されていた基準値よりも試料径バイアスが少ない新しい校正誤差指標を提案する。
論文 参考訳(メタデータ) (2023-02-17T12:45:51Z) - MAUVE Scores for Generative Models: Theory and Practice [95.86006777961182]
本報告では,テキストや画像の生成モデルで発生するような分布のペア間の比較尺度であるMAUVEについて述べる。
我々は、MAUVEが人間の文章の分布と現代のニューラル言語モデルとのギャップを定量化できることを発見した。
我々は、MAUVEが既存のメトリクスと同等以上の画像の既知の特性を識別できることを視覚領域で実証する。
論文 参考訳(メタデータ) (2022-12-30T07:37:40Z) - Causality and Generalizability: Identifiability and Learning Methods [0.0]
この論文は、因果効果の推定、因果構造学習、および分布的に堅牢な予測方法に関する研究領域に寄与する。
本稿では,データ依存平均二乗予測誤差正規化を用いた機器変数設定における線形・非線形因果関係推定器について述べる。
本稿では,介入誘起分布に関する分布ロバスト性に関する一般的な枠組みを提案する。
論文 参考訳(メタデータ) (2021-10-04T13:12:11Z) - Adaptive learning for financial markets mixing model-based and
model-free RL for volatility targeting [0.0]
モデルフリー強化学習は安定した環境において有意義な成果を上げてきたが、今日でも金融市場のような環境の変化に問題がある。
モデルフリーな深層強化学習により,様々なモデルベースアプローチを選択することで,この2つの手法のベストを組み合わせることを提案する。
論文 参考訳(メタデータ) (2021-04-19T19:20:22Z) - Characterizing Fairness Over the Set of Good Models Under Selective
Labels [69.64662540443162]
同様の性能を実現するモデルセットに対して,予測公正性を特徴付けるフレームワークを開発する。
到達可能なグループレベルの予測格差の範囲を計算するためのトラクタブルアルゴリズムを提供します。
選択ラベル付きデータの実証的な課題に対処するために、我々のフレームワークを拡張します。
論文 参考訳(メタデータ) (2021-01-02T02:11:37Z) - Trust but Verify: Assigning Prediction Credibility by Counterfactual
Constrained Learning [123.3472310767721]
予測信頼性尺度は統計学と機械学習において基本的なものである。
これらの措置は、実際に使用される多種多様なモデルを考慮に入れるべきである。
この研究で開発されたフレームワークは、リスクフィットのトレードオフとして信頼性を表現している。
論文 参考訳(メタデータ) (2020-11-24T19:52:38Z) - Decision-Making with Auto-Encoding Variational Bayes [71.44735417472043]
変分分布とは異なる後部近似を用いて意思決定を行うことが示唆された。
これらの理論的な結果から,最適モデルに関するいくつかの近似的提案を学習することを提案する。
おもちゃの例に加えて,単細胞RNAシークエンシングのケーススタディも紹介する。
論文 参考訳(メタデータ) (2020-02-17T19:23:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。