論文の概要: Risk Assessment and Statistical Significance in the Age of Foundation
Models
- arxiv url: http://arxiv.org/abs/2310.07132v2
- Date: Tue, 9 Jan 2024 14:38:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-10 19:42:57.169734
- Title: Risk Assessment and Statistical Significance in the Age of Foundation
Models
- Title(参考訳): 基礎モデルの年齢におけるリスク評価と統計的意義
- Authors: Apoorva Nitsure, Youssef Mroueh, Mattia Rigotti, Kristjan Greenewald,
Brian Belgodere, Mikhail Yurochkin, Jiri Navratil, Igor Melnyk, and Jerret
Ross
- Abstract要約: 本稿では,統計的に有意な基礎モデルの社会技術的リスクに対する分布的枠組みを提案する。
本試験における2次統計は,計量学や数理ファイナンスでよく用いられる平均リスクモデルと関連していることを示す。
- 参考スコア(独自算出の注目度): 36.95053112313244
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a distributional framework for assessing socio-technical risks of
foundation models with quantified statistical significance. Our approach hinges
on a new statistical relative testing based on first and second order
stochastic dominance of real random variables. We show that the second order
statistics in this test are linked to mean-risk models commonly used in
econometrics and mathematical finance to balance risk and utility when choosing
between alternatives. Using this framework, we formally develop a risk-aware
approach for foundation model selection given guardrails quantified by
specified metrics. Inspired by portfolio optimization and selection theory in
mathematical finance, we define a metrics portfolio for each model as a means
to aggregate a collection of metrics, and perform model selection based on the
stochastic dominance of these portfolios. The statistical significance of our
tests is backed theoretically by an asymptotic analysis via central limit
theorems instantiated in practice via a bootstrap variance estimate. We use our
framework to compare various large language models regarding risks related to
drifting from instructions and outputting toxic content.
- Abstract(参考訳): 本稿では,統計的に有意な基礎モデルの社会技術的リスクを評価するための分布的枠組みを提案する。
提案手法は,実確率変数の1次および2次確率支配に基づく新しい統計的相対性試験に基づく。
本試験における2次統計は, 平均リスクモデルと相関し, 代替案を選択する際のリスクと実用性のバランスをとるために, エコノメトリや数理ファイナンスでよく用いられることを示す。
このフレームワークを用いて,特定メトリクスによって定量化されたガードレールを基礎モデル選択のためのリスク対応アプローチを正式に開発する。
数学ファイナンスにおけるポートフォリオ最適化と選択理論に着想を得て、各モデルのメトリクスポートフォリオをメトリクスの集合を集約する手段として定義し、これらのポートフォリオの確率的優位性に基づいてモデル選択を行う。
実験の統計的意義は, 中央極限定理による漸近解析によって理論的に裏付けられ, ブートストラップ分散推定によって実際にインスタンス化される。
我々は,提案手法を用いて,指示からの漂流と有害コンテンツの出力に関連するリスクに関する各種大規模言語モデルの比較を行った。
関連論文リスト
- On (assessing) the fairness of risk score models [2.0646127669654826]
リスクモデルは、ユーザに対して潜在的な結果について不確実性を伝えるという事実など、さまざまな理由から関心を集めている。
リスクスコアフェアネスの鍵となるデシダータムとして,異なるグループに類似した価値を提供する。
本稿では,従来提案されていた基準値よりも試料径バイアスが少ない新しい校正誤差指標を提案する。
論文 参考訳(メタデータ) (2023-02-17T12:45:51Z) - MAUVE Scores for Generative Models: Theory and Practice [95.86006777961182]
本報告では,テキストや画像の生成モデルで発生するような分布のペア間の比較尺度であるMAUVEについて述べる。
我々は、MAUVEが人間の文章の分布と現代のニューラル言語モデルとのギャップを定量化できることを発見した。
我々は、MAUVEが既存のメトリクスと同等以上の画像の既知の特性を識別できることを視覚領域で実証する。
論文 参考訳(メタデータ) (2022-12-30T07:37:40Z) - Statistical Model Criticism of Variational Auto-Encoders [15.005894753472894]
変分自動エンコーダ(VAE)の統計的評価のための枠組みを提案する。
我々は、手書き文字のイメージと英文のコーパスをモデル化する文脈において、このフレームワークの2つの例をテストする。
論文 参考訳(メタデータ) (2022-04-06T18:19:29Z) - Causality and Generalizability: Identifiability and Learning Methods [0.0]
この論文は、因果効果の推定、因果構造学習、および分布的に堅牢な予測方法に関する研究領域に寄与する。
本稿では,データ依存平均二乗予測誤差正規化を用いた機器変数設定における線形・非線形因果関係推定器について述べる。
本稿では,介入誘起分布に関する分布ロバスト性に関する一般的な枠組みを提案する。
論文 参考訳(メタデータ) (2021-10-04T13:12:11Z) - Adaptive learning for financial markets mixing model-based and
model-free RL for volatility targeting [0.0]
モデルフリー強化学習は安定した環境において有意義な成果を上げてきたが、今日でも金融市場のような環境の変化に問題がある。
モデルフリーな深層強化学習により,様々なモデルベースアプローチを選択することで,この2つの手法のベストを組み合わせることを提案する。
論文 参考訳(メタデータ) (2021-04-19T19:20:22Z) - Characterizing Fairness Over the Set of Good Models Under Selective
Labels [69.64662540443162]
同様の性能を実現するモデルセットに対して,予測公正性を特徴付けるフレームワークを開発する。
到達可能なグループレベルの予測格差の範囲を計算するためのトラクタブルアルゴリズムを提供します。
選択ラベル付きデータの実証的な課題に対処するために、我々のフレームワークを拡張します。
論文 参考訳(メタデータ) (2021-01-02T02:11:37Z) - Trust but Verify: Assigning Prediction Credibility by Counterfactual
Constrained Learning [123.3472310767721]
予測信頼性尺度は統計学と機械学習において基本的なものである。
これらの措置は、実際に使用される多種多様なモデルを考慮に入れるべきである。
この研究で開発されたフレームワークは、リスクフィットのトレードオフとして信頼性を表現している。
論文 参考訳(メタデータ) (2020-11-24T19:52:38Z) - SAMBA: Safe Model-Based & Active Reinforcement Learning [59.01424351231993]
SAMBAは、確率論的モデリング、情報理論、統計学といった側面を組み合わせた安全な強化学習のためのフレームワークである。
我々は,低次元および高次元の状態表現を含む安全な力学系ベンチマークを用いて,アルゴリズムの評価を行った。
アクティブなメトリクスと安全性の制約を詳細に分析することで,フレームワークの有効性を直感的に評価する。
論文 参考訳(メタデータ) (2020-06-12T10:40:46Z) - Ensemble Learning with Statistical and Structural Models [0.0]
本稿では,予測と因果推論を改善するために,統計モデルと構造モデルを組み合わせた新しい手法を提案する。
最初の提案した推定器は、統計モデルまたは構造モデルのいずれかの正しい仕様しか必要としないという二重頑健性特性を持つ。
論文 参考訳(メタデータ) (2020-06-07T13:36:50Z) - Decision-Making with Auto-Encoding Variational Bayes [71.44735417472043]
変分分布とは異なる後部近似を用いて意思決定を行うことが示唆された。
これらの理論的な結果から,最適モデルに関するいくつかの近似的提案を学習することを提案する。
おもちゃの例に加えて,単細胞RNAシークエンシングのケーススタディも紹介する。
論文 参考訳(メタデータ) (2020-02-17T19:23:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。