Fugu-MT 論文翻訳(概要): Risk Assessment and Statistical Significance in the Age of Foundation Models

論文の概要: Risk Assessment and Statistical Significance in the Age of Foundation Models

arxiv url: http://arxiv.org/abs/2310.07132v2
Date: Tue, 9 Jan 2024 14:38:20 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-10 19:42:57.169734
Title: Risk Assessment and Statistical Significance in the Age of Foundation Models
Title（参考訳）: 基礎モデルの年齢におけるリスク評価と統計的意義
Authors: Apoorva Nitsure, Youssef Mroueh, Mattia Rigotti, Kristjan Greenewald, Brian Belgodere, Mikhail Yurochkin, Jiri Navratil, Igor Melnyk, and Jerret Ross
Abstract要約: 本稿では,統計的に有意な基礎モデルの社会技術的リスクに対する分布的枠組みを提案する。本試験における2次統計は,計量学や数理ファイナンスでよく用いられる平均リスクモデルと関連していることを示す。
参考スコア（独自算出の注目度）: 36.95053112313244
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose a distributional framework for assessing socio-technical risks of foundation models with quantified statistical significance. Our approach hinges on a new statistical relative testing based on first and second order stochastic dominance of real random variables. We show that the second order statistics in this test are linked to mean-risk models commonly used in econometrics and mathematical finance to balance risk and utility when choosing between alternatives. Using this framework, we formally develop a risk-aware approach for foundation model selection given guardrails quantified by specified metrics. Inspired by portfolio optimization and selection theory in mathematical finance, we define a metrics portfolio for each model as a means to aggregate a collection of metrics, and perform model selection based on the stochastic dominance of these portfolios. The statistical significance of our tests is backed theoretically by an asymptotic analysis via central limit theorems instantiated in practice via a bootstrap variance estimate. We use our framework to compare various large language models regarding risks related to drifting from instructions and outputting toxic content.
Abstract（参考訳）: 本稿では,統計的に有意な基礎モデルの社会技術的リスクを評価するための分布的枠組みを提案する。提案手法は,実確率変数の1次および2次確率支配に基づく新しい統計的相対性試験に基づく。本試験における2次統計は, 平均リスクモデルと相関し, 代替案を選択する際のリスクと実用性のバランスをとるために, エコノメトリや数理ファイナンスでよく用いられることを示す。このフレームワークを用いて,特定メトリクスによって定量化されたガードレールを基礎モデル選択のためのリスク対応アプローチを正式に開発する。数学ファイナンスにおけるポートフォリオ最適化と選択理論に着想を得て、各モデルのメトリクスポートフォリオをメトリクスの集合を集約する手段として定義し、これらのポートフォリオの確率的優位性に基づいてモデル選択を行う。実験の統計的意義は, 中央極限定理による漸近解析によって理論的に裏付けられ, ブートストラップ分散推定によって実際にインスタンス化される。我々は,提案手法を用いて,指示からの漂流と有害コンテンツの出力に関連するリスクに関する各種大規模言語モデルの比較を行った。

関連論文リスト

Model Correlation Detection via Random Selection Probing [62.093777777813756]
既存の類似性に基づく手法では、モデルパラメータにアクセスしたり、しきい値なしでスコアを生成する必要がある。本稿では,モデル相関検出を統計的テストとして定式化する仮説テストフレームワークであるランダム選択探索(RSP)を紹介する。 RSPは相関の証拠を定量化する厳密なp-値を生成する。
論文参考訳（メタデータ） (2025-09-29T01:40:26Z)
Uncertainty-Aware Strategies: A Model-Agnostic Framework for Robust Financial Optimization through Subsampling [0.7916373508978822]
本稿では,定量的ファイナンスにおけるモデル不確実性の問題に対処する。ポートフォリオ割り当て、デリバティブ価格、リスク管理の決定は、限られたデータからモデルを推定することに依存する。従来の金融リスク対策によって動機付けられた外的「不確実性尺度」をモデル空間に重ね合わせます。
論文参考訳（メタデータ） (2025-06-08T21:55:00Z)
Model-free Methods for Event History Analysis and Efficient Adjustment (PhD Thesis) [55.2480439325792]
この論文は、モデルフリーの観点から統一された統計学への独立した貢献のシリーズである。第1章では、機械学習から予測技術を活用する柔軟なメソッドを定式化するために、モデルフリーの視点をどのように利用できるか、詳しく説明している。第2章では、あるプロセスの進化が他のプロセスに直接影響されるかどうかを記述した地域独立の概念を研究している。
論文参考訳（メタデータ） (2025-02-11T19:24:09Z)
Multivariate Stochastic Dominance via Optimal Transport and Applications to Models Benchmarking [21.23500484100963]
最適輸送の枠組みの下で, ほぼ優位性をスムーズなコストで評価する統計モデルを導入する。また、Sinkhornアルゴリズムを用いた仮説テストフレームワークと効率的な実装を提案する。複数のメトリクスで評価された大規模言語モデルの比較とベンチマークを行う方法について紹介する。
論文参考訳（メタデータ） (2024-06-10T16:14:50Z)
Likelihood Ratio Confidence Sets for Sequential Decision Making [51.66638486226482]
確率に基づく推論の原理を再検討し、確率比を用いて妥当な信頼シーケンスを構築することを提案する。本手法は, 精度の高い問題に特に適している。提案手法は,オンライン凸最適化への接続に光を当てることにより,推定器の最適シーケンスを確実に選択する方法を示す。
論文参考訳（メタデータ） (2023-11-08T00:10:21Z)
Distribution-free Deviation Bounds and The Role of Domain Knowledge in Learning via Model Selection with Cross-validation Risk Estimation [0.0]
リスク推定とモデル選択のためのクロスバリデーション技術は、統計学や機械学習で広く利用されている。本稿では,クロスバリデーションリスク推定を用いたモデル選択による学習を汎用的な学習フレームワークとして提案する。
論文参考訳（メタデータ） (2023-03-15T17:18:31Z)
On (assessing) the fairness of risk score models [2.0646127669654826]
リスクモデルは、ユーザに対して潜在的な結果について不確実性を伝えるという事実など、さまざまな理由から関心を集めている。リスクスコアフェアネスの鍵となるデシダータムとして,異なるグループに類似した価値を提供する。本稿では,従来提案されていた基準値よりも試料径バイアスが少ない新しい校正誤差指標を提案する。
論文参考訳（メタデータ） (2023-02-17T12:45:51Z)
MAUVE Scores for Generative Models: Theory and Practice [95.86006777961182]
本報告では,テキストや画像の生成モデルで発生するような分布のペア間の比較尺度であるMAUVEについて述べる。我々は、MAUVEが人間の文章の分布と現代のニューラル言語モデルとのギャップを定量化できることを発見した。我々は、MAUVEが既存のメトリクスと同等以上の画像の既知の特性を識別できることを視覚領域で実証する。
論文参考訳（メタデータ） (2022-12-30T07:37:40Z)
Causality and Generalizability: Identifiability and Learning Methods [0.0]
この論文は、因果効果の推定、因果構造学習、および分布的に堅牢な予測方法に関する研究領域に寄与する。本稿では,データ依存平均二乗予測誤差正規化を用いた機器変数設定における線形・非線形因果関係推定器について述べる。本稿では,介入誘起分布に関する分布ロバスト性に関する一般的な枠組みを提案する。
論文参考訳（メタデータ） (2021-10-04T13:12:11Z)
Adaptive learning for financial markets mixing model-based and model-free RL for volatility targeting [0.0]
モデルフリー強化学習は安定した環境において有意義な成果を上げてきたが、今日でも金融市場のような環境の変化に問題がある。モデルフリーな深層強化学習により,様々なモデルベースアプローチを選択することで,この2つの手法のベストを組み合わせることを提案する。
論文参考訳（メタデータ） (2021-04-19T19:20:22Z)
Characterizing Fairness Over the Set of Good Models Under Selective Labels [69.64662540443162]
同様の性能を実現するモデルセットに対して,予測公正性を特徴付けるフレームワークを開発する。到達可能なグループレベルの予測格差の範囲を計算するためのトラクタブルアルゴリズムを提供します。選択ラベル付きデータの実証的な課題に対処するために、我々のフレームワークを拡張します。
論文参考訳（メタデータ） (2021-01-02T02:11:37Z)
Trust but Verify: Assigning Prediction Credibility by Counterfactual Constrained Learning [123.3472310767721]
予測信頼性尺度は統計学と機械学習において基本的なものである。これらの措置は、実際に使用される多種多様なモデルを考慮に入れるべきである。この研究で開発されたフレームワークは、リスクフィットのトレードオフとして信頼性を表現している。
論文参考訳（メタデータ） (2020-11-24T19:52:38Z)
Decision-Making with Auto-Encoding Variational Bayes [71.44735417472043]
変分分布とは異なる後部近似を用いて意思決定を行うことが示唆された。これらの理論的な結果から,最適モデルに関するいくつかの近似的提案を学習することを提案する。おもちゃの例に加えて,単細胞RNAシークエンシングのケーススタディも紹介する。
論文参考訳（メタデータ） (2020-02-17T19:23:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。