Fugu-MT 論文翻訳(概要): Credal Two-Sample Tests of Epistemic Uncertainty

論文の概要: Credal Two-Sample Tests of Epistemic Uncertainty

arxiv url: http://arxiv.org/abs/2410.12921v2
Date: Thu, 13 Mar 2025 11:34:18 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-14 17:08:08.091337
Title: Credal Two-Sample Tests of Epistemic Uncertainty
Title（参考訳）: てんかん性不確かさの経時的2サンプル検査
Authors: Siu Lun Chau, Antonin Schrab, Arthur Gretton, Dino Sejdinovic, Krikamol Muandet,
Abstract要約: 干潟集合を比較するための新しい仮説テストフレームワークである干潟2サンプル試験を導入する。干潟群を比較するための2サンプル試験を一般化することにより、同値性、包摂性、交叉性、および相互排他性の推論を可能にする。
参考スコア（独自算出の注目度）: 34.42566984003255
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce credal two-sample testing, a new hypothesis testing framework for comparing credal sets -- convex sets of probability measures where each element captures aleatoric uncertainty and the set itself represents epistemic uncertainty that arises from the modeller's partial ignorance. Compared to classical two-sample tests, which focus on comparing precise distributions, the proposed framework provides a broader and more versatile set of hypotheses. This approach enables the direct integration of epistemic uncertainty, effectively addressing the challenges arising from partial ignorance in hypothesis testing. By generalising two-sample test to compare credal sets, our framework enables reasoning for equality, inclusion, intersection, and mutual exclusivity, each offering unique insights into the modeller's epistemic beliefs. As the first work on nonparametric hypothesis testing for comparing credal sets, we focus on finitely generated credal sets derived from i.i.d. samples from multiple distributions -- referred to as credal samples. We formalise these tests as two-sample tests with nuisance parameters and introduce the first permutation-based solution for this class of problems, significantly improving existing methods. Our approach properly incorporates the modeller's epistemic uncertainty into hypothesis testing, leading to more robust and credible conclusions, with kernel-based implementations for real-world applications.
Abstract（参考訳）: そこで,本研究では,各要素がアレタリック不確かさを捉え,その集合自体がモデラーの部分的無知から生じるてんかんの不確かさを表すような確率測度の凸集合について,新しい仮説テストフレームワークであるクレーダル2サンプルテストを導入する。正確な分布を比較することに焦点を当てた古典的な2サンプルテストと比較して、提案フレームワークはより広く、より汎用的な仮説のセットを提供する。このアプローチは、仮説テストにおける部分的無知に起因する課題に効果的に対処するため、てんかんの不確実性の直接的な統合を可能にする。クレダル集合を比較するための2サンプルテストの一般化により、我々のフレームワークは、等式、包含性、交叉性、および相互排他性の推論を可能にし、それぞれがモデラーの疫学的信念に固有の洞察を与える。クレダル集合の比較のためのノンパラメトリック仮説テストの最初の研究として、複数の分布の標本から得られる有限生成のクレダル集合に焦点をあてる。そこで本研究では,これらの試験をニュアンスパラメータを持つ2サンプルテストとして定式化し,この問題に対する最初の置換ベースのソリューションを導入し,既存の手法を大幅に改善した。提案手法は,提案手法を仮説テストに適切に組み込むことにより,実世界のアプリケーションに対するカーネルベースの実装により,より堅牢で信頼性の高い結論を導出する。

関連論文リスト

A kernel conditional two-sample test [5.503626337185689]
学習手法の信頼性境界を条件付き2サンプルテストに変換する。アクセス不能なパラメータのチューニングを避けるためにブートストラップ方式を導入する。その結果,条件付き2サンプルテストの総合的な基盤が確立された。
論文参考訳（メタデータ） (2025-06-04T12:53:13Z)
Pre-validation Revisited [79.92204034170092]
シミュレーションと応用による予測,推測,誤差推定における事前検証の特性と利点を示す。そこで本研究では, あるモデル下での事前検証予測のためのテスト統計量の解析的分布だけでなく, 推論を行うための一般的なブートストラップ手順も提案する。
論文参考訳（メタデータ） (2025-05-21T00:20:14Z)
SConU: Selective Conformal Uncertainty in Large Language Models [59.25881667640868]
SconU(Selective Conformal Uncertainity)と呼ばれる新しいアプローチを提案する。我々は,特定の管理可能なリスクレベルで設定されたキャリブレーションの不確実性分布から,与えられたサンプルが逸脱するかどうかを決定するのに役立つ2つの共形p値を開発する。我々のアプローチは、単一ドメインと学際的コンテキストの両方にわたる誤発見率の厳密な管理を促進するだけでなく、予測の効率を高める。
論文参考訳（メタデータ） (2025-04-19T03:01:45Z)
FactTest: Factuality Testing in Large Language Models with Finite-Sample and Distribution-Free Guarantees [41.78390564658645]
幻覚や非現実的コンテンツを生成するための大規模言語モデル(LLM)は、高い領域での信頼性を損なう。 FactTest は LLM が与えられた質問に対する正しい回答を確実に提供できるかどうかを統計的に評価する新しいフレームワークである。本研究では,FactTestが幻覚を効果的に検出し,未知の疑問に答えることを禁じるモデルの能力を向上させることにより,40%以上の精度向上を実現していることを示す。
論文参考訳（メタデータ） (2024-11-04T20:53:04Z)
General Frameworks for Conditional Two-Sample Testing [3.3317825075368908]
本研究では, 条件付き2サンプル検定の問題点について検討し, 条件付き2サンプル検定の問題点について考察した。この問題は、ドメイン適応やアルゴリズムフェアネスなど、様々な応用で一般的に発生する。本稿では,その妥当性と能力について,分布の特定のクラスを暗黙的に,あるいは明示的にターゲットとする2つの一般的なフレームワークを紹介する。
論文参考訳（メタデータ） (2024-10-22T02:27:32Z)
Non-Convex Robust Hypothesis Testing using Sinkhorn Uncertainty Sets [18.46110328123008]
非破壊仮説テスト問題に対処する新しい枠組みを提案する。目標は、最大数値リスクを最小限に抑える最適な検出器を探すことである。
論文参考訳（メタデータ） (2024-03-21T20:29:43Z)
Deep anytime-valid hypothesis testing [29.273915933729057]
非パラメトリックなテスト問題に対する強力なシーケンシャルな仮説テストを構築するための一般的なフレームワークを提案する。テスト・バイ・ベッティング・フレームワーク内で、機械学習モデルの表現能力を活用するための原則的なアプローチを開発する。合成および実世界のデータセットに関する実証的な結果は、我々の一般的なフレームワークを用いてインスタンス化されたテストが、特殊なベースラインと競合することを示している。
論文参考訳（メタデータ） (2023-10-30T09:46:19Z)
Prototype-based Aleatoric Uncertainty Quantification for Cross-modal Retrieval [139.21955930418815]
クロスモーダル検索手法は、共通表現空間を共同学習することにより、視覚と言語モダリティの類似性関係を構築する。しかし、この予測は、低品質なデータ、例えば、腐敗した画像、速いペースの動画、詳細でないテキストによって引き起こされるアレタリック不確実性のために、しばしば信頼性が低い。本稿では, 原型に基づくAleatoric Uncertainity Quantification (PAU) フレームワークを提案する。
論文参考訳（メタデータ） (2023-09-29T09:41:19Z)
Selective Nonparametric Regression via Testing [54.20569354303575]
本研究では,所定の点における条件分散の値に関する仮説を検証し,留置手順を開発する。既存の手法とは異なり、提案手法は分散自体の値だけでなく、対応する分散予測器の不確実性についても考慮することができる。
論文参考訳（メタデータ） (2023-09-28T13:04:11Z)
Sequential Predictive Two-Sample and Independence Testing [114.4130718687858]
逐次的非パラメトリック2サンプルテストと独立テストの問題点について検討する。私たちは賭けによる(非パラメトリックな)テストの原則に基づいています。
論文参考訳（メタデータ） (2023-04-29T01:30:33Z)
Bootstrapped Edge Count Tests for Nonparametric Two-Sample Inference Under Heterogeneity [5.8010446129208155]
両試料間の差異を正確に検出する新しい非パラメトリック試験法を開発した。オンラインゲームにおけるユーザ行動検出のための総合シミュレーション研究と応用により,提案試験の非漸近性能が向上したことを示す。
論文参考訳（メタデータ） (2023-04-26T22:25:44Z)
Shortcomings of Top-Down Randomization-Based Sanity Checks for Evaluations of Deep Neural Network Explanations [67.40641255908443]
モデルランダム化に基づく正当性チェックの限界を,説明書の評価のために同定する。トップダウンモデルランダム化は、フォワードパスアクティベーションのスケールを高い確率で保存する。
論文参考訳（メタデータ） (2022-11-22T18:52:38Z)
Statistical and Computational Phase Transitions in Group Testing [73.55361918807883]
本研究の目的は、希少な疾患を患っているk人の集団を同定することである。個々人のテストを割り当てるための2つの異なる単純なランダムな手順を考える。
論文参考訳（メタデータ） (2022-06-15T16:38:50Z)
A Data-Driven Approach to Robust Hypothesis Testing Using Sinkhorn Uncertainty Sets [12.061662346636645]
シンクホーン距離を用いた試料から, 実験分布を中心とした分布不確実性集合に対する最悪の検出法を求める。ワッサーシュタインのロバスト試験と比較すると、対応する最も好ましい分布はトレーニングサンプルを超えてサポートされ、より柔軟な検出器を提供する。
論文参考訳（メタデータ） (2022-02-09T03:26:15Z)
A One-step Approach to Covariate Shift Adaptation [82.01909503235385]
多くの機械学習シナリオにおけるデフォルトの前提は、トレーニングとテストサンプルは同じ確率分布から引き出されることである。予測モデルと関連する重みを1つの最適化で共同で学習する新しいワンステップアプローチを提案する。
論文参考訳（メタデータ） (2020-07-08T11:35:47Z)
Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文参考訳（メタデータ） (2020-06-22T21:12:31Z)
Achieving Equalized Odds by Resampling Sensitive Attributes [13.114114427206678]
等価性の概念をほぼ満足する予測モデルを学習するためのフレキシブルなフレームワークを提案する。この微分可能な関数は、モデルパラメータを等化奇数に向けて駆動するペナルティとして使用される。本研究は,予測規則が本性質に反するか否かを検出するための公式な仮説テストを開発する。
論文参考訳（メタデータ） (2020-06-08T00:18:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。