論文の概要: A Model-free Closeness-of-influence Test for Features in Supervised
Learning
- arxiv url: http://arxiv.org/abs/2306.11855v1
- Date: Tue, 20 Jun 2023 19:20:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-22 15:56:50.126624
- Title: A Model-free Closeness-of-influence Test for Features in Supervised
Learning
- Title(参考訳): 教師付き学習における特徴量に対するモデルフリークローズネス・オブ・インフルエンステスト
- Authors: Mohammad Mehrabi and Ryan A. Rossi
- Abstract要約: 本研究では,2つの特徴が応答値に与える影響の差について検討する。
まず、特徴の影響に対する近接性の概念を提案し、この定義がモデルにおける係数の大きさに関するよく知られた概念を回復させることを示す。
そこで本研究では,モデルなし教師あり学習問題における影響の近接性をテストする新しい手法を提案する。
- 参考スコア(独自算出の注目度): 23.345517302581044
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding the effect of a feature vector $x \in \mathbb{R}^d$ on the
response value (label) $y \in \mathbb{R}$ is the cornerstone of many
statistical learning problems. Ideally, it is desired to understand how a set
of collected features combine together and influence the response value, but
this problem is notoriously difficult, due to the high-dimensionality of data
and limited number of labeled data points, among many others. In this work, we
take a new perspective on this problem, and we study the question of assessing
the difference of influence that the two given features have on the response
value. We first propose a notion of closeness for the influence of features,
and show that our definition recovers the familiar notion of the magnitude of
coefficients in the parametric model. We then propose a novel method to test
for the closeness of influence in general model-free supervised learning
problems. Our proposed test can be used with finite number of samples with
control on type I error rate, no matter the ground truth conditional law
$\mathcal{L}(Y |X)$. We analyze the power of our test for two general learning
problems i) linear regression, and ii) binary classification under mixture of
Gaussian models, and show that under the proper choice of score function, an
internal component of our test, with sufficient number of samples will achieve
full statistical power. We evaluate our findings through extensive numerical
simulations, specifically we adopt the datamodel framework (Ilyas, et al.,
2022) for CIFAR-10 dataset to identify pairs of training samples with different
influence on the trained model via optional black box training mechanisms.
- Abstract(参考訳): 特徴ベクトル $x \in \mathbb{R}^d$ が応答値 (ラベル) $y \in \mathbb{R}$ に与える影響を理解することは、多くの統計的学習問題の基盤となる。
理想的には、収集された機能の集合がどのように結合し、応答値に影響を与えるかを理解することが望ましいが、データの高次元性やラベル付きデータポイントの限られた数など、この問題は非常に難しい。
本研究では,この問題に対する新たな視点を定め,この2つの特徴が応答値に与える影響について検討する。
まず、特徴の影響に対する近接性の概念を提案し、パラメトリックモデルにおける係数の大きさに関するよく知られた概念を再現することを示す。
そこで本研究では,モデルなし教師あり学習問題における影響の近接性をテストする新しい手法を提案する。
提案した試験は, 基本真理条件法$\mathcal{L}(Y |X)$であっても, I型誤差率を制御した有限個のサンプルで使用することができる。
2つの一般的な学習問題に対するテストのパワーの分析
一 線形回帰、及び
二 ガウスモデルの混合による二項分類を行い、スコア関数の適切な選択の下では、十分な数のサンプルを含むテストの内部成分が完全な統計的パワーを得ることを示す。
特に,CIFAR-10データセットにデータモデルフレームワーク(Ilyas, et al., 2022)を導入し,任意のブラックボックストレーニング機構を用いて,トレーニングモデルに異なる影響を持つトレーニングサンプルのペアを同定した。
関連論文リスト
- Most Influential Subset Selection: Challenges, Promises, and Beyond [9.479235005673683]
我々は,最も集団的影響の大きいトレーニングサンプルのサブセットを特定することを目的とした,MISS(Most Influential Subset Selection)問題について検討する。
我々は、MISにおける一般的なアプローチを包括的に分析し、その強みと弱点を解明する。
本稿では,これらを反復的に適用した適応バージョンが,試料間の相互作用を効果的に捕捉できることを実証する。
論文 参考訳(メタデータ) (2024-09-25T20:00:23Z) - Revisit, Extend, and Enhance Hessian-Free Influence Functions [26.105554752277648]
影響関数は、モデルの解釈、サブセットのトレーニングセットの選択などにおけるサンプルの影響を評価する重要なツールとして機能する。
本稿では,Trac として知られる特定の有効近似法を再検討する。
この方法は、ヘッセン行列の逆を恒等行列で置き換える。
論文 参考訳(メタデータ) (2024-05-25T03:43:36Z) - The Mirrored Influence Hypothesis: Efficient Data Influence Estimation by Harnessing Forward Passes [30.30769701138665]
我々は、訓練データとテストデータの間の相互影響を浮き彫りにして、ミラーレッド影響仮説を導入し、探求する。
具体的には、テスト予測に対するトレーニングデータの影響を評価することは、等価だが逆問題として再定義することができることを示唆している。
トレーニングポイント毎に前方パスとペアを組むことで,特定のテストサンプルの勾配を計算し,トレーニングデータの影響を推定する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-02-14T03:43:05Z) - Explaining Predictive Uncertainty with Information Theoretic Shapley
Values [6.49838460559032]
我々は、様々な種類の予測の不確実性を説明するために、人気のShapley値フレームワークを適用します。
我々は,実データおよびシミュレーションデータに対して,様々な実験でよく動作する効率的なアルゴリズムを実装した。
論文 参考訳(メタデータ) (2023-06-09T07:43:46Z) - Stubborn Lexical Bias in Data and Models [50.79738900885665]
我々は、データに基づいてトレーニングされたモデルに、データのスプリアスパターンが現れるかどうかを調べるために、新しい統計手法を用いる。
トレーニングデータに*reweight*に最適化アプローチを適用し、数千のスプリアス相関を低減します。
驚くべきことに、この方法ではトレーニングデータの語彙バイアスを低減できますが、トレーニングされたモデルで対応するバイアスの強い証拠がまだ見つかっていません。
論文 参考訳(メタデータ) (2023-06-03T20:12:27Z) - A Lagrangian Duality Approach to Active Learning [119.36233726867992]
トレーニングデータのサブセットのみをラベル付けするバッチアクティブな学習問題を考察する。
制約付き最適化を用いて学習問題を定式化し、各制約はラベル付きサンプルにモデルの性能を拘束する。
数値実験により,提案手法は最先端の能動学習法と同等かそれ以上に機能することを示した。
論文 参考訳(メタデータ) (2022-02-08T19:18:49Z) - Test Set Sizing Via Random Matrix Theory [91.3755431537592]
本稿ではランダム行列理論の手法を用いて、単純な線形回帰に対して理想的なトレーニング-テストデータ分割を求める。
それは「理想」を整合性計量を満たすものとして定義し、すなわち経験的モデル誤差は実際の測定ノイズである。
本論文は,任意のモデルのトレーニングとテストサイズを,真に最適な方法で解決した最初の論文である。
論文 参考訳(メタデータ) (2021-12-11T13:18:33Z) - Towards Open-World Feature Extrapolation: An Inductive Graph Learning
Approach [80.8446673089281]
グラフ表現と学習を伴う新しい学習パラダイムを提案する。
本フレームワークは,1) 下位モデルとしてのバックボーンネットワーク(フィードフォワードニューラルネットなど)が,予測ラベルの入力および出力として機能を取り,2) 上位モデルとしてのグラフニューラルネットワークが,観測データから構築された特徴データグラフをメッセージパッシングすることで,新機能の埋め込みを外挿することを学ぶ。
論文 参考訳(メタデータ) (2021-10-09T09:02:45Z) - Causal Inference Under Unmeasured Confounding With Negative Controls: A
Minimax Learning Approach [84.29777236590674]
すべての共同設立者が観察されず、代わりに負の制御が利用可能である場合の因果パラメータの推定について検討する。
最近の研究は、2つのいわゆるブリッジ関数による同定と効率的な推定を可能にする方法を示している。
論文 参考訳(メタデータ) (2021-03-25T17:59:19Z) - Significance tests of feature relevance for a blackbox learner [6.72450543613463]
ブラックボックス学習者の特徴関連性に関する2つの一貫した試験を導出する。
第1は、推論サンプルの摂動による損失差を評価する。
2つ目は推論サンプルを2つに分割するが、データの摂動は必要ない。
論文 参考訳(メタデータ) (2021-03-02T00:59:19Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。