論文の概要: Accept-Reject Lasso
- arxiv url: http://arxiv.org/abs/2508.04646v1
- Date: Wed, 06 Aug 2025 17:13:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.84061
- Title: Accept-Reject Lasso
- Title(参考訳): Accept-Reject Lasso
- Authors: Yanxin Liu, Yunqi Zhang,
- Abstract要約: ラッソ法は高度に相関した特徴の存在下で不安定性を示すことが知られている。
本稿では,このジレンマを解決する新しいアプローチであるAccept-Reject Lassoを紹介する。
ARLは、データサブセット間の機能選択のきめ細かい分析を通じて、Accept-Rejectフレームワークを運用する。
- 参考スコア(独自算出の注目度): 5.465098504510676
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Lasso method is known to exhibit instability in the presence of highly correlated features, often leading to an arbitrary selection of predictors. This issue manifests itself in two primary error types: the erroneous omission of features that lack a true substitutable relationship (falsely redundant features) and the inclusion of features with a true substitutable relationship (truly redundant features). Although most existing methods address only one of these challenges, we introduce the Accept-Reject Lasso (ARL), a novel approach that resolves this dilemma. ARL operationalizes an Accept-Reject framework through a fine-grained analysis of feature selection across data subsets. This framework is designed to partition the output of an ensemble method into beneficial and detrimental components through fine-grained analysis. The fundamental challenge for Lasso is that inter-variable correlation obscures the true sources of information. ARL tackles this by first using clustering to identify distinct subset structures within the data. It then analyzes Lasso's behavior across these subsets to differentiate between true and spurious correlations. For truly correlated features, which induce multicollinearity, ARL tends to select a single representative feature and reject the rest to ensure model stability. Conversely, for features linked by spurious correlations, which may vanish in certain subsets, ARL accepts those that Lasso might have incorrectly omitted. The distinct patterns arising from true versus spurious correlations create a divisible separation. By setting an appropriate threshold, our framework can effectively distinguish between these two phenomena, thereby maximizing the inclusion of informative variables while minimizing the introduction of detrimental ones. We illustrate the efficacy of the proposed method through extensive simulation and real-data experiments.
- Abstract(参考訳): ラッソ法は高度に相関した特徴の存在下で不安定性を示すことが知られており、しばしば任意の予測器の選択につながる。
この問題は2つの主要なエラータイプで現れている: 真の置換可能な関係を持たない機能の誤った省略(偽の冗長な特徴)と、真の置換可能な関係を持つ機能(真に冗長な特徴)である。
既存の手法の多くはこれらの課題の1つにのみ対応しているが、我々はこのジレンマを解決する新しいアプローチであるAccept-Reject Lasso (ARL)を導入する。
ARLは、データサブセット間の機能選択のきめ細かい分析を通じて、Accept-Rejectフレームワークを運用する。
このフレームワークは、アンサンブルメソッドの出力を、きめ細かい分析によって有益で有害なコンポーネントに分割するように設計されている。
ラッソの根本的な課題は、変数間の相関が真の情報源を曖昧にすることである。
ARLは、まずクラスタリングを使用してデータ内の異なるサブセット構造を特定することで、この問題に対処する。
その後、ラッソの振る舞いをこれらの部分集合にわたって分析し、真の相関と刺激的な相関を区別する。
マルチコリニティを誘導する真に相関した特徴に対して、ARLは1つの代表的特徴を選択し、残りの特徴を拒絶してモデルの安定性を確保する傾向にある。
逆に、ある部分集合で消える可能性のある急激な相関によって関連付けられた特徴に対して、ARLはラッソが誤って省略したかもしれない特徴を受け入れている。
真と急激な相関から生じる異なるパターンは、区別可能な分離を生み出す。
適切なしきい値を設定することで、この2つの現象を効果的に識別し、有害な現象の導入を最小限に抑えつつ、情報的変数の含意を最大化することができる。
提案手法の有効性をシミュレーションおよび実データ実験により概説する。
関連論文リスト
- From Invariant Representations to Invariant Data: Provable Robustness to Spurious Correlations via Noisy Counterfactual Matching [11.158961763380278]
最近の代替手段はテストタイムデータを活用することで堅牢性を向上させるが、実際にはそのようなデータは利用できないかもしれない。
不変なデータペアとノイズの多い逆ファクトマッチングを活用することで、データ中心のアプローチを取る。
我々は、合成データセット上で検証し、事前訓練されたバックボーン上の線形探索が堅牢性を向上させる実世界のベンチマークを実証する。
論文 参考訳(メタデータ) (2025-05-30T17:42:32Z) - Representation Learning Preserving Ignorability and Covariate Matching for Treatment Effects [18.60804431844023]
観測データから治療効果を推定することは, 隠れたコンバウンディングにより困難である。
隠れた欠点と選択バイアスの両方に対処する共通のフレームワークが欠落している。
論文 参考訳(メタデータ) (2025-04-29T09:33:56Z) - Unsupervised Pairwise Causal Discovery on Heterogeneous Data using Mutual Information Measures [49.1574468325115]
因果発見(Causal Discovery)は、構成変数の統計的性質を分析することで、この問題に取り組む手法である。
教師付き学習によって得られたことに基づいて,現在の(おそらく誤解を招く)ベースライン結果に疑問を呈する。
その結果、堅牢な相互情報測定を用いて、教師なしの方法でこの問題にアプローチする。
論文 参考訳(メタデータ) (2024-08-01T09:11:08Z) - Causal Feature Selection via Transfer Entropy [59.999594949050596]
因果発見は、観察データによる特徴間の因果関係を特定することを目的としている。
本稿では,前向きと後向きの機能選択に依存する新たな因果的特徴選択手法を提案する。
精度および有限サンプルの場合の回帰誤差と分類誤差について理論的に保証する。
論文 参考訳(メタデータ) (2023-10-17T08:04:45Z) - Nonlinear Feature Aggregation: Two Algorithms driven by Theory [45.3190496371625]
現実世界の機械学習アプリケーションは、膨大な機能によって特徴付けられ、計算やメモリの問題を引き起こす。
一般集約関数を用いて特徴量の非線形変換を集約する次元還元アルゴリズム(NonLinCFA)を提案する。
また、アルゴリズムを合成および実世界のデータセット上でテストし、回帰および分類タスクを実行し、競合性能を示す。
論文 参考訳(メタデータ) (2023-06-19T19:57:33Z) - Decorrelate Irrelevant, Purify Relevant: Overcome Textual Spurious
Correlations from a Feature Perspective [47.10907370311025]
自然言語理解(NLU)モデルは、散発的な相関(すなわちデータセットバイアス)に頼る傾向があり、分布内データセットでは高い性能を得るが、分布外データセットでは性能が劣る。
既存のデバイアス法のほとんどは、バイアスのある特徴を持つサンプルを識別し、弱めていることが多い。
サンプルの重み付けは、サンプルの偏りのない部分から学習する際のモデルを妨げる。
本稿では,特徴空間の観点から,微粒な方法でスプリアス相関を除去することを提案する。
論文 参考訳(メタデータ) (2022-02-16T13:23:14Z) - Estimation of Bivariate Structural Causal Models by Variational Gaussian
Process Regression Under Likelihoods Parametrised by Normalising Flows [74.85071867225533]
因果機構は構造因果モデルによって記述できる。
最先端の人工知能の大きな欠点の1つは、説明責任の欠如である。
論文 参考訳(メタデータ) (2021-09-06T14:52:58Z) - Disentangling Observed Causal Effects from Latent Confounders using
Method of Moments [67.27068846108047]
我々は、軽度の仮定の下で、識別性と学習可能性に関する保証を提供する。
我々は,線形制約付き結合テンソル分解に基づく効率的なアルゴリズムを開発し,スケーラブルで保証可能な解を得る。
論文 参考訳(メタデータ) (2021-01-17T07:48:45Z) - Out-of-distribution Generalization via Partial Feature Decorrelation [72.96261704851683]
本稿では,特徴分解ネットワークと対象画像分類モデルとを協調的に最適化する,PFDL(Partial Feature Deorrelation Learning)アルゴリズムを提案する。
実世界のデータセットを用いた実験により,OOD画像分類データセットにおけるバックボーンモデルの精度が向上することを示した。
論文 参考訳(メタデータ) (2020-07-30T05:48:48Z) - A Critical View of the Structural Causal Model [89.43277111586258]
相互作用を全く考慮せずに原因と効果を識別できることが示される。
本稿では,因果モデルの絡み合った構造を模倣する新たな逆行訓練法を提案する。
我々の多次元手法は, 合成および実世界の両方のデータセットにおいて, 文献的手法よりも優れている。
論文 参考訳(メタデータ) (2020-02-23T22:52:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。