Fugu-MT 論文翻訳(概要): Selecting Robust Features for Machine Learning Applications using Multidata Causal Discovery

論文の概要: Selecting Robust Features for Machine Learning Applications using Multidata Causal Discovery

arxiv url: http://arxiv.org/abs/2304.05294v2
Date: Wed, 12 Apr 2023 10:24:40 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-13 10:53:57.222970
Title: Selecting Robust Features for Machine Learning Applications using Multidata Causal Discovery
Title（参考訳）: マルチデータ因果探索を用いた機械学習アプリケーションのためのロバスト特徴の選択
Authors: Saranya Ganesh S., Tom Beucler, Frederick Iat-Hin Tam, Milton S. Gomez, Jakob Runge, and Andreas Gerhardus
Abstract要約: 時系列データセットのアンサンブルを同時に処理するマルチデータ因果的特徴選択手法を提案する。このアプローチでは、Tigramite Pythonパッケージに実装されているPC1またはPCMCIの因果発見アルゴリズムを使用する。この枠組みを西太平洋熱帯サイクロンの統計的強度予測に適用する。
参考スコア（独自算出の注目度）: 7.8814500102882805
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Robust feature selection is vital for creating reliable and interpretable Machine Learning (ML) models. When designing statistical prediction models in cases where domain knowledge is limited and underlying interactions are unknown, choosing the optimal set of features is often difficult. To mitigate this issue, we introduce a Multidata (M) causal feature selection approach that simultaneously processes an ensemble of time series datasets and produces a single set of causal drivers. This approach uses the causal discovery algorithms PC1 or PCMCI that are implemented in the Tigramite Python package. These algorithms utilize conditional independence tests to infer parts of the causal graph. Our causal feature selection approach filters out causally-spurious links before passing the remaining causal features as inputs to ML models (Multiple linear regression, Random Forest) that predict the targets. We apply our framework to the statistical intensity prediction of Western Pacific Tropical Cyclones (TC), for which it is often difficult to accurately choose drivers and their dimensionality reduction (time lags, vertical levels, and area-averaging). Using more stringent significance thresholds in the conditional independence tests helps eliminate spurious causal relationships, thus helping the ML model generalize better to unseen TC cases. M-PC1 with a reduced number of features outperforms M-PCMCI, non-causal ML, and other feature selection methods (lagged correlation, random), even slightly outperforming feature selection based on eXplainable Artificial Intelligence. The optimal causal drivers obtained from our causal feature selection help improve our understanding of underlying relationships and suggest new potential drivers of TC intensification.
Abstract（参考訳）: 信頼性と解釈可能な機械学習(ML)モデルを作成するには、ロバストな機能選択が不可欠だ。ドメイン知識が限られ、基礎となる相互作用が不明な場合に統計的予測モデルを設計する場合、最適な特徴セットを選択することはしばしば困難である。この問題を軽減するために,時系列データセットのアンサンブルを同時に処理し,1組の因果ドライバを生成するマルチデータ(m)因果特徴選択手法を導入する。このアプローチでは、Tigramite Pythonパッケージに実装されているPC1またはPCMCIの因果発見アルゴリズムを使用する。これらのアルゴリズムは条件付き独立テストを利用して因果グラフの一部を推論する。我々の因果的特徴選択手法は、ターゲットを予測するMLモデル(多重線形回帰、ランダムフォレスト)への入力として、残りの因果的特徴を渡す前に因果的特徴リンクをフィルタリングする。我々は,西太平洋熱帯サイクロン (TC) の統計的強度予測に我々の枠組みを適用し,ドライバの正確な選択と次元削減(時間ラグ,垂直レベル,面積拡大)が困難な場合が多い。条件付き独立テストでより厳密な重要性のしきい値を使用することは、スプリアス因果関係を排除するのに役立つ。機能の少ないM-PC1は、M-PCMCI、非因果ML、その他の特徴選択方法(ラベル付き相関、ランダム)よりも優れており、eXplainable Artificial Intelligenceに基づく機能選択よりも若干優れています。因果的特徴の選択から得られた最適な因果的ドライバは、基礎的関係の理解を深め、tc強化の新たな潜在的なドライバを提案するのに役立つ。

関連論文リスト

Causal feature selection framework for stable soft sensor modeling based on time-delayed cross mapping [8.141412943138107]
因果的特徴選択は、産業応用におけるソフトセンサーモデルの性能を向上させることができる。本稿では,時間遅れのクロスマッピングに基づく因果的特徴選択フレームワークを提案する。
論文参考訳（メタデータ） (2026-01-20T15:58:51Z)
Uncertainty-Aware Diagnostics for Physics-Informed Machine Learning [7.677300807530908]
物理インフォームド機械学習(PIML)は、しばしば微分方程式制約の形で、物理データにモデルを適合させるプロセスに統合する。 PIMLモデルの品質を測定するため,PILEスコア(Physical-Informed Log Evidence)を導入する。 PILEは、カーネル帯域幅、最小二乗正規化重み、カーネル関数の選択など、様々なモデルパラメータに対して優れた選択を得られることを示す。
論文参考訳（メタデータ） (2025-10-30T04:05:49Z)
Model Correlation Detection via Random Selection Probing [62.093777777813756]
既存の類似性に基づく手法では、モデルパラメータにアクセスしたり、しきい値なしでスコアを生成する必要がある。本稿では,モデル相関検出を統計的テストとして定式化する仮説テストフレームワークであるランダム選択探索(RSP)を紹介する。 RSPは相関の証拠を定量化する厳密なp-値を生成する。
論文参考訳（メタデータ） (2025-09-29T01:40:26Z)
More is Less: The Pitfalls of Multi-Model Synthetic Preference Data in DPO Safety Alignment [80.04449725137177]
直接選好最適化(DPO)は、人間のフィードバックによる強化学習の、シンプルで効果的な代替手段として登場した。我々の研究は、DPOアライメントに関連する、目覚ましい、安全性に特有な現象を明らかにした。選択されたペアと拒否されたペアに対してのみ自己生成されたレスポンスを使用することで、より強力なモデルからのレスポンスを含む構成を大幅に上回る。
論文参考訳（メタデータ） (2025-04-03T00:36:40Z)
Towards Robust Text Classification: Mitigating Spurious Correlations with Causal Learning [2.7813683000222653]
本稿では,因果関係へのモデル依存を軽減するために,因果相関ロバスト (CCR) を提案する。 CCRは、逆確率重み付け(IPW)損失関数とともに、反ファクト推論に基づく因果的特徴選択法を統合する。グループラベルを持たないメソッド間でのCCRの最先端性能を示し、場合によってはグループラベルを利用するモデルと競合する。
論文参考訳（メタデータ） (2024-11-01T21:29:07Z)
Investigating the Robustness of Counterfactual Learning to Rank Models: A Reproducibility Study [61.64685376882383]
ランク付け学習(CLTR: Counterfactual Learning to rank)は、IRコミュニティにおいて、ログ化された大量のユーザインタラクションデータを活用してランキングモデルをトレーニングする能力において、大きな注目を集めている。本稿では,複雑かつ多様な状況における既存のCLTRモデルのロバスト性について検討する。その結果, DLAモデルとIPS-DCMは, PS-PBMやPSSよりも, オフラインの確率推定による堅牢性が高いことがわかった。
論文参考訳（メタデータ） (2024-04-04T10:54:38Z)
Causal Feature Selection via Transfer Entropy [59.999594949050596]
因果発見は、観察データによる特徴間の因果関係を特定することを目的としている。本稿では,前向きと後向きの機能選択に依存する新たな因果的特徴選択手法を提案する。精度および有限サンプルの場合の回帰誤差と分類誤差について理論的に保証する。
論文参考訳（メタデータ） (2023-10-17T08:04:45Z)
Confidence-Based Model Selection: When to Take Shortcuts for Subpopulation Shifts [119.22672589020394]
モデル信頼度がモデル選択を効果的に導くことができるConfidence-based Model Selection (CosMoS)を提案する。我々はCosMoSを,データ分散シフトのレベルが異なる複数のテストセットを持つ4つのデータセットで評価した。
論文参考訳（メタデータ） (2023-06-19T18:48:15Z)
Flexible variable selection in the presence of missing data [0.0]
本稿では,非パラメトリックな変数選択アルゴリズムと多重計算を組み合わせることで,非ランダムなデータが存在する場合のフレキシブルなパネルの開発を行う。提案手法の動作特性は良好であり,より高い分類性能と可変選択性能を有するパネルが得られた。
論文参考訳（メタデータ） (2022-02-25T21:41:03Z)
Understanding Interlocking Dynamics of Cooperative Rationalization [90.6863969334526]
選択的合理化(Selective rationalization)は、ニューラルネットワークの出力を予測するのに十分な入力の小さなサブセットを見つけることによって、複雑なニューラルネットワークの予測を説明する。このような合理化パラダイムでは,モデルインターロックという大きな問題が浮かび上がっている。 A2Rと呼ばれる新しい合理化フレームワークを提案し、アーキテクチャに第3のコンポーネントを導入し、選択とは対照的にソフトアテンションによって駆動される予測器を提案する。
論文参考訳（メタデータ） (2021-10-26T17:39:18Z)
Model-based micro-data reinforcement learning: what are the crucial model properties and which model to choose? [0.2836066255205732]
我々は,マイクロデータモデルに基づく強化学習(MBRL)に寄与する。マルチモーダルな後続予測を必要とする環境では、混合密度ネットは他のモデルよりも大きなマージンで優れていることがわかった。また、決定論的モデルは同等であり、実際、確率論的モデルよりも一貫して(非目立ったことではないが)優れていることも見出した。
論文参考訳（メタデータ） (2021-07-24T11:38:25Z)
Examining and Combating Spurious Features under Distribution Shift [94.31956965507085]
我々は、最小限の統計量という情報理論の概念を用いて、ロバストで刺激的な表現を定義し、分析する。入力分布のバイアスしか持たない場合でも、モデルはトレーニングデータから急激な特徴を拾い上げることができることを証明しています。分析から着想を得た結果,グループDROは,グループ同士の相関関係を直接考慮しない場合に失敗する可能性が示唆された。
論文参考訳（メタデータ） (2021-06-14T05:39:09Z)
Improving Sample and Feature Selection with Principal Covariates Regression [0.0]
この目的に応用された2つの人気のあるサブセレクション方式に焦点をあてる。対象情報を組み込むことで,教師付きタスクにおいてより優れた選択が可能となることを示す。また、単純な教師付き学習モデルの側面を組み込むことで、より複雑なモデルの精度を向上させることも示します。
論文参考訳（メタデータ） (2020-12-22T18:52:06Z)
Feature Selection for Huge Data via Minipatch Learning [0.0]
安定ミニパッチ選択(STAMPS)と適応STAMPSを提案する。 STAMPSは、データの観測と特徴の両方の小さな(適応性の高い)ランダムなサブセットに基づいて訓練された基本特徴セレクタの選択イベントのアンサンブルを構築するメタアルゴリズムである。われわれのアプローチは一般的であり、様々な機能選択戦略や機械学習技術に応用できる。
論文参考訳（メタデータ） (2020-10-16T17:41:08Z)
Stepwise Model Selection for Sequence Prediction via Deep Kernel Learning [100.83444258562263]
本稿では,モデル選択の課題を解決するために,新しいベイズ最適化(BO)アルゴリズムを提案する。結果として得られる複数のブラックボックス関数の最適化問題を協調的かつ効率的に解くために,ブラックボックス関数間の潜在的な相関を利用する。我々は、シーケンス予測のための段階的モデル選択(SMS)の問題を初めて定式化し、この目的のために効率的な共同学習アルゴリズムを設計し、実証する。
論文参考訳（メタデータ） (2020-01-12T09:42:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。