論文の概要: Towards Better Modeling with Missing Data: A Contrastive Learning-based
Visual Analytics Perspective
- arxiv url: http://arxiv.org/abs/2309.09744v1
- Date: Mon, 18 Sep 2023 13:16:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 13:21:58.460064
- Title: Towards Better Modeling with Missing Data: A Contrastive Learning-based
Visual Analytics Perspective
- Title(参考訳): 欠落データによるモデリングの改善に向けて - コントラスト学習に基づくビジュアル分析の観点から
- Authors: Laixin Xie, Yang Ouyang, Longfei Chen, Ziming Wu, Quan Li
- Abstract要約: データ不足は機械学習(ML)モデリングの課題となる可能性がある。
現在のアプローチは、特徴計算とラベル予測に分類される。
本研究は、観測データに欠落した値でモデル化するコントラスト学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 7.577040836988683
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Missing data can pose a challenge for machine learning (ML) modeling. To
address this, current approaches are categorized into feature imputation and
label prediction and are primarily focused on handling missing data to enhance
ML performance. These approaches rely on the observed data to estimate the
missing values and therefore encounter three main shortcomings in imputation,
including the need for different imputation methods for various missing data
mechanisms, heavy dependence on the assumption of data distribution, and
potential introduction of bias. This study proposes a Contrastive Learning (CL)
framework to model observed data with missing values, where the ML model learns
the similarity between an incomplete sample and its complete counterpart and
the dissimilarity between other samples. Our proposed approach demonstrates the
advantages of CL without requiring any imputation. To enhance interpretability,
we introduce CIVis, a visual analytics system that incorporates interpretable
techniques to visualize the learning process and diagnose the model status.
Users can leverage their domain knowledge through interactive sampling to
identify negative and positive pairs in CL. The output of CIVis is an optimized
model that takes specified features and predicts downstream tasks. We provide
two usage scenarios in regression and classification tasks and conduct
quantitative experiments, expert interviews, and a qualitative user study to
demonstrate the effectiveness of our approach. In short, this study offers a
valuable contribution to addressing the challenges associated with ML modeling
in the presence of missing data by providing a practical solution that achieves
high predictive accuracy and model interpretability.
- Abstract(参考訳): データ不足は機械学習(ML)モデリングの課題となる可能性がある。
これを解決するために、現在のアプローチは特徴計算とラベル予測に分類され、主にMLのパフォーマンスを向上させるために欠落データを扱うことに重点を置いている。
これらのアプローチは観測されたデータに依存して欠落した値を推定するので、様々な欠落したデータメカニズムに対する異なるインプテーション法の必要性、データ分布の仮定への重依存、バイアスの導入の可能性など、インプテーションの3つの主な欠点に遭遇する。
本研究では,不完全サンプルとその完全サンプルとの類似性と,他のサンプルとの類似性をmlモデルが学習する,観測データに欠落した値をモデル化するためのコントラスト学習(cl)フレームワークを提案する。
提案手法は計算を必要とせずにCLの利点を示す。
解釈可能性を高めるために,解釈可能な手法を取り入れた視覚分析システムCIVisを導入し,学習過程を可視化し,モデルの状態を診断する。
ユーザは対話的なサンプリングを通じてドメイン知識を活用して、CL内の負のペアと正のペアを特定することができる。
CIVisの出力は、特定の機能を取り、下流タスクを予測する最適化モデルである。
回帰・分類作業における2つの利用シナリオを提供し,定量的実験,専門家インタビュー,質的なユーザスタディを行い,提案手法の有効性を実証する。
この研究は、予測精度とモデル解釈可能性を達成する実用的なソリューションを提供することにより、欠落データの存在下でのMLモデリングに関連する課題に対処するための貴重な貢献を提供する。
関連論文リスト
- A prediction and behavioural analysis of machine learning methods for
modelling travel mode choice [0.26249027950824505]
我々は、モデル選択に影響を及ぼす可能性のある重要な要因の観点から、複数のモデリング問題に対して異なるモデリングアプローチを体系的に比較する。
その結果,非凝集性予測性能が最も高いモデルでは,行動指標やアグリゲーションモードのシェアが低下することが示唆された。
MNLモデルは様々な状況において堅牢に機能するが、ML手法はWillingness to Payのような行動指標の推定を改善することができる。
論文 参考訳(メタデータ) (2023-01-11T11:10:32Z) - Empirical Analysis of Model Selection for Heterogeneous Causal Effect
Estimation [28.408998847597882]
因果推論におけるモデル選択の問題,特に2次的治療下での条件平均治療効果(CATE)推定について検討した。
機械学習におけるモデル選択とは異なり、あらゆるデータポイントに対する反実的ポテンシャルの結果が観察されないため、クロスバリデーションの完全な類似は存在しない。
論文 参考訳(メタデータ) (2022-11-03T16:26:06Z) - Using Explainable Boosting Machine to Compare Idiographic and Nomothetic
Approaches for Ecological Momentary Assessment Data [2.0824228840987447]
本稿では,非線形解釈型機械学習(ML)モデルを用いた分類問題について検討する。
木々の様々なアンサンブルは、不均衡な合成データセットと実世界のデータセットを用いて線形モデルと比較される。
2つの実世界のデータセットのうちの1つで、知識蒸留法は改善されたAUCスコアを達成する。
論文 参考訳(メタデータ) (2022-04-04T17:56:37Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z) - Discriminative Multimodal Learning via Conditional Priors in Generative
Models [21.166519800652047]
本研究は,モデルトレーニングにおいて,すべてのモダリティとクラスラベルが利用できる現実的なシナリオについて研究する。
このシナリオでは、変動的な下界境界は、結合表現と欠測モダリティの間の相互情報を制限する。
論文 参考訳(メタデータ) (2021-10-09T17:22:24Z) - Towards Open-World Feature Extrapolation: An Inductive Graph Learning
Approach [80.8446673089281]
グラフ表現と学習を伴う新しい学習パラダイムを提案する。
本フレームワークは,1) 下位モデルとしてのバックボーンネットワーク(フィードフォワードニューラルネットなど)が,予測ラベルの入力および出力として機能を取り,2) 上位モデルとしてのグラフニューラルネットワークが,観測データから構築された特徴データグラフをメッセージパッシングすることで,新機能の埋め込みを外挿することを学ぶ。
論文 参考訳(メタデータ) (2021-10-09T09:02:45Z) - Accurate and Robust Feature Importance Estimation under Distribution
Shifts [49.58991359544005]
PRoFILEは、新しい特徴重要度推定法である。
忠実さと頑健さの両面で、最先端のアプローチよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-09-30T05:29:01Z) - Causal Feature Selection for Algorithmic Fairness [61.767399505764736]
データ管理の統合コンポーネントにおける公平性について検討する。
本稿では,データセットの公平性を保証する特徴のサブコレクションを同定する手法を提案する。
論文 参考訳(メタデータ) (2020-06-10T20:20:10Z) - How Training Data Impacts Performance in Learning-based Control [67.7875109298865]
本稿では,トレーニングデータの密度と制御性能の関係を考察する。
データセットの品質尺度を定式化し、$rho$-gap と呼ぶ。
フィードバック線形化制御法に$rho$-gapを適用する方法を示す。
論文 参考訳(メタデータ) (2020-05-25T12:13:49Z) - Task-Feature Collaborative Learning with Application to Personalized
Attribute Prediction [166.87111665908333]
本稿では,TFCL(Task-Feature Collaborative Learning)と呼ばれる新しいマルチタスク学習手法を提案する。
具体的には、まず、特徴とタスクの協調的なグループ化を活用するために、不均一なブロック対角構造正規化器を用いたベースモデルを提案する。
実際の拡張として,重なり合う機能と難易度を区別することで,基本モデルを拡張します。
論文 参考訳(メタデータ) (2020-04-29T02:32:04Z) - Data and Model Dependencies of Membership Inference Attack [13.951470844348899]
我々は、データとMLモデル特性の両方がMIAに対するML手法の脆弱性に与える影響を実証分析する。
この結果から,MIAの精度とデータセットの特性と使用中のトレーニングモデルとの関係が明らかになった。
我々は,これらのデータとモデル特性をレギュレータとして利用し,MLモデルをMIAに対して保護することを提案する。
論文 参考訳(メタデータ) (2020-02-17T09:35:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。