論文の概要: CACTI: Leveraging Copy Masking and Contextual Information to Improve Tabular Data Imputation
- arxiv url: http://arxiv.org/abs/2506.02306v1
- Date: Mon, 02 Jun 2025 22:50:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.106278
- Title: CACTI: Leveraging Copy Masking and Contextual Information to Improve Tabular Data Imputation
- Title(参考訳): CACTI: タブラルデータインプットを改善するためのコピーマスキングとコンテキスト情報を活用する
- Authors: Aditya Gorla, Ryan Wang, Zhengtong Liu, Ulzee An, Sriram Sankararaman,
- Abstract要約: CACTIは,欠落パターンやコンテキスト情報の構造を生かした,暗黙の自動符号化手法である。
この結果から,データセット固有のコンテキスト情報と欠落パターンを活用して計算性能を向上させることの価値を強調した。
- 参考スコア(独自算出の注目度): 1.6008229267455227
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present CACTI, a masked autoencoding approach for imputing tabular data that leverages the structure in missingness patterns and contextual information. Our approach employs a novel median truncated copy masking training strategy that encourages the model to learn from empirical patterns of missingness while incorporating semantic relationships between features - captured by column names and text descriptions - to better represent feature dependence. These dual sources of inductive bias enable CACTI to outperform state-of-the-art methods - an average $R^2$ gain of 7.8% over the next best method (13.4%, 6.1%, and 5.3% under missing not at random, at random and completely at random, respectively) - across a diverse range of datasets and missingness conditions. Our results highlight the value of leveraging dataset-specific contextual information and missingness patterns to enhance imputation performance.
- Abstract(参考訳): CACTIは,欠落パターンやコンテキスト情報の構造を活かした表層データに対するマスク付き自動符号化手法である。
提案手法では,コラム名とテキスト記述によってキャプチャされた特徴間の意味的関係を組み込んで,機能依存をよりよく表現しながら,欠点の実証的なパターンからモデルを学ぶことを奨励する。
これらの誘導バイアスの二重源により、CACTIは、様々なデータセットと欠落条件において、次のベストメソッド(それぞれ13.4%、6.1%、および5.3%)よりも平均$R^2$ゲイン(平均$7.8%)を上回ります。
この結果から,データセット固有のコンテキスト情報と欠落パターンを活用して計算性能を向上させることの価値を強調した。
関連論文リスト
- MIG: Automatic Data Selection for Instruction Tuning by Maximizing Information Gain in Semantic Space [12.583633720004118]
データ品質と多様性は、効果的な命令チューニングデータセットの構築の鍵となる。
我々は,textbfInformation textbfGain(MIG)を意味空間内で最大化するために,データサンプルを反復的に選択する効率的なサンプリング手法を提案する。
論文 参考訳(メタデータ) (2025-04-18T17:59:46Z) - DeepIFSAC: Deep Imputation of Missing Values Using Feature and Sample Attention within Contrastive Framework [0.0]
最もよく使われる統計的および機械学習の手法は、欠落率が高くランダムではない場合に、不効率である可能性がある。
本稿では,欠落した値を再構築する新しい枠組みにおいて,表データの行と列の注意を機能間およびサンプル間の注意として検討する。
提案手法では,比較学習フレームワーク内でのCutMixデータ拡張を用いて,欠落値推定の不確実性を改善する。
論文 参考訳(メタデータ) (2025-01-19T01:10:18Z) - Enhancing Authorship Attribution through Embedding Fusion: A Novel Approach with Masked and Encoder-Decoder Language Models [0.0]
本稿では,AI生成テキストと人間認証テキストを区別するために,事前学習言語モデルからのテキスト埋め込みを用いた新しいフレームワークを提案する。
提案手法では, Embedding Fusion を用いて複数の言語モデルからの意味情報を統合し,その補完的強みを利用して性能を向上させる。
論文 参考訳(メタデータ) (2024-11-01T07:18:27Z) - M$^3$-Impute: Mask-guided Representation Learning for Missing Value Imputation [12.174699459648842]
M$3$-Imputeは、不足情報や新しいマスキング手法との相関性を明示的に活用することを目的としている。
実験の結果,M$3$-Imputeは平均20点,第2bのMAEスコアが4点であった。
論文 参考訳(メタデータ) (2024-10-11T13:25:32Z) - A Closer Look at Deep Learning Methods on Tabular Datasets [52.50778536274327]
タブラルデータは、機械学習のさまざまな領域で広く使われている。
Deep Neural Network(DNN)ベースの手法は最近、有望なパフォーマンスを実証した。
我々は,32種類の最先端の深部・木質の手法を比較し,その平均性能を複数の基準で評価した。
論文 参考訳(メタデータ) (2024-07-01T04:24:07Z) - A Fixed-Point Approach to Unified Prompt-Based Counting [51.20608895374113]
本研究の目的は,ボックス,ポイント,テキストなど,さまざまなプロンプト型で示されるオブジェクトの密度マップを生成することができる包括的プロンプトベースのカウントフレームワークを確立することである。
本モデルは,クラスに依存しない顕著なデータセットに優れ,データセット間の適応タスクにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-03-15T12:05:44Z) - Debiasing Multimodal Models via Causal Information Minimization [65.23982806840182]
我々は、マルチモーダルデータのための因果グラフにおいて、共同創設者から生じるバイアスを研究する。
ロバストな予測機能は、モデルがアウト・オブ・ディストリビューションデータに一般化するのに役立つ多様な情報を含んでいる。
これらの特徴を共同設立者表現として使用し、因果理論によって動機づけられた手法を用いてモデルからバイアスを取り除く。
論文 参考訳(メタデータ) (2023-11-28T16:46:14Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z) - SCARF: Self-Supervised Contrastive Learning using Random Feature
Corruption [72.35532598131176]
本稿では,特徴のランダムなサブセットを乱してビューを形成するコントラスト学習手法であるSCARFを提案する。
SCARFは既存の戦略を補完し、オートエンコーダのような代替手段より優れていることを示す。
論文 参考訳(メタデータ) (2021-06-29T08:08:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。