論文の概要: Data Imputation by Pursuing Better Classification: A Supervised Kernel-Based Method
- arxiv url: http://arxiv.org/abs/2405.07800v2
- Date: Tue, 9 Jul 2024 13:54:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-10 23:21:23.718835
- Title: Data Imputation by Pursuing Better Classification: A Supervised Kernel-Based Method
- Title(参考訳): 分類精度の向上によるデータインプット:カーネル法を改良した手法
- Authors: Ruikai Yang, Fan He, Mingzhen He, Kaijie Wang, Xiaolin Huang,
- Abstract要約: 本稿では, 監視情報を効果的に活用し, 欠落したデータを分類する手法を提案する。
我々のアルゴリズムは、データの60%以上が欠落している場合、他の手法よりもはるかに優れています。
- 参考スコア(独自算出の注目度): 23.16359277296206
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data imputation, the process of filling in missing feature elements for incomplete data sets, plays a crucial role in data-driven learning. A fundamental belief is that data imputation is helpful for learning performance, and it follows that the pursuit of better classification can guide the data imputation process. While some works consider using label information to assist in this task, their simplistic utilization of labels lacks flexibility and may rely on strict assumptions. In this paper, we propose a new framework that effectively leverages supervision information to complete missing data in a manner conducive to classification. Specifically, this framework operates in two stages. Firstly, it leverages labels to supervise the optimization of similarity relationships among data, represented by the kernel matrix, with the goal of enhancing classification accuracy. To mitigate overfitting that may occur during this process, a perturbation variable is introduced to improve the robustness of the framework. Secondly, the learned kernel matrix serves as additional supervision information to guide data imputation through regression, utilizing the block coordinate descent method. The superiority of the proposed method is evaluated on four real-world data sets by comparing it with state-of-the-art imputation methods. Remarkably, our algorithm significantly outperforms other methods when the data is missing more than 60\% of the features
- Abstract(参考訳): 不完全なデータセットに欠落する特徴要素を埋めるデータ計算は、データ駆動学習において重要な役割を果たす。
基本的信念は、データ計算はパフォーマンスを学ぶのに有用であり、より良い分類の追求はデータ計算過程を導くことができるというものである。
このタスクを支援するためにラベル情報を利用することを検討する研究もあるが、ラベルの単純利用は柔軟性に欠けており、厳密な仮定に依存する可能性がある。
本稿では, 監視情報を効果的に活用し, 欠落したデータを分類する手法を提案する。
具体的には、このフレームワークは2つの段階で動作します。
まず、ラベルを利用して、カーネル行列で表されるデータ間の類似性関係の最適化を監督し、分類精度を向上する。
このプロセス中に発生するオーバーフィッティングを軽減するために、フレームワークの堅牢性を改善するために摂動変数が導入された。
第二に、学習されたカーネル行列は、ブロック座標降下法を利用して、回帰を通じてデータ計算を導くための追加の監視情報として機能する。
提案手法の優位性を4つの実世界のデータセットで評価し,最先端の計算手法と比較した。
注目すべきは、我々のアルゴリズムは、データが60倍以上の特徴を欠いている場合、他の手法よりもはるかに優れています。
関連論文リスト
- Enhancing Hyperspectral Image Prediction with Contrastive Learning in Low-Label Regime [0.810304644344495]
自己教師付きコントラスト学習は、限られたラベル付きデータの課題に対処するための効果的なアプローチである。
単一ラベルと複数ラベルの分類タスクに対して,本手法の性能を評価する。
論文 参考訳(メタデータ) (2024-10-10T10:20:16Z) - Incremental Self-training for Semi-supervised Learning [56.57057576885672]
ISTは単純だが有効であり、既存の自己学習に基づく半教師あり学習手法に適合する。
提案したISTを5つのデータセットと2種類のバックボーンで検証し,認識精度と学習速度を効果的に向上させる。
論文 参考訳(メタデータ) (2024-04-14T05:02:00Z) - XAL: EXplainable Active Learning Makes Classifiers Better Low-resource Learners [71.8257151788923]
低リソーステキスト分類のための新しい説明可能なアクティブラーニングフレームワーク(XAL)を提案する。
XALは分類器に対して、推論を正当化し、合理的な説明ができないラベルのないデータを掘り下げることを推奨している。
6つのデータセットの実験では、XALは9つの強いベースラインに対して一貫した改善を達成している。
論文 参考訳(メタデータ) (2023-10-09T08:07:04Z) - GEDI: A Graph-based End-to-end Data Imputation Framework [3.5478302034537705]
提案手法はトランスフォーマーネットワークとグラフ構造学習を用いて,観測における特徴と類似点間の文脈的関係を反復的に洗練する。
メタラーニングフレームワークを使用して、下流の予測タスクに影響を及ぼす機能を選択する。
実世界の大規模データセットで実験を行い,提案した計算プロセスが一貫して計算性能とラベル予測性能を向上させることを示す。
論文 参考訳(メタデータ) (2022-08-13T05:16:40Z) - Bi-level Alignment for Cross-Domain Crowd Counting [113.78303285148041]
現在の手法は、補助的なタスクを訓練したり、高価な粗大な見積もりを適用したりするための外部データに依存している。
そこで我々は, 簡易かつ効率的に適用可能な, 逆学習に基づく新しい手法を開発した。
実世界の5つのクラウドカウントベンチマークに対するアプローチを評価し、既存のアプローチを大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-05-12T02:23:25Z) - Active Weighted Aging Ensemble for Drifted Data Stream Classification [2.277447144331876]
概念ドリフトは分類モデルの性能を不安定化し、その品質を著しく低下させる。
提案手法は実データストリームと実データストリームの両方を用いて計算機実験により評価されている。
その結果,提案アルゴリズムは最先端手法よりも高品質であることが確認された。
論文 参考訳(メタデータ) (2021-12-19T13:52:53Z) - Highly Efficient Representation and Active Learning Framework for
Imbalanced Data and its Application to COVID-19 X-Ray Classification [0.7829352305480284]
胸部X線を分類するためのデータ効率の高い分類および能動的学習フレームワークを提案する。
これは(1)畳み込みニューラルネットワークの教師なし表現学習と(2)ガウス過程法に基づいている。
利用可能なラベルのトレーニングから正確性に到達するには、ラベル付きデータの10%の$simしか必要ありません。
論文 参考訳(メタデータ) (2021-02-25T02:48:59Z) - Sequential Targeting: an incremental learning approach for data
imbalance in text classification [7.455546102930911]
不均衡なデータセットを扱う方法は、分散スキューを軽減するために不可欠である。
本稿では,提案手法の有効性によらず,新たなトレーニング手法であるシーケンスターゲティング(ST)を提案する。
シミュレーションベンチマークデータセット(IMDB)とNAVERから収集したデータを用いて,本手法の有効性を示す。
論文 参考訳(メタデータ) (2020-11-20T04:54:00Z) - Fast Few-Shot Classification by Few-Iteration Meta-Learning [173.32497326674775]
数ショット分類のための高速な最適化に基づくメタラーニング手法を提案する。
我々の戦略はメタ学習において学習すべき基礎学習者の目的の重要な側面を可能にする。
我々は、我々のアプローチの速度と効果を実証し、総合的な実験分析を行う。
論文 参考訳(メタデータ) (2020-10-01T15:59:31Z) - Semi-Supervised Learning with Meta-Gradient [123.26748223837802]
半教師付き学習における簡単なメタ学習アルゴリズムを提案する。
その結果,提案アルゴリズムは最先端の手法に対して良好に動作することがわかった。
論文 参考訳(メタデータ) (2020-07-08T08:48:56Z) - Learning with Out-of-Distribution Data for Audio Classification [60.48251022280506]
我々は,OODインスタンスを破棄するよりも,特定のOODインスタンスを検出・復号化することで,学習に肯定的な影響を及ぼすことを示す。
提案手法は,畳み込みニューラルネットワークの性能を著しく向上させる。
論文 参考訳(メタデータ) (2020-02-11T21:08:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。