論文の概要: Tabular Data Adapters: Improving Outlier Detection for Unlabeled Private Data
- arxiv url: http://arxiv.org/abs/2504.20862v1
- Date: Tue, 29 Apr 2025 15:38:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.964149
- Title: Tabular Data Adapters: Improving Outlier Detection for Unlabeled Private Data
- Title(参考訳): タブラルデータアダプタ: ラベルなしプライベートデータのアウトレーヤ検出の改善
- Authors: Dayananda Herurkar, Jörn Hees, Vesselin Tzvetkov, Andreas Dengel,
- Abstract要約: 本稿では,未ラベルデータに対するソフトラベルを外乱検出タスクで生成するための新しい手法であるTabular Data Adapters (TDA)を紹介する。
当社のアプローチは、パブリックリサーチモデルと実世界の産業アプリケーションとのギャップを埋めるために、スケーラブルで効率的で費用対効果の高いソリューションを提供します。
- 参考スコア(独自算出の注目度): 12.092540602813333
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The remarkable success of Deep Learning approaches is often based and demonstrated on large public datasets. However, when applying such approaches to internal, private datasets, one frequently faces challenges arising from structural differences in the datasets, domain shift, and the lack of labels. In this work, we introduce Tabular Data Adapters (TDA), a novel method for generating soft labels for unlabeled tabular data in outlier detection tasks. By identifying statistically similar public datasets and transforming private data (based on a shared autoencoder) into a format compatible with state-of-the-art public models, our approach enables the generation of weak labels. It thereby can help to mitigate the cold start problem of labeling by basing on existing outlier detection models for public datasets. In experiments on 50 tabular datasets across different domains, we demonstrate that our method is able to provide more accurate annotations than baseline approaches while reducing computational time. Our approach offers a scalable, efficient, and cost-effective solution, to bridge the gap between public research models and real-world industrial applications.
- Abstract(参考訳): ディープラーニングアプローチの顕著な成功は、多くの場合、大規模な公開データセットに基づいて実証されている。
しかしながら、内部的、プライベートなデータセットにそのようなアプローチを適用する場合、データセットの構造的な違い、ドメインシフト、ラベルの欠如から生じる課題にしばしば直面する。
本研究では,未ラベルの表型データに対して,外乱検出タスクでソフトラベルを生成する新しい手法であるTabular Data Adapters (TDA)を紹介する。
統計的に類似した公開データセットを特定し、(共有オートエンコーダに基づく)プライベートデータを最先端の公開モデルと互換性のあるフォーマットに変換することで、我々のアプローチは弱いラベルを生成することができる。
これにより、公開データセットの既存の外れ値検出モデルに基づくラベル付けによるコールドスタート問題の緩和に役立つ。
異なる領域にまたがる50の表付きデータセットの実験において,本手法は,計算時間を短縮しつつ,ベースラインアプローチよりも正確なアノテーションを提供することができることを示した。
当社のアプローチは、パブリックリサーチモデルと実世界の産業アプリケーションとのギャップを埋めるために、スケーラブルで効率的で費用対効果の高いソリューションを提供します。
関連論文リスト
- Do You Really Need Public Data? Surrogate Public Data for Differential Privacy on Tabular Data [10.1687640711587]
これは、プライバシ損失の予算を消費せず、公開スキーマやメタデータからのみ構築される。
大規模言語モデル(LLM)を用いたサロゲート公開データ生成プロセスを自動化する。
特に,CSVファイルとして直接レコード生成を行う方法と,サンプリングのための自動構造因果モデル(SCM)の構築を提案する。
論文 参考訳(メタデータ) (2025-04-19T17:55:10Z) - Maximizing Data Efficiency for Cross-Lingual TTS Adaptation by
Self-Supervised Representation Mixing and Embedding Initialization [57.38123229553157]
本稿では,テキスト音声合成システムにおける言語適応のための効果的な伝達学習フレームワークを提案する。
ラベル付きおよびラベルなしの最小データを用いて言語適応を実現することに注力する。
実験結果から,本フレームワークは,ラベル付きデータの4つの発声とラベル付きデータの15分で,未知の言語で理解不能な音声を合成できることが示唆された。
論文 参考訳(メタデータ) (2024-01-23T21:55:34Z) - Rethinking Pre-Training in Tabular Data: A Neighborhood Embedding Perspective [71.45945607871715]
メタ表現(TabPTM)を用いたタブラルデータ事前学習を提案する。
中心となる考え方は、データインスタンスを共有機能空間に埋め込むことで、各インスタンスは、近隣の固定数とそのラベルまでの距離で表現される。
101データセットの大規模な実験は、微調整の有無にかかわらず、分類タスクと回帰タスクの両方においてTabPTMの有効性を確認した。
論文 参考訳(メタデータ) (2023-10-31T18:03:54Z) - Combining Public Human Activity Recognition Datasets to Mitigate Labeled
Data Scarcity [1.274578243851308]
本稿では,一般公開されたデータセットと一般化されたHARモデルを学習するための新たな戦略を提案する。
我々の実験評価は、さまざまな最先端ニューラルネットワークアーキテクチャの実験を含むもので、公開データセットを組み合わせることで、ラベル付きサンプルの数を著しく削減できることを示している。
論文 参考訳(メタデータ) (2023-06-23T18:51:22Z) - infoVerse: A Universal Framework for Dataset Characterization with
Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。
infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。
実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-30T18:12:48Z) - Deep Active Learning with Budget Annotation [0.0]
本稿では,インスタンスの不確実性と情報性の両方を計算するためのハイブリッドアプローチを提案する。
我々は、これらのモデルにすでに含まれている情報に対する問い合わせを避けるために、最先端の事前訓練モデルを採用する。
論文 参考訳(メタデータ) (2022-07-31T20:20:44Z) - Label-Assemble: Leveraging Multiple Datasets with Partial Labels [68.46767639240564]
Label-Assemble”は、公開データセットのアセンブリから部分的なラベルの可能性を最大限に活用することを目的としている。
陰例からの学習は,コンピュータ支援型疾患の診断と検出の双方を促進することが判明した。
論文 参考訳(メタデータ) (2021-09-25T02:48:17Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z) - Adversarial Knowledge Transfer from Unlabeled Data [62.97253639100014]
本稿では,インターネット規模の未ラベルデータから知識を伝達し,分類器の性能を向上させるための新しいAdversarial Knowledge Transferフレームワークを提案する。
我々の手法の重要な新しい側面は、ラベル付けされていないソースデータは、ラベル付けされたターゲットデータと異なるクラスであることができ、個別のプリテキストタスクを定義する必要がないことである。
論文 参考訳(メタデータ) (2020-08-13T08:04:27Z) - Low-Budget Label Query through Domain Alignment Enforcement [48.06803561387064]
我々は低予算ラベルクエリと呼ばれる新しい問題に取り組む。
まず、ソースとターゲットドメインの整合性を改善するために、Unsupervised Domain Adaptation (UDA) 法を改善します。
そこで我々は,予測整合分布の均一サンプリングに基づく簡易かつ効果的な選択法を提案する。
論文 参考訳(メタデータ) (2020-01-01T16:52:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。