論文の概要: Are Deep Image Embedding Clustering Methods Effective for Heterogeneous
Tabular Data?
- arxiv url: http://arxiv.org/abs/2212.14111v1
- Date: Wed, 28 Dec 2022 22:29:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 15:01:24.437867
- Title: Are Deep Image Embedding Clustering Methods Effective for Heterogeneous
Tabular Data?
- Title(参考訳): 深部画像埋め込みクラスタリングはヘテロジニアスな表データに有効か?
- Authors: Sakib Abrar and Manar D. Samad
- Abstract要約: 本稿では,画像データセットに対して提案した6つの最先端ベースライン手法を用いて,7つのデータセットのディープ埋め込みクラスタリングに関する最初の研究の1つを実行する。
従来のグラフデータのクラスタリングは8つのメソッドのうち2位にランクされ、最も深いクラスタリングベースラインよりも優れている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Deep learning methods in the literature are invariably benchmarked on image
data sets and then assumed to work on all data problems. Unfortunately,
architectures designed for image learning are often not ready or optimal for
non-image data without considering data-specific learning requirements. In this
paper, we take a data-centric view to argue that deep image embedding
clustering methods are not equally effective on heterogeneous tabular data
sets. This paper performs one of the first studies on deep embedding clustering
of seven tabular data sets using six state-of-the-art baseline methods proposed
for image data sets. Our results reveal that the traditional clustering of
tabular data ranks second out of eight methods and is superior to most deep
embedding clustering baselines. Our observation is in line with the recent
literature that traditional machine learning of tabular data is still a
competitive approach against deep learning. Although surprising to many deep
learning researchers, traditional clustering methods can be competitive
baselines for tabular data, and outperforming these baselines remains a
challenge for deep embedding clustering. Therefore, deep learning methods for
image learning may not be fair or suitable baselines for tabular data without
considering data-specific contrasts and learning requirements.
- Abstract(参考訳): 文学におけるディープラーニングの手法は、画像データセット上で常にベンチマークされ、すべてのデータ問題に取り組むと仮定される。
残念なことに、画像学習用に設計されたアーキテクチャは、データ固有の学習要件を考慮せずに、非画像データに対して準備や最適化ができていないことが多い。
本稿では,深部画像埋め込みクラスタリング手法が不均質な表型データセットに対して等しく有効であるとは言い難い,データ中心の考え方を述べる。
本稿では,画像データセットに対して提案した6つの最先端ベースライン手法を用いて,7つの表層データセットの深層埋め込みクラスタリングに関する最初の研究を行う。
その結果,従来のグラフデータのクラスタリングは8つの手法のうち2位であり,最も深いクラスタリングベースラインよりも優れていることがわかった。
私たちの観察は、従来の表型データの機械学習は依然としてディープラーニングに対する競争的アプローチである、という最近の文献と一致しています。
多くのディープラーニング研究者にとって驚くべきことだが、従来のクラスタリング手法は表形式のデータに対して競争力のあるベースラインになり得る。
したがって、画像学習のためのディープラーニング手法は、データ固有のコントラストや学習要件を考慮せずに、表データに対して公平あるいは適切なベースラインであるとは限らない。
関連論文リスト
- Attention versus Contrastive Learning of Tabular Data -- A Data-centric
Benchmarking [0.0]
本稿では,28データセットの幅広い選択に対して,最先端の注意と対照的な学習手法を広く評価する。
ハイブリット・アテンション・コントラストの学習戦略は、主に分類が難しいデータセットに勝っている。
従来の手法は、おそらくより単純な決定境界を持つデータセットを分類しやすくするのにしばしば優れている。
論文 参考訳(メタデータ) (2024-01-08T22:36:05Z) - Exploring Data Redundancy in Real-world Image Classification through
Data Selection [20.389636181891515]
ディープラーニングモデルはトレーニングに大量のデータを必要とすることが多く、結果としてコストが増大する。
実世界の画像データの冗長性を調べるために,シナプスインテリジェンスと勾配ノルムに基づく2つのデータ評価指標を提案する。
オンラインおよびオフラインのデータ選択アルゴリズムは、検査されたデータ値に基づいてクラスタリングとグループ化によって提案される。
論文 参考訳(メタデータ) (2023-06-25T03:31:05Z) - Data-Free Sketch-Based Image Retrieval [56.96186184599313]
本研究では,事前学習された単一モダリティ分類モデルを用いて,学習データにアクセスせずに検索のためのクロスモーダルな距離空間を学習するData-Free (DF)-SBIRを提案する。
本稿では、写真やスケッチの分類を行うために、独立して訓練されたモデルからの知識を活用できるDF-SBIRの方法論を提案する。
また、トレーニングデータを必要としないデータ依存アプローチと競合するmAPを実現する。
論文 参考訳(メタデータ) (2023-03-14T10:34:07Z) - Semi-Supervised Image Captioning by Adversarially Propagating Labeled
Data [95.0476489266988]
本稿では、画像キャプションモデルの一般化を改善するための、新しいデータ効率半教師付きフレームワークを提案する。
提案手法は,キャプタにペアデータから学習し,段階的に未ペアデータの関連付けを行うよう訓練する。
1)画像ベースと(2)高密度領域ベースキャプションデータセットの両方を総合的かつ包括的な実験結果とし,それに続いて,少ないペアリングデータセットの包括的分析を行った。
論文 参考訳(メタデータ) (2023-01-26T15:25:43Z) - Deep Clustering of Tabular Data by Weighted Gaussian Distribution Learning [0.0]
本稿では,自動エンコーダ遅延空間(G-CEALS)におけるガウスクラスタ埋め込みという,表型データのための最初のディープクラスタリング手法の1つを開発する。
G-CEALS法は、クラスタリング精度に基づいて平均ランク順を2.9(1.7)と2.8(1.7)とし、16のデータセット上で調整されたRand index(ARI)スコアをそれぞれ示し、9つの最先端クラスタリング法より優れている。
論文 参考訳(メタデータ) (2023-01-02T18:45:53Z) - Is margin all you need? An extensive empirical study of active learning
on tabular data [66.18464006872345]
我々は,OpenML-CC18ベンチマークを用いて,69の実世界のデータセット上での各種能動学習アルゴリズムの性能を解析した。
意外なことに、古典的なマージンサンプリング技術は、現在の最先端技術を含む、他のすべてのものよりも優れている。
論文 参考訳(メタデータ) (2022-10-07T21:18:24Z) - Deep Neural Networks and Tabular Data: A Survey [6.940394595795544]
この研究は、表形式のデータに対する最先端のディープラーニング手法の概要を提供する。
データ変換、特殊なアーキテクチャ、正規化モデルという3つのグループに分類することから始めます。
次に、各グループの主なアプローチについて概観する。
論文 参考訳(メタデータ) (2021-10-05T09:22:39Z) - Tune It or Don't Use It: Benchmarking Data-Efficient Image
Classification [9.017660524497389]
様々な領域にまたがる6つの多様なデータセットからなるデータ効率画像分類のためのベンチマークを設計する。
我々は、2017年から2021年にかけて、標準のクロスエントロピーベースラインとデータ効率の高いディープラーニングの8つの手法を再評価した。
学習率、ウェイト崩壊、バッチサイズを個別の検証で調整すると、高い競争力を持つベースラインとなる。
論文 参考訳(メタデータ) (2021-08-30T11:24:51Z) - Learning Topology from Synthetic Data for Unsupervised Depth Completion [66.26787962258346]
画像から高密度深度マップとスパース深度測定を推定する手法を提案する。
我々は,疎点雲と密度の高い自然形状の関係を学習し,その画像を用いて予測深度マップの検証を行う。
論文 参考訳(メタデータ) (2021-06-06T00:21:12Z) - Data Consistent CT Reconstruction from Insufficient Data with Learned
Prior Images [70.13735569016752]
偽陰性病変と偽陽性病変を呈示し,CT画像再構成における深層学習の堅牢性について検討した。
本稿では,圧縮センシングと深層学習の利点を組み合わせた画像品質向上のためのデータ一貫性再構築手法を提案する。
提案手法の有効性は,円錐ビームCTにおいて,トランキャットデータ,リミテッドアングルデータ,スパースビューデータで示される。
論文 参考訳(メタデータ) (2020-05-20T13:30:49Z) - Automatically Discovering and Learning New Visual Categories with
Ranking Statistics [145.89790963544314]
我々は,他のクラスをラベル付けした画像コレクションにおいて,新しいクラスを発見する問題に対処する。
汎用クラスタリングモデルを学び、後者を用いて、非競合データ中の新しいクラスを識別する。
我々は,標準分類ベンチマークに対するアプローチと,新しいカテゴリー発見法の性能を,有意なマージンで評価した。
論文 参考訳(メタデータ) (2020-02-13T18:53:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。