論文の概要: Chromatic Learning for Sparse Datasets
- arxiv url: http://arxiv.org/abs/2006.03779v1
- Date: Sat, 6 Jun 2020 04:32:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 20:55:57.428489
- Title: Chromatic Learning for Sparse Datasets
- Title(参考訳): スパースデータセットのクロマティック学習
- Authors: Vladimir Feinberg and Peter Bailis
- Abstract要約: スパースで高次元のデータを学習するための、高度にスケーラブルな代替手法を設計する。
我々はこれをクロマティックラーニング(CL)と呼び、特徴の共起グラフ上でグラフカラー化を行うことにより、低次元の高密度特徴表現を得る。
共起グラフの構造特性を活用することで、CLはKDDカップ2012のような5000万以上の特徴を含むスパースデータセットを1024まで圧縮することができる。
- 参考スコア(独自算出の注目度): 12.949498753914277
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning over sparse, high-dimensional data frequently necessitates the use
of specialized methods such as the hashing trick. In this work, we design a
highly scalable alternative approach that leverages the low degree of feature
co-occurrences present in many practical settings. This approach, which we call
Chromatic Learning (CL), obtains a low-dimensional dense feature representation
by performing graph coloring over the co-occurrence graph of features---an
approach previously used as a runtime performance optimization for GBDT
training. This color-based dense representation can be combined with additional
dense categorical encoding approaches, e.g., submodular feature compression, to
further reduce dimensionality. CL exhibits linear parallelizability and
consumes memory linear in the size of the co-occurrence graph. By leveraging
the structural properties of the co-occurrence graph, CL can compress sparse
datasets, such as KDD Cup 2012, that contain over 50M features down to 1024,
using an order of magnitude fewer features than frequency-based truncation and
the hashing trick while maintaining the same test error for linear models. This
compression further enables the use of deep networks in this wide, sparse
setting, where CL similarly has favorable performance compared to existing
baselines for budgeted input dimension.
- Abstract(参考訳): スパースで高次元のデータを学習するには、しばしばハッシュトリックのような特殊な方法を使う必要がある。
本研究では,多くの実践的な環境において,機能共起の程度を低くする,スケーラブルな代替手法を設計する。
この手法はクロマティックラーニング(CL)と呼ばれ、GBDTトレーニングの実行時性能最適化として以前用いられていた手法である特徴の共起グラフ上でグラフカラー化を行うことにより、低次元の高密度特徴表現を得る。
この色に基づく濃密表現は、さらに次元性を減らすために、例えば亜モジュラー特徴圧縮のような、より密なカテゴリエンコーディングアプローチと組み合わせることができる。
CLは線形並列性を示し、共起グラフのサイズでメモリを線形に消費する。
共起グラフの構造的特性を活用することで、clは、線形モデルの同じテストエラーを維持しながら、周波数ベースのトランザクションやハッシュトリックよりも桁違いに少ない特徴を用いて、50m以上の機能を1024まで含むkdd cup 2012のようなスパースデータセットを圧縮することができる。
この圧縮により、この幅の広いスパース設定でのディープネットワークの利用も可能となり、CLは予算化された入力次元の既存のベースラインと同等の性能を持つ。
関連論文リスト
- Scalable Graph Compressed Convolutions [68.85227170390864]
ユークリッド畳み込みのための入力グラフのキャリブレーションに置換を適用する微分可能手法を提案する。
グラフキャリブレーションに基づいて,階層型グラフ表現学習のための圧縮畳み込みネットワーク(CoCN)を提案する。
論文 参考訳(メタデータ) (2024-07-26T03:14:13Z) - CiliaGraph: Enabling Expression-enhanced Hyper-Dimensional Computation in Ultra-Lightweight and One-Shot Graph Classification on Edge [1.8726646412385333]
CiliaGraphはグラフ分類のための拡張表現型だが超軽量なHDCモデルである。
CiliaGraphはメモリ使用量を削減し、トレーニング速度を平均292倍に高速化する。
論文 参考訳(メタデータ) (2024-05-29T12:22:59Z) - Low-Resource Crop Classification from Multi-Spectral Time Series Using Lossless Compressors [6.379065975644869]
深層学習は多スペクトル時間データを用いた作物分類の精度を大幅に向上させた。
ラベル付きサンプルが少ない低リソース環境では、深層学習モデルは不十分なデータのために性能が悪い。
本稿では,これらの状況に対処するために,ディープラーニングモデルに代わる非学習的代替案を提案する。
論文 参考訳(メタデータ) (2024-05-28T12:28:12Z) - StructComp: Substituting Propagation with Structural Compression in Training Graph Contrastive Learning [22.485016981572095]
この問題に対処するために,構造圧縮(StructComp)と呼ばれるシンプルで効果的なトレーニングフレームワークを提案する。
拡散行列上の疎低ランク近似にインスパイアされたStructCompは、圧縮ノードでエンコーダを訓練する。
理論的には、元のGCL損失はStructCompによって計算された対照的な損失と近似できる。
論文 参考訳(メタデータ) (2023-12-08T06:46:18Z) - MeanCut: A Greedy-Optimized Graph Clustering via Path-based Similarity
and Degree Descent Criterion [0.6906005491572401]
スペクトルクラスタリングは、優れたパフォーマンス、簡単な実装、強力な適応性のために人気があり、魅力的です。
我々は,MeanCutを目的関数として提案し,非破壊グラフ分割の次数降下順で厳密に最適化する。
本アルゴリズムの有効性は,実世界のベンチマークによる検証と顔認識の適用によって実証される。
論文 参考訳(メタデータ) (2023-12-07T06:19:39Z) - Sparse Training of Discrete Diffusion Models for Graph Generation [45.103518022696996]
SparseDiffは、ほとんど全ての大きなグラフがスパースであるという観察に基づく、新しい拡散モデルである。
エッジのサブセットを選択することで、SparseDiffは、ノイズ発生過程とノイズ発生ネットワーク内のスパースグラフ表現を効果的に活用する。
本モデルでは,小規模・大規模両方のデータセットにおいて,複数のメトリクスにわたる最先端性能を示す。
論文 参考訳(メタデータ) (2023-11-03T16:50:26Z) - RGM: A Robust Generalizable Matching Model [49.60975442871967]
RGM(Robust Generalist Matching)と呼ばれる疎密マッチングのための深部モデルを提案する。
合成トレーニングサンプルと実世界のシナリオのギャップを狭めるために、我々は、疎対応基盤真理を持つ新しい大規模データセットを構築した。
さまざまな密集したスパースなデータセットを混ぜ合わせることができ、トレーニングの多様性を大幅に改善しています。
論文 参考訳(メタデータ) (2023-10-18T07:30:08Z) - EGRC-Net: Embedding-induced Graph Refinement Clustering Network [66.44293190793294]
埋め込みによるグラフリファインメントクラスタリングネットワーク (EGRC-Net) という新しいグラフクラスタリングネットワークを提案する。
EGRC-Netは学習した埋め込みを利用して初期グラフを適応的に洗練し、クラスタリング性能を向上させる。
提案手法はいくつかの最先端手法より一貫して優れている。
論文 参考訳(メタデータ) (2022-11-19T09:08:43Z) - Scaling Structured Inference with Randomization [64.18063627155128]
本稿では、構造化されたモデルを数万の潜在状態に拡張するためにランダム化された動的プログラミング(RDP)のファミリを提案する。
我々の手法は古典的DPベースの推論に広く適用できる。
また、自動微分とも互換性があり、ニューラルネットワークとシームレスに統合できる。
論文 参考訳(メタデータ) (2021-12-07T11:26:41Z) - RGB-D Saliency Detection via Cascaded Mutual Information Minimization [122.8879596830581]
既存のRGB-Dサリエンシ検出モデルは、RGBと深さを効果的にマルチモーダル学習を実現するために明示的に奨励するものではない。
本稿では,RGB画像と深度データ間のマルチモーダル情報を「明示的」にモデル化するために,相互情報最小化による新しい多段階学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-15T12:31:27Z) - Learning Optical Flow from a Few Matches [67.83633948984954]
密な相関体積表現は冗長であり、その中の要素のほんの一部で正確なフロー推定が達成できることを示した。
実験により,高い精度を維持しつつ計算コストとメモリ使用量を大幅に削減できることを示した。
論文 参考訳(メタデータ) (2021-04-05T21:44:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。