論文の概要: On Geodesic Distances and Contextual Embedding Compression for Text
Classification
- arxiv url: http://arxiv.org/abs/2104.11295v1
- Date: Thu, 22 Apr 2021 19:30:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-26 21:00:07.438963
- Title: On Geodesic Distances and Contextual Embedding Compression for Text
Classification
- Title(参考訳): テキスト分類における測地距離と文脈埋め込み圧縮について
- Authors: Rishi Jha and Kai Mihata
- Abstract要約: メモリ制限のある設定では、より小さなコンテキスト埋め込みを持つことが有利である。
コンテクスト埋め込みデータを多様体に投影し、非線形次元還元技術を用いてこれらの埋め込みを圧縮する効果を検討する。
特に,isomapとpcaの組み合わせを適用した新しい後処理手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In some memory-constrained settings like IoT devices and over-the-network
data pipelines, it can be advantageous to have smaller contextual embeddings.
We investigate the efficacy of projecting contextual embedding data (BERT) onto
a manifold, and using nonlinear dimensionality reduction techniques to compress
these embeddings. In particular, we propose a novel post-processing approach,
applying a combination of Isomap and PCA. We find that the geodesic distance
estimations, estimates of the shortest path on a Riemannian manifold, from
Isomap's k-Nearest Neighbors graph bolstered the performance of the compressed
embeddings to be comparable to the original BERT embeddings. On one dataset, we
find that despite a 12-fold dimensionality reduction, the compressed embeddings
performed within 0.1% of the original BERT embeddings on a downstream
classification task. In addition, we find that this approach works particularly
well on tasks reliant on syntactic data, when compared with linear
dimensionality reduction. These results show promise for a novel geometric
approach to achieve lower dimensional text embeddings from existing
transformers and pave the way for data-specific and application-specific
embedding compressions.
- Abstract(参考訳): IoTデバイスやオーバーザネットワークデータパイプラインのようなメモリ制約のある設定では、コンテキスト埋め込みが小さくなるという利点がある。
本研究では, コンテキスト埋め込みデータ(BERT)を多様体に投影することの有効性について検討し, 非線形次元還元法を用いてそれらの埋め込みを圧縮する。
特に,isomapとpcaの組み合わせを適用した新しい後処理手法を提案する。
リーマン多様体上の最短経路の推定である測地距離の推定は、アイソマップのk-ネアレスト近傍グラフから得られることが、圧縮埋め込みの性能をオリジナルのbert埋め込みに匹敵することを示した。
1つのデータセットでは、12倍の次元減少にもかかわらず、圧縮された埋め込みは、下流の分類タスクにおいて元のBERT埋め込みの0.1%以内に実行される。
さらに, この手法は, 線形次元削減と比較して, 構文データに依存するタスクに特に有効であることがわかった。
これらの結果は、既存のトランスフォーマーから低次元のテキスト埋め込みを実現し、データ固有およびアプリケーション固有の埋め込み圧縮への道を開く新しい幾何学的アプローチに有望である。
関連論文リスト
- Point Cloud Compression with Bits-back Coding [32.9521748764196]
本稿では,深層学習に基づく確率モデルを用いて,点雲情報のシャノンエントロピーを推定する。
点雲データセットのエントロピーを推定すると、学習されたCVAEモデルを用いて点雲の幾何学的属性を圧縮する。
本手法の新規性は,CVAEの学習潜在変数モデルを用いて点雲データを圧縮することである。
論文 参考訳(メタデータ) (2024-10-09T06:34:48Z) - Hierarchical Features Matter: A Deep Exploration of GAN Priors for Improved Dataset Distillation [51.44054828384487]
階層的生成潜在蒸留(H-GLaD)と呼ばれる新しいパラメータ化法を提案する。
本手法はGAN内の階層層を系統的に探索する。
さらに,合成データセット評価に伴う計算負担を軽減するために,新しいクラス関連特徴距離尺度を導入する。
論文 参考訳(メタデータ) (2024-06-09T09:15:54Z) - CBMAP: Clustering-based manifold approximation and projection for dimensionality reduction [0.0]
データ次元を減少させるために次元性低減法が用いられる。
本研究は,次元削減のためのクラスタリングに基づくアプローチであるCBMAPを紹介する。
CBMAPは、大域的構造と局所的構造の両方を保存することを目的としており、低次元空間のクラスターが高次元空間のクラスタと密接に類似していることを保証する。
論文 参考訳(メタデータ) (2024-04-27T15:44:21Z) - Deep Manifold Graph Auto-Encoder for Attributed Graph Embedding [51.75091298017941]
本稿では,属性付きグラフデータに対する新しいDeep Manifold (Variational) Graph Auto-Encoder (DMVGAE/DMGAE)を提案する。
提案手法は,最先端のベースラインアルゴリズムを,一般的なデータセット間でのダウンストリームタスクの差を大きく越える。
論文 参考訳(メタデータ) (2024-01-12T17:57:07Z) - Dataset Condensation with Latent Space Knowledge Factorization and
Sharing [73.31614936678571]
与えられたデータセットの規則性を利用してデータセットの凝縮問題を解決する新しい手法を提案する。
データセットを元の入力空間に直接凝縮するのではなく、学習可能な一連のコードでデータセットの生成プロセスを仮定する。
提案手法は,様々なベンチマークデータセットに対して,有意なマージンで新しい最先端記録を達成できることを実験的に示す。
論文 参考訳(メタデータ) (2022-08-21T18:14:08Z) - Hierarchical Nearest Neighbor Graph Embedding for Efficient
Dimensionality Reduction [25.67957712837716]
元の空間における1-アレスト近傍グラフ上に構築された階層構造に基づく新しい手法を提案する。
この提案は、t-SNE と UMAP の最新バージョンと競合する最適化のないプロジェクションである。
そこで本論文では,提案手法の健全性について論じ,28~16Kの範囲で1Kから1100万のサンプルと寸法の異なるデータセットの多種多様なコレクション上で評価を行った。
論文 参考訳(メタデータ) (2022-03-24T11:41:16Z) - Topology-Preserving Dimensionality Reduction via Interleaving
Optimization [10.097180927318703]
本稿では, インターリーブ距離を最小化する最適化手法を次元還元アルゴリズムに組み込む方法について述べる。
データビジュアライゼーションにおけるこのフレームワークの有用性を実証する。
論文 参考訳(メタデータ) (2022-01-31T06:11:17Z) - Deep Recursive Embedding for High-Dimensional Data [9.611123249318126]
本稿では,DNN(Deep Neural Network)と高次元データ埋め込みのための数学誘導埋め込みルールを組み合わせることを提案する。
本稿では,高次元空間から低次元空間へのパラメトリックマッピングを学習可能な汎用ディープ埋め込みネットワーク(DEN)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-31T23:22:33Z) - MuSCLE: Multi Sweep Compression of LiDAR using Deep Entropy Models [78.93424358827528]
本稿では,LiDARセンサデータのストレージストリームを削減するための新しい圧縮アルゴリズムを提案する。
本手法は,従来のLiDAR圧縮法よりも接合形状と強度を著しく低減する。
論文 参考訳(メタデータ) (2020-11-15T17:41:14Z) - Manifold Learning via Manifold Deflation [105.7418091051558]
次元削減法は、高次元データの可視化と解釈に有用な手段を提供する。
多くの一般的な手法は単純な2次元のマニフォールドでも劇的に失敗する。
本稿では,グローバルな構造を座標として組み込んだ,新しいインクリメンタルな空間推定器の埋め込み手法を提案する。
実験により,本アルゴリズムは実世界および合成データセットに新規で興味深い埋め込みを復元することを示した。
論文 参考訳(メタデータ) (2020-07-07T10:04:28Z) - Optimizing Vessel Trajectory Compression [71.42030830910227]
前回の研究では,AISの位置情報をオンラインで消費することで,血管軌跡の要約表現を提供するトラジェクトリ検出モジュールを導入しました。
この手法は、生データの少なくとも70%を冗長として廃棄することにより、元のコースからほとんど逸脱しない信頼性の高い軌道合成を提供することができる。
しかし、そのような軌道圧縮はパラメトリゼーションに非常に敏感である。
各容器のタイプを考慮し, 軌道のシナプスを改良する適切な構成を提供する。
論文 参考訳(メタデータ) (2020-05-11T20:38:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。