論文の概要: Unsupervised Sentence-embeddings by Manifold Approximation and
Projection
- arxiv url: http://arxiv.org/abs/2102.03795v1
- Date: Sun, 7 Feb 2021 13:27:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-11 06:15:30.609923
- Title: Unsupervised Sentence-embeddings by Manifold Approximation and
Projection
- Title(参考訳): マニホールド近似と投影による教師なし文埋め込み
- Authors: Subhradeep Kayal
- Abstract要約: 本研究では, 文を固定次元多様体に投影することにより, 文埋め込みを教師なしで生成する手法を提案する。
我々は,EMAP(Embedddings by Manifold Approximation and Projection)と呼ばれるアプローチを,サイズと複雑さの異なる6つの公開テキスト分類データセット上で検証する。
- 参考スコア(独自算出の注目度): 3.04585143845864
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The concept of unsupervised universal sentence encoders has gained traction
recently, wherein pre-trained models generate effective task-agnostic
fixed-dimensional representations for phrases, sentences and paragraphs. Such
methods are of varying complexity, from simple weighted-averages of word
vectors to complex language-models based on bidirectional transformers. In this
work we propose a novel technique to generate sentence-embeddings in an
unsupervised fashion by projecting the sentences onto a fixed-dimensional
manifold with the objective of preserving local neighbourhoods in the original
space. To delineate such neighbourhoods we experiment with several set-distance
metrics, including the recently proposed Word Mover's distance, while the
fixed-dimensional projection is achieved by employing a scalable and efficient
manifold approximation method rooted in topological data analysis. We test our
approach, which we term EMAP or Embeddings by Manifold Approximation and
Projection, on six publicly available text-classification datasets of varying
size and complexity. Empirical results show that our method consistently
performs similar to or better than several alternative state-of-the-art
approaches.
- Abstract(参考訳): 教師なし普遍文エンコーダの概念は近年注目を集めており、事前訓練されたモデルでは、フレーズ、文、段落に対する効果的なタスク非依存の定次元表現が生成される。
このような方法は、単語ベクトルの単純な重み付け平均から双方向変換器に基づく複雑な言語モデルまで、複雑性が異なる。
本研究では, 局所的な空間保存を目的として, 文章を定次元多様体に投影することにより, 文章埋め込みを無監督的に生成する新しい手法を提案する。
そこで我々は,最近提案されたWord Mover距離を含む集合距離測定値について実験を行った。一方,この固定次元投影は,トポロジカルデータ解析に根ざしたスケーラブルで効率的な多様体近似法を用いて実現されている。
我々は,EMAP(Embedddings by Manifold Approximation and Projection)と呼ばれるアプローチを,サイズと複雑さの異なる6つの公開テキスト分類データセット上で検証する。
実験結果から,本手法は従来手法と同等か,あるいはそれ以上の性能を示すことがわかった。
関連論文リスト
- Lines of Thought in Large Language Models [3.281128493853064]
大規模言語モデルは、付随する埋め込み空間を越えてベクトル化されたテキストを転送することで、次のトーケン予測を達成する。
我々はこれらの「思考の線」のアンサンブルの統計的特性を特徴付けることを目的とする。
このような大きなモデルの膨大な複雑さが、より単純な形式に還元できることは驚くべきことであり、その影響を反映している。
論文 参考訳(メタデータ) (2024-10-02T13:31:06Z) - Fast and Scalable Semi-Supervised Learning for Multi-View Subspace Clustering [13.638434337947302]
FSSMSCは、既存のアプローチで一般的に見られる高い計算複雑性に対する新しいソリューションである。
この手法は、各データポイントを選択されたランドマークの疎線型結合として表現し、すべてのビューにまたがるコンセンサスアンカーグラフを生成する。
FSSMSCの有効性と効率は、様々なスケールの複数のベンチマークデータセットに対する広範な実験を通して検証される。
論文 参考訳(メタデータ) (2024-08-11T06:54:00Z) - Language Model Decoding as Direct Metrics Optimization [87.68281625776282]
現在の復号法は、異なる側面にわたる人間のテキストと整合するテキストを生成するのに苦労している。
本研究では,言語モデルからの復号化を最適化問題として,期待される性能と人間のテキストとの厳密なマッチングを目的とした。
この誘導分布は,人間のテキストの難易度を向上させることが保証されていることを証明し,人間のテキストの基本的な分布に対するより良い近似を示唆する。
論文 参考訳(メタデータ) (2023-10-02T09:35:27Z) - Explaining text classifiers through progressive neighborhood
approximation with realistic samples [19.26084350822197]
地域説明手法における地区建設の重要性が文献で強調されている。
高次元データ(例えばテキスト)の近傍品質を改善するために、生成モデルを採用するなど、いくつかの試みがなされている。
提案手法は,2段階の慎重なアプローチにより,説明すべき決定の近傍を洗練させるプログレッシブ近似手法を提案する。
論文 参考訳(メタデータ) (2023-02-11T11:42:39Z) - Manifold Hypothesis in Data Analysis: Double Geometrically-Probabilistic
Approach to Manifold Dimension Estimation [92.81218653234669]
本稿では, 多様体仮説の検証と基礎となる多様体次元推定に対する新しいアプローチを提案する。
我々の幾何学的手法はミンコフスキー次元計算のためのよく知られたボックスカウントアルゴリズムのスパースデータの修正である。
実データセットの実験では、2つの手法の組み合わせに基づく提案されたアプローチが強力で効果的であることが示されている。
論文 参考訳(メタデータ) (2021-07-08T15:35:54Z) - Improving Metric Dimensionality Reduction with Distributed Topology [68.8204255655161]
DIPOLEは、局所的、計量的項と大域的、位相的項の両方で損失関数を最小化し、初期埋め込みを補正する次元推論後処理ステップである。
DIPOLEは、UMAP、t-SNE、Isomapといった一般的な手法よりも多くの一般的なデータセットで優れています。
論文 参考訳(メタデータ) (2021-06-14T17:19:44Z) - Out-of-Manifold Regularization in Contextual Embedding Space for Text
Classification [22.931314501371805]
空間の残りの部分を見つけ、正規化するための新しいアプローチを提案します。
実際に観察された単語から得られた2つの埋め込みに基づいて, アウトオブマニフォールド埋め込みを合成する。
判別器は、入力埋め込みがマニホールド内に位置するかどうかを検出するように訓練され、同時に、ジェネレーターは、容易にマニホールド外として識別できる新しい埋め込みを生成するように最適化される。
論文 参考訳(メタデータ) (2021-05-14T10:17:59Z) - Deep Shells: Unsupervised Shape Correspondence with Optimal Transport [52.646396621449]
本稿では,3次元形状対応のための教師なし学習手法を提案する。
提案手法は,複数のデータセット上での最先端技術よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-10-28T22:24:07Z) - Closed-Form Factorization of Latent Semantics in GANs [65.42778970898534]
画像合成のために訓練されたGAN(Generative Adversarial Networks)の潜在空間に、解釈可能な次元の豊富なセットが出現することが示されている。
本研究では,GANが学習した内部表現について検討し,その基礎となる変動要因を教師なしで明らかにする。
本稿では,事前学習した重みを直接分解することで,潜在意味発見のためのクローズドフォーム因数分解アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-13T18:05:36Z) - Manifold Learning via Manifold Deflation [105.7418091051558]
次元削減法は、高次元データの可視化と解釈に有用な手段を提供する。
多くの一般的な手法は単純な2次元のマニフォールドでも劇的に失敗する。
本稿では,グローバルな構造を座標として組み込んだ,新しいインクリメンタルな空間推定器の埋め込み手法を提案する。
実験により,本アルゴリズムは実世界および合成データセットに新規で興味深い埋め込みを復元することを示した。
論文 参考訳(メタデータ) (2020-07-07T10:04:28Z) - Learning Flat Latent Manifolds with VAEs [16.725880610265378]
本稿では、ユークリッド計量がデータポイント間の類似性のプロキシとなる変分自動エンコーダのフレームワークの拡張を提案する。
我々は、変分オートエンコーダで一般的に使用されるコンパクトな以前のものを、最近発表されたより表現力のある階層型に置き換える。
提案手法は,ビデオ追跡ベンチマークを含む,さまざまなデータセットを用いて評価する。
論文 参考訳(メタデータ) (2020-02-12T09:54:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。