論文の概要: Generalised Spherical Text Embedding
- arxiv url: http://arxiv.org/abs/2211.16801v1
- Date: Wed, 30 Nov 2022 07:50:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 16:38:12.320164
- Title: Generalised Spherical Text Embedding
- Title(参考訳): 一般化球面テキスト埋め込み
- Authors: Souvik Banerjee, Bamdev Mishra, Pratik Jawanpuria, Manish Shrivastava
- Abstract要約: 単語と段落を任意の列次元の個々の行列として単位フロベニウスノルムと共同で符号化する。
我々は、同じ行列を単位ノルムのベクトルに変形し、球面多様体上の最適化問題に変換することを示した。
また、文書分類、文書クラスタリング、意味的類似性ベンチマークテストの改善結果を示すことによって、テキスト埋め込みの品質を定量的に検証する。
- 参考スコア(独自算出の注目度): 24.217143085109946
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper aims to provide an unsupervised modelling approach that allows for
a more flexible representation of text embeddings. It jointly encodes the words
and the paragraphs as individual matrices of arbitrary column dimension with
unit Frobenius norm. The representation is also linguistically motivated with
the introduction of a novel similarity metric. The proposed modelling and the
novel similarity metric exploits the matrix structure of embeddings. We then go
on to show that the same matrices can be reshaped into vectors of unit norm and
transform our problem into an optimization problem over the spherical manifold.
We exploit manifold optimization to efficiently train the matrix embeddings. We
also quantitatively verify the quality of our text embeddings by showing that
they demonstrate improved results in document classification, document
clustering, and semantic textual similarity benchmark tests.
- Abstract(参考訳): 本稿では,テキスト埋め込みのより柔軟な表現を可能にする,教師なしモデリング手法を提案する。
単語と段落を任意の列次元の個々の行列として単位フロベニウスノルムと共同で符号化する。
この表現は、新しい類似度指標の導入によって言語的にも動機付けられている。
提案したモデリングと新しい類似度尺度は埋め込みの行列構造を利用する。
次に、同じ行列を単位ノルムのベクトルに再構成し、我々の問題を球面多様体上の最適化問題に変換できることを示した。
行列埋め込みを効率的に学習するために多様体最適化を利用する。
また、文書分類、文書クラスタリング、意味的テキスト類似性ベンチマークテストにおける改善された結果を示すことによって、テキスト埋め込みの品質を定量的に検証する。
関連論文リスト
- Quantization of Large Language Models with an Overdetermined Basis [73.79368761182998]
本稿では,嘉心表現の原理に基づくデータ量子化アルゴリズムを提案する。
以上の結果から, カシ量子化はモデル性能の競争力や優れた品質を達成できることが示唆された。
論文 参考訳(メタデータ) (2024-04-15T12:38:46Z) - Large-Scale Evaluation of Topic Models and Dimensionality Reduction
Methods for 2D Text Spatialization [2.6034734004409303]
本稿では,テキストコーパスの構造を抽出する上で,解釈可能なトピックモデルが有用であることを示す。
トピックモデルと次元削減に基づくテキスト空間化の効果的な設計のためのガイドラインを提案する。
論文 参考訳(メタデータ) (2023-07-17T14:08:25Z) - Two to Five Truths in Non-Negative Matrix Factorization [0.0]
グラフに対する正規化ラプラシアン(NL)に着想を得たスケーリングを提案し、非負行列分解の質を大幅に向上させることができる。
マトリックススケーリングは、さまざまなデータセットのテキストトピックモデルに大幅な改善をもたらす。
論文 参考訳(メタデータ) (2023-05-06T14:40:20Z) - Learning Graphical Factor Models with Riemannian Optimization [70.13748170371889]
本稿では,低ランク構造制約下でのグラフ学習のためのフレキシブルなアルゴリズムフレームワークを提案する。
この問題は楕円分布のペナルティ化された最大推定値として表される。
楕円モデルによく適合する正定行列と定ランクの正半定行列のジオメトリを利用する。
論文 参考訳(メタデータ) (2022-10-21T13:19:45Z) - Semi-Supervised Subspace Clustering via Tensor Low-Rank Representation [64.49871502193477]
本稿では,初期監視情報を同時に拡張し,識別親和性行列を構築することのできる,新しい半教師付きサブスペースクラスタリング手法を提案する。
6つの一般的なベンチマークデータセットの総合的な実験結果から,本手法が最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-05-21T01:47:17Z) - Text Revision by On-the-Fly Representation Optimization [76.11035270753757]
現在の最先端手法は、これらのタスクをシーケンスからシーケンスまでの学習問題として定式化している。
並列データを必要としないテキストリビジョンのための反復的なインプレース編集手法を提案する。
テキストの単純化に関する最先端の教師付き手法よりも、競争力があり、パフォーマンスも向上する。
論文 参考訳(メタデータ) (2022-04-15T07:38:08Z) - Representing Mixtures of Word Embeddings with Mixtures of Topic
Embeddings [46.324584649014284]
トピックモデルはしばしば、文書の各単語が、一連のトピックと文書固有のトピック比に基づいてどのように生成されるかを説明する生成モデルとして定式化される。
本稿では、各文書を単語埋め込みベクトルの集合と見なし、各トピックを同じ埋め込み空間に埋め込みベクトルとしてモデル化する新しいトピックモデリングフレームワークを提案する。
同じベクトル空間に単語とトピックを埋め込み、文書の単語の埋め込みベクトルとそれらのトピックのセマンティックな差異を測る方法を定義し、すべての文書に対して期待される差を最小化するためにトピックの埋め込みを最適化する。
論文 参考訳(メタデータ) (2022-03-03T08:46:23Z) - Adversarially-Trained Nonnegative Matrix Factorization [77.34726150561087]
非負行列ファクタリゼーションの逆学習版を検討する。
我々の定式化では、攻撃者は与えられたデータ行列に有界ノルムの任意の行列を追加する。
辞書と係数行列を最適化するために, 逆学習に触発された効率的なアルゴリズムを設計する。
論文 参考訳(メタデータ) (2021-04-10T13:13:17Z) - Event-Driven News Stream Clustering using Entity-Aware Contextual
Embeddings [14.225334321146779]
本稿では,非パラメトリックストリーミングk-meansアルゴリズムの変種であるオンラインニュースストリームクラスタリング手法を提案する。
我々のモデルはスパースと密集した文書表現の組み合わせを使用し、これらの複数の表現に沿って文書とクラスタの類似性を集約する。
事前学習したトランスフォーマモデルにおいて,適切な微調整目標と外部知識を用いることにより,文脈埋め込みの有効性が大幅に向上することを示す。
論文 参考訳(メタデータ) (2021-01-26T19:58:30Z) - Tired of Topic Models? Clusters of Pretrained Word Embeddings Make for
Fast and Good Topics too! [5.819224524813161]
事前学習した単語の埋め込みをクラスタリングし、重み付けされたクラスタリングと上位単語の再ランク付けのための文書情報を組み込んだ別の方法を提案する。
このアプローチの最も優れた組み合わせは、従来のトピックモデルと同様に機能するが、ランタイムと計算の複雑さは低い。
論文 参考訳(メタデータ) (2020-04-30T16:18:18Z) - Extractive Summarization as Text Matching [123.09816729675838]
本稿では,ニューラル抽出要約システムの構築方法に関するパラダイムシフトを作成する。
抽出した要約タスクを意味テキストマッチング問題として定式化する。
我々はCNN/DailyMailの最先端抽出結果を新しいレベル(ROUGE-1の44.41)に推し進めた。
論文 参考訳(メタデータ) (2020-04-19T08:27:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。