論文の概要: Clustering and Network Analysis for the Embedding Spaces of Sentences
and Sub-Sentences
- arxiv url: http://arxiv.org/abs/2110.00697v1
- Date: Sat, 2 Oct 2021 00:47:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-07 05:18:25.902566
- Title: Clustering and Network Analysis for the Embedding Spaces of Sentences
and Sub-Sentences
- Title(参考訳): 文と部分文の埋め込み空間に対するクラスタリングとネットワーク解析
- Authors: Yuan An and Alexander Kalinowski and Jane Greenberg
- Abstract要約: 本稿では,文とサブ文の埋め込みを対象とする包括的クラスタリングとネットワーク解析について検討する。
その結果,1つの手法が最もクラスタリング可能な埋め込みを生成することがわかった。
一般に、スパン部分文の埋め込みは、原文よりもクラスタリング特性が優れている。
- 参考スコア(独自算出の注目度): 69.3939291118954
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sentence embedding methods offer a powerful approach for working with short
textual constructs or sequences of words. By representing sentences as dense
numerical vectors, many natural language processing (NLP) applications have
improved their performance. However, relatively little is understood about the
latent structure of sentence embeddings. Specifically, research has not
addressed whether the length and structure of sentences impact the sentence
embedding space and topology. This paper reports research on a set of
comprehensive clustering and network analyses targeting sentence and
sub-sentence embedding spaces. Results show that one method generates the most
clusterable embeddings. In general, the embeddings of span sub-sentences have
better clustering properties than the original sentences. The results have
implications for future sentence embedding models and applications.
- Abstract(参考訳): 文埋め込みメソッドは、短いテキスト構造や単語のシーケンスを扱うための強力なアプローチを提供する。
文を高密度な数値ベクトルとして表現することで、多くの自然言語処理(NLP)アプリケーションの性能が向上した。
しかし, 文埋め込みの潜伏構造についてはほとんど理解されていない。
具体的には,文の長さや構造が文の埋め込み空間やトポロジに影響を及ぼすかどうかについて論じていない。
本稿では,文とサブ文の埋め込みを対象とする包括的クラスタリングとネットワーク解析について検討する。
その結果,1つの手法が最もクラスタリング可能な埋め込みを生成することがわかった。
一般に、スパン部分文の埋め込みは、原文よりもクラスタリング特性が優れている。
この結果は将来の文埋め込みモデルや応用に影響を及ぼす。
関連論文リスト
- Span-Aggregatable, Contextualized Word Embeddings for Effective Phrase Mining [0.22499166814992438]
目的語句が雑音の多い文脈内に存在する場合, 単語の完全文を1つの高次ベクトルで表すだけでは, 効果的な句検索には不十分であることを示す。
本稿では,この手法がフレーズマイニングに有用であるが,有用なスパン表現を得るためには,かなりの計算が必要であることを示す。
論文 参考訳(メタデータ) (2024-05-12T12:08:05Z) - Hierarchical Indexing for Retrieval-Augmented Opinion Summarization [60.5923941324953]
本稿では,抽出アプローチの帰属性と拡張性と,大規模言語モデル(LLM)の一貫性と拡散性を組み合わせた,教師なし抽象的意見要約手法を提案する。
我々の方法であるHIROは、意味的に整理された離散的な階層を通して文を経路にマッピングするインデックス構造を学習する。
推測時にインデックスを投入し、入力レビューから人気意見を含む文群を識別し、検索する。
論文 参考訳(メタデータ) (2024-03-01T10:38:07Z) - Bridging Continuous and Discrete Spaces: Interpretable Sentence
Representation Learning via Compositional Operations [80.45474362071236]
文の合成意味論が埋め込み空間における構成操作として直接反映できるかどうかは不明である。
文埋め込み学習のためのエンドツーエンドフレームワークであるInterSentを提案する。
論文 参考訳(メタデータ) (2023-05-24T00:44:49Z) - Relational Sentence Embedding for Flexible Semantic Matching [86.21393054423355]
文埋め込みの可能性を明らかにするための新しいパラダイムとして,文埋め込み(Sentence Embedding, RSE)を提案する。
RSEは文関係のモデル化に有効で柔軟性があり、一連の最先端の埋め込み手法より優れている。
論文 参考訳(メタデータ) (2022-12-17T05:25:17Z) - Extending Multi-Sense Word Embedding to Phrases and Sentences for
Unsupervised Semantic Applications [34.71597411512625]
本稿では,テキスト列(句または文)に対して,それぞれのシーケンスをコードブック埋め込みの異なる集合で表現する新しい埋め込み手法を提案する。
提案手法は,教師なし文の類似性と抽出要約ベンチマークの性能を大幅に改善することを示す。
論文 参考訳(メタデータ) (2021-03-29T04:54:28Z) - Narrative Incoherence Detection [76.43894977558811]
本稿では,文間セマンティック理解のための新たなアリーナとして,物語不整合検出の課題を提案する。
複数文の物語を考えると、物語の流れに意味的な矛盾があるかどうかを決定します。
論文 参考訳(メタデータ) (2020-12-21T07:18:08Z) - A Comparative Study on Structural and Semantic Properties of Sentence
Embeddings [77.34726150561087]
本稿では,関係抽出に広く利用されている大規模データセットを用いた実験セットを提案する。
異なる埋め込み空間は、構造的および意味的特性に対して異なる強度を持つことを示す。
これらの結果は,埋め込み型関係抽出法の開発に有用な情報を提供する。
論文 参考訳(メタデータ) (2020-09-23T15:45:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。