論文の概要: Comparative analysis of word embeddings in assessing semantic similarity
of complex sentences
- arxiv url: http://arxiv.org/abs/2010.12637v3
- Date: Fri, 9 Jul 2021 21:15:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 23:26:50.560122
- Title: Comparative analysis of word embeddings in assessing semantic similarity
of complex sentences
- Title(参考訳): 複合文の意味的類似性評価における単語埋め込みの比較分析
- Authors: Dhivya Chandrasekaran and Vijay Mago
- Abstract要約: 既存のベンチマークデータセットの文を解析し,文の複雑さに関する各種単語埋め込みの感度を解析する。
その結果, 文の複雑さの増大は, 埋め込みモデルの性能に重大な影響を及ぼすことがわかった。
- 参考スコア(独自算出の注目度): 8.873705500708196
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic textual similarity is one of the open research challenges in the
field of Natural Language Processing. Extensive research has been carried out
in this field and near-perfect results are achieved by recent transformer-based
models in existing benchmark datasets like the STS dataset and the SICK
dataset. In this paper, we study the sentences in these datasets and analyze
the sensitivity of various word embeddings with respect to the complexity of
the sentences. We build a complex sentences dataset comprising of 50 sentence
pairs with associated semantic similarity values provided by 15 human
annotators. Readability analysis is performed to highlight the increase in
complexity of the sentences in the existing benchmark datasets and those in the
proposed dataset. Further, we perform a comparative analysis of the performance
of various word embeddings and language models on the existing benchmark
datasets and the proposed dataset. The results show the increase in complexity
of the sentences has a significant impact on the performance of the embedding
models resulting in a 10-20% decrease in Pearson's and Spearman's correlation.
- Abstract(参考訳): セマンティックテキストの類似性は自然言語処理分野におけるオープンな研究課題の1つである。
この分野で大規模な研究が行われ、STSデータセットやSICKデータセットのような既存のベンチマークデータセットにおける最近のトランスフォーマーベースモデルによってほぼ完全な結果が得られている。
本稿では,これらのデータセットの文について検討し,文の複雑さに関する各種単語埋め込みの感度を解析する。
15人のアノテータが提供した50の文対と関連する意味的類似度値からなる複雑な文データセットを構築した。
既存のベンチマークデータセットと提案データセットにおける文の複雑さの増加を強調するために、可読性分析が行われる。
さらに,既存のベンチマークデータセットと提案データセットを用いて,単語埋め込みと言語モデルの性能の比較分析を行った。
その結果, 文の複雑さの増加は, 組込みモデルの性能に有意な影響を与え, Pearson と Spearman の相関は10~20%減少した。
関連論文リスト
- RepMatch: Quantifying Cross-Instance Similarities in Representation Space [15.215985417763472]
類似性のレンズを通してデータを特徴付ける新しい手法であるRepMatchを紹介する。
RepMatchは、トレーニングインスタンスのサブセット間の類似性を、トレーニングされたモデルにエンコードされた知識と比較することによって定量化する。
複数のNLPタスク、データセット、モデルにまたがるRepMatchの有効性を検証する。
論文 参考訳(メタデータ) (2024-10-12T20:42:28Z) - Revisiting the Phenomenon of Syntactic Complexity Convergence on German Dialogue Data [2.7038841665524846]
会話対話における構文的複雑性の収束現象を再考する。
依存関係解析に基づく構文的複雑性の定量化には、修正されたメトリックを使用する。
論文 参考訳(メタデータ) (2024-08-22T07:49:41Z) - Towards Enhancing Coherence in Extractive Summarization: Dataset and Experiments with LLMs [70.15262704746378]
我々は,5つの公開データセットと自然言語ユーザフィードバックのためのコヒーレントな要約からなる,体系的に作成された人間アノテーションデータセットを提案する。
Falcon-40BとLlama-2-13Bによる予備的な実験では、コヒーレントなサマリーを生成するという点で大幅な性能向上(10%ルージュ-L)が見られた。
論文 参考訳(メタデータ) (2024-07-05T20:25:04Z) - How Well Do Text Embedding Models Understand Syntax? [50.440590035493074]
テキスト埋め込みモデルが幅広い構文的文脈にまたがって一般化する能力は、まだ解明されていない。
その結果,既存のテキスト埋め込みモデルは,これらの構文的理解課題に十分対応していないことが明らかとなった。
多様な構文シナリオにおけるテキスト埋め込みモデルの一般化能力を高めるための戦略を提案する。
論文 参考訳(メタデータ) (2023-11-14T08:51:00Z) - Importance of Synthesizing High-quality Data for Text-to-SQL Parsing [71.02856634369174]
最先端のテキストから重み付けアルゴリズムは、強化された合成データでトレーニングされた場合、一般的なベンチマークでは改善されなかった。
本稿では,スキーマから重要な関係を取り入れ,強い型付けを課し,スキーマ重み付きカラムサンプリングを行う新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-17T02:53:21Z) - Domain Adaptation in Multilingual and Multi-Domain Monolingual Settings
for Complex Word Identification [0.27998963147546146]
複雑な単語識別(CWI)は、適切なテキストの単純化に向けた基礎的なプロセスである。
CWIはコンテキストに大きく依存するが、その困難さは利用可能なデータセットの不足によって増大する。
対象文字とコンテキスト表現を改善するために,ドメイン適応に基づくCWIタスクのための新しいトレーニング手法を提案する。
論文 参考訳(メタデータ) (2022-05-15T13:21:02Z) - Structurally Diverse Sampling Reduces Spurious Correlations in Semantic
Parsing Datasets [51.095144091781734]
本稿では,構造化された出力を持つラベル付きインスタンスプールから,構造的に多様なインスタンス群をサンプリングする新しいアルゴリズムを提案する。
提案アルゴリズムは, 合成テンプレート分割だけでなく, 従来のID分割においても, 従来のアルゴリズムよりも競合的に動作することを示す。
一般に、多種多様な列車集合は、10組のデータセット分割ペアのうち9組で同じ大きさのランダムな訓練集合よりも優れた一般化をもたらす。
論文 参考訳(メタデータ) (2022-03-16T07:41:27Z) - What Makes Sentences Semantically Related: A Textual Relatedness Dataset
and Empirical Study [31.062129406113588]
本稿では,5500の英文対を手動で注釈付けしたセマンティックテキスト関連性データセットSTR-2022を紹介する。
文対の関連性に関する人間の直感は信頼性が高く, 繰り返しアノテーションの相関は0.84である。
また, STR-2022は, 文章表現の自動手法や, 下流の様々なNLPタスクに対して有効であることを示す。
論文 参考訳(メタデータ) (2021-10-10T16:23:54Z) - Text-to-SQL in the Wild: A Naturally-Occurring Dataset Based on Stack
Exchange Data [3.06261471569622]
SEDEは12,023対の発話とsqlクエリを備えたデータセットである。
これらのペアには、他のセマンティック解析データセットにはほとんど反映されていない、さまざまな現実的な課題が含まれていることが示されています。
論文 参考訳(メタデータ) (2021-06-09T12:09:51Z) - A Comparative Study on Structural and Semantic Properties of Sentence
Embeddings [77.34726150561087]
本稿では,関係抽出に広く利用されている大規模データセットを用いた実験セットを提案する。
異なる埋め込み空間は、構造的および意味的特性に対して異なる強度を持つことを示す。
これらの結果は,埋め込み型関係抽出法の開発に有用な情報を提供する。
論文 参考訳(メタデータ) (2020-09-23T15:45:32Z) - Extractive Summarization as Text Matching [123.09816729675838]
本稿では,ニューラル抽出要約システムの構築方法に関するパラダイムシフトを作成する。
抽出した要約タスクを意味テキストマッチング問題として定式化する。
我々はCNN/DailyMailの最先端抽出結果を新しいレベル(ROUGE-1の44.41)に推し進めた。
論文 参考訳(メタデータ) (2020-04-19T08:27:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。