論文の概要: Comparative Analysis of Document-Level Embedding Methods for Similarity Scoring on Shakespeare Sonnets and Taylor Swift Lyrics
- arxiv url: http://arxiv.org/abs/2412.17552v1
- Date: Mon, 23 Dec 2024 13:20:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:52:49.021733
- Title: Comparative Analysis of Document-Level Embedding Methods for Similarity Scoring on Shakespeare Sonnets and Taylor Swift Lyrics
- Title(参考訳): シェークスピア・ソネットとテイラー・スウィフト歌詞の類似スコーリングのための文書レベル埋め込み法の比較分析
- Authors: Klara Kramer,
- Abstract要約: 本研究では,文書類似性評価のためのTF-IDF重み付け,Word2Vec埋め込み,BERT埋め込みの性能評価を行った。
TF-IDFの語彙重なりへの依存とWord2Vecの優越した意味的一般化を裏付けた。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This study evaluates the performance of TF-IDF weighting, averaged Word2Vec embeddings, and BERT embeddings for document similarity scoring across two contrasting textual domains. By analysing cosine similarity scores, the methods' strengths and limitations are highlighted. The findings underscore TF-IDF's reliance on lexical overlap and Word2Vec's superior semantic generalisation, particularly in cross-domain comparisons. BERT demonstrates lower performance in challenging domains, likely due to insufficient domainspecific fine-tuning.
- Abstract(参考訳): 本研究では,文書類似性評価のためのTF-IDF重み付け,Word2Vec埋め込み,BERT埋め込みの性能評価を行った。
コサイン類似度を解析することにより、手法の強みと限界が強調される。
TF-IDFの語彙重なりに対する依存度とWord2Vecのセマンティック・ジェネレーションの優位性,特にドメイン間比較において評価された。
BERTはドメイン固有の微調整が不十分なため、挑戦的なドメインではパフォーマンスが低下する。
関連論文リスト
- Using Similarity to Evaluate Factual Consistency in Summaries [2.7595794227140056]
抽象要約器は流動的な要約を生成するが、生成したテキストの事実性は保証されない。
本稿では,ゼロショット事実性評価尺度であるSBERTScoreを提案する。
実験の結果,SBERTScoreでは,各手法の強度が異なることが示唆された。
論文 参考訳(メタデータ) (2024-09-23T15:02:38Z) - Cross-domain Chinese Sentence Pattern Parsing [67.1381983012038]
文パターン構造解析(SPS)は、主に言語教育に使用される構文解析法である。
既存のSPSは教科書のコーパスに大きく依存しており、クロスドメイン機能に欠ける。
本稿では,大規模言語モデル(LLM)を自己学習フレームワーク内で活用する革新的な手法を提案する。
論文 参考訳(メタデータ) (2024-02-26T05:30:48Z) - Predicting Text Preference Via Structured Comparative Reasoning [110.49560164568791]
我々は、構造化中間比較を生成することによって、テキストの嗜好を予測するプロンプト方式であるSCを導入する。
我々は、テキスト間の差異を明確に区別するためのペアワイズ整合コンパレータと一貫した比較を選択する。
要約,検索,自動評価など多種多様なNLPタスクに対する総合的な評価は,SCがテキスト優先予測における最先端性能を達成するためにLLMを装備していることを示す。
論文 参考訳(メタデータ) (2023-11-14T18:51:38Z) - A Comparative Study of Sentence Embedding Models for Assessing Semantic
Variation [0.0]
本稿では,複数の文献において,連続する文間の意味的類似性の時系列と対の文類似性の行列を用いた最近の文埋め込み法について比較する。
文の埋め込み手法のほとんどは、ある文書において意味的類似性の高相関パターンを推定するが、興味深い相違が見られる。
論文 参考訳(メタデータ) (2023-08-08T23:31:10Z) - Retrofitting Multilingual Sentence Embeddings with Abstract Meaning
Representation [70.58243648754507]
抽象的意味表現(AMR)を用いた既存の多言語文の埋め込みを改善する新しい手法を提案する。
原文入力と比較すると、AMRは文の中核概念と関係を明確かつ曖昧に表す構造的意味表現である。
実験結果から,多言語文をAMRで埋め込むと,意味的類似性と伝達タスクの両方において,最先端の性能が向上することがわかった。
論文 参考訳(メタデータ) (2022-10-18T11:37:36Z) - Interpreting BERT-based Text Similarity via Activation and Saliency Maps [26.279593839644836]
本稿では,事前学習したBERTモデルから推定される段落類似性を説明するための教師なし手法を提案する。
一対の段落を見ると,各段落の意味を規定する重要な単語を識別し,各段落間の単語の一致を判定し,両者の類似性を説明する最も重要なペアを検索する。
論文 参考訳(メタデータ) (2022-08-13T10:06:24Z) - NMTScore: A Multilingual Analysis of Translation-based Text Similarity
Measures [42.46681912294797]
我々は多言語NMTの共通フレームワークにおける翻訳に基づく類似度尺度を解析する。
文の埋め込みなどのベースラインと比較して、翻訳に基づく尺度はパラフレーズの識別において競争力があることが証明されている。
措置は人間の判断と相対的に高い相関を示す。
論文 参考訳(メタデータ) (2022-04-28T17:57:17Z) - Document-Level Relation Extraction with Sentences Importance Estimation
and Focusing [52.069206266557266]
文書レベルの関係抽出(DocRE)は、複数の文の文書から2つのエンティティ間の関係を決定することを目的としている。
我々はDocREのための文重要度スコアと文集中損失を設計するSIEF(Sentence Estimation and Focusing)フレームワークを提案する。
2つのドメインの実験結果から、SIEFは全体的なパフォーマンスを改善するだけでなく、DocREモデルをより堅牢にします。
論文 参考訳(メタデータ) (2022-04-27T03:20:07Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - Weakly-Supervised Aspect-Based Sentiment Analysis via Joint
Aspect-Sentiment Topic Embedding [71.2260967797055]
アスペクトベース感情分析のための弱教師付きアプローチを提案する。
We learn sentiment, aspects> joint topic embeddeds in the word embedding space。
次に、ニューラルネットワークを用いて単語レベルの識別情報を一般化する。
論文 参考訳(メタデータ) (2020-10-13T21:33:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。