Fugu-MT 論文翻訳(概要): Comparative Analysis of Document-Level Embedding Methods for Similarity Scoring on Shakespeare Sonnets and Taylor Swift Lyrics

論文の概要: Comparative Analysis of Document-Level Embedding Methods for Similarity Scoring on Shakespeare Sonnets and Taylor Swift Lyrics

arxiv url: http://arxiv.org/abs/2412.17552v1
Date: Mon, 23 Dec 2024 13:20:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-24 19:42:48.451687
Title: Comparative Analysis of Document-Level Embedding Methods for Similarity Scoring on Shakespeare Sonnets and Taylor Swift Lyrics
Title（参考訳）: シェークスピア・ソネットとテイラー・スウィフト歌詞の類似スコーリングのための文書レベル埋め込み法の比較分析
Authors: Klara Kramer,
Abstract要約: 本研究では,文書類似性評価のためのTF-IDF重み付け,Word2Vec埋め込み,BERT埋め込みの性能評価を行った。 TF-IDFの語彙重なりへの依存とWord2Vecの優越した意味的一般化を裏付けた。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: This study evaluates the performance of TF-IDF weighting, averaged Word2Vec embeddings, and BERT embeddings for document similarity scoring across two contrasting textual domains. By analysing cosine similarity scores, the methods' strengths and limitations are highlighted. The findings underscore TF-IDF's reliance on lexical overlap and Word2Vec's superior semantic generalisation, particularly in cross-domain comparisons. BERT demonstrates lower performance in challenging domains, likely due to insufficient domainspecific fine-tuning.
Abstract（参考訳）: 本研究では,文書類似性評価のためのTF-IDF重み付け,Word2Vec埋め込み,BERT埋め込みの性能評価を行った。コサイン類似度を解析することにより、手法の強みと限界が強調される。 TF-IDFの語彙重なりに対する依存度とWord2Vecのセマンティック・ジェネレーションの優位性,特にドメイン間比較において評価された。 BERTはドメイン固有の微調整が不十分なため、挑戦的なドメインではパフォーマンスが低下する。

関連論文リスト

SMILE: A Composite Lexical-Semantic Metric for Question-Answering Evaluation [55.26111461168754]
本稿では,文レベルの意味理解とキーワードレベルの意味理解と簡単なキーワードマッチングを組み合わせた新しいアプローチであるSemantic Metric Integrating Lexical Exactnessを紹介する。人間の判断と計算学的に軽量であり、語彙的評価と意味的評価のギャップを埋める。
論文参考訳（メタデータ） (2025-11-21T17:30:18Z)
The Medium Is Not the Message: Deconfounding Text Embeddings via Linear Concept Erasure [91.01653854955286]
埋め込みベースの類似度メトリクスは、テキストのソースや言語のような刺激的な属性に影響される可能性がある。本稿では,エンコーダ表現から観測された共同創設者に関する情報を除去するデバイアスアルゴリズムにより,これらのバイアスを最小の計算コストで大幅に低減することを示す。
論文参考訳（メタデータ） (2025-07-01T23:17:12Z)
Descriptive Image-Text Matching with Graded Contextual Similarity [41.10869519062159]
画像とテキストの文脈的類似度を段階的に学習するために,DITMと呼ばれる記述的画像テキストマッチングを提案する。各文の記述性スコアを累積項の周波数逆文書頻度(TF-IDF)で定式化し、両者の相似性をバランスさせる。本手法は文記述性を利用して,2つの重要な方法で堅牢な画像テキストマッチングを学習する。
論文参考訳（メタデータ） (2025-05-15T06:21:00Z)
Using Similarity to Evaluate Factual Consistency in Summaries [2.7595794227140056]
抽象要約器は流動的な要約を生成するが、生成したテキストの事実性は保証されない。本稿では,ゼロショット事実性評価尺度であるSBERTScoreを提案する。実験の結果,SBERTScoreでは,各手法の強度が異なることが示唆された。
論文参考訳（メタデータ） (2024-09-23T15:02:38Z)
Cross-domain Chinese Sentence Pattern Parsing [67.1381983012038]
文パターン構造解析(SPS)は、主に言語教育に使用される構文解析法である。既存のSPSは教科書のコーパスに大きく依存しており、クロスドメイン機能に欠ける。本稿では,大規模言語モデル(LLM)を自己学習フレームワーク内で活用する革新的な手法を提案する。
論文参考訳（メタデータ） (2024-02-26T05:30:48Z)
Predicting Text Preference Via Structured Comparative Reasoning [110.49560164568791]
我々は、構造化中間比較を生成することによって、テキストの嗜好を予測するプロンプト方式であるSCを導入する。我々は、テキスト間の差異を明確に区別するためのペアワイズ整合コンパレータと一貫した比較を選択する。要約,検索,自動評価など多種多様なNLPタスクに対する総合的な評価は,SCがテキスト優先予測における最先端性能を達成するためにLLMを装備していることを示す。
論文参考訳（メタデータ） (2023-11-14T18:51:38Z)
A Comparative Study of Sentence Embedding Models for Assessing Semantic Variation [0.0]
本稿では,複数の文献において,連続する文間の意味的類似性の時系列と対の文類似性の行列を用いた最近の文埋め込み法について比較する。文の埋め込み手法のほとんどは、ある文書において意味的類似性の高相関パターンを推定するが、興味深い相違が見られる。
論文参考訳（メタデータ） (2023-08-08T23:31:10Z)
Retrofitting Multilingual Sentence Embeddings with Abstract Meaning Representation [70.58243648754507]
抽象的意味表現(AMR)を用いた既存の多言語文の埋め込みを改善する新しい手法を提案する。原文入力と比較すると、AMRは文の中核概念と関係を明確かつ曖昧に表す構造的意味表現である。実験結果から,多言語文をAMRで埋め込むと,意味的類似性と伝達タスクの両方において,最先端の性能が向上することがわかった。
論文参考訳（メタデータ） (2022-10-18T11:37:36Z)
Interpreting BERT-based Text Similarity via Activation and Saliency Maps [26.279593839644836]
本稿では,事前学習したBERTモデルから推定される段落類似性を説明するための教師なし手法を提案する。一対の段落を見ると,各段落の意味を規定する重要な単語を識別し,各段落間の単語の一致を判定し,両者の類似性を説明する最も重要なペアを検索する。
論文参考訳（メタデータ） (2022-08-13T10:06:24Z)
NMTScore: A Multilingual Analysis of Translation-based Text Similarity Measures [42.46681912294797]
我々は多言語NMTの共通フレームワークにおける翻訳に基づく類似度尺度を解析する。文の埋め込みなどのベースラインと比較して、翻訳に基づく尺度はパラフレーズの識別において競争力があることが証明されている。措置は人間の判断と相対的に高い相関を示す。
論文参考訳（メタデータ） (2022-04-28T17:57:17Z)
Document-Level Relation Extraction with Sentences Importance Estimation and Focusing [52.069206266557266]
文書レベルの関係抽出(DocRE)は、複数の文の文書から2つのエンティティ間の関係を決定することを目的としている。我々はDocREのための文重要度スコアと文集中損失を設計するSIEF(Sentence Estimation and Focusing)フレームワークを提案する。 2つのドメインの実験結果から、SIEFは全体的なパフォーマンスを改善するだけでなく、DocREモデルをより堅牢にします。
論文参考訳（メタデータ） (2022-04-27T03:20:07Z)
Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文参考訳（メタデータ） (2021-10-04T03:59:15Z)
Weakly-Supervised Aspect-Based Sentiment Analysis via Joint Aspect-Sentiment Topic Embedding [71.2260967797055]
アスペクトベース感情分析のための弱教師付きアプローチを提案する。 We learn sentiment, aspects> joint topic embeddeds in the word embedding space。次に、ニューラルネットワークを用いて単語レベルの識別情報を一般化する。
論文参考訳（メタデータ） (2020-10-13T21:33:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。