論文の概要: Quantifying the Dissimilarity of Texts
- arxiv url: http://arxiv.org/abs/2305.02457v1
- Date: Wed, 3 May 2023 22:59:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-05 17:34:07.312026
- Title: Quantifying the Dissimilarity of Texts
- Title(参考訳): テキストの相違の定量化
- Authors: Benjamin Shade and Eduardo G. Altmann
- Abstract要約: 2つのテキストの相似性を定量化することは、多くの自然言語処理タスクの重要な側面である。
テキストの3つの異なる表現を用いて、異なる異種度尺度の特性と性能を$D$で比較した。
一般化されたジェンセン-シャノンの発散が全タスクに強く作用することを発見した。
また, 解析的にも数値的にも, 2つのテキストの長さが$h$で異なる場合のD$の挙動について検討した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Quantifying the dissimilarity of two texts is an important aspect of a number
of natural language processing tasks, including semantic information retrieval,
topic classification, and document clustering. In this paper, we compared the
properties and performance of different dissimilarity measures $D$ using three
different representations of texts -- vocabularies, word frequency
distributions, and vector embeddings -- and three simple tasks -- clustering
texts by author, subject, and time period. Using the Project Gutenberg
database, we found that the generalised Jensen--Shannon divergence applied to
word frequencies performed strongly across all tasks, that $D$'s based on
vector embedding representations led to stronger performance for smaller texts,
and that the optimal choice of approach was ultimately task-dependent. We also
investigated, both analytically and numerically, the behaviour of the different
$D$'s when the two texts varied in length by a factor $h$. We demonstrated that
the (natural) estimator of the Jaccard distance between vocabularies was
inconsistent and computed explicitly the $h$-dependency of the bias of the
estimator of the generalised Jensen--Shannon divergence applied to word
frequencies. We also found numerically that the Jensen--Shannon divergence and
embedding-based approaches were robust to changes in $h$, while the Jaccard
distance was not.
- Abstract(参考訳): 2つのテキストの相違を定量化することは、セマンティック情報検索、トピック分類、文書クラスタリングなど、多くの自然言語処理タスクの重要な側面である。
In this paper, we compared the properties and performance of different dissimilarity measures $D$ using three different representations of texts -- vocabularies, word frequency distributions, and vector embeddings -- and three simple tasks -- clustering texts by author, subject, and time period. Using the Project Gutenberg database, we found that the generalised Jensen--Shannon divergence applied to word frequencies performed strongly across all tasks, that $D$'s based on vector embedding representations led to stronger performance for smaller texts, and that the optimal choice of approach was ultimately task-dependent.
また,解析的にも数値的にも,2つのテキストの長さが$h$で異なる場合のD$の挙動について検討した。
我々は,語彙間のジャカード距離の(自然な)推定値が矛盾していることを示し,一般化したジェンセン-シャノン発散量の推定値のバイアスの$h$依存性を明示的に計算した。また,ジェンセン-シャノン発散と埋め込みに基づくアプローチが$h$の変化に対して頑健であることも数値的に見出した。
関連論文リスト
- Evaluating Semantic Variation in Text-to-Image Synthesis: A Causal Perspective [50.261681681643076]
本稿では,SemVarEffectとSemVarBenchというベンチマークを用いて,テキスト・画像合成における入力のセマンティックな変化と出力の因果性を評価する。
本研究は,T2I合成コミュニティによるヒューマンインストラクション理解の探索を促進する効果的な評価枠組みを確立する。
論文 参考訳(メタデータ) (2024-10-14T08:45:35Z) - A Semantic Distance Metric Learning approach for Lexical Semantic Change Detection [30.563130208194977]
Lexical Semantic Change Detection (SCD) タスクでは、与えられたターゲット語である$w$が2つの異なるテキストコーパス間で意味を変えるかどうかを予測する。
既存のWord-in-Context(WiC)データセットを用いた教師付き2段階のSCD手法を提案する。
SCDのための複数のベンチマークデータセットの実験結果から,提案手法が複数の言語で高い性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2024-03-01T02:09:25Z) - Unsupervised extraction of local and global keywords from a single text [0.0]
テキストからキーワードを抽出する非教師付きコーパス非依存手法を提案する。
それは、単語の空間分布と、単語のランダムな置換に対するこの分布の応答に基づいている。
論文 参考訳(メタデータ) (2023-07-26T07:36:25Z) - Syntax and Semantics Meet in the "Middle": Probing the Syntax-Semantics
Interface of LMs Through Agentivity [68.8204255655161]
このような相互作用を探索するためのケーススタディとして,作用性のセマンティックな概念を提示する。
これは、LMが言語アノテーション、理論テスト、発見のためのより有用なツールとして役立つ可能性を示唆している。
論文 参考訳(メタデータ) (2023-05-29T16:24:01Z) - USB: A Unified Summarization Benchmark Across Tasks and Domains [68.82726887802856]
ウィキペディア由来のベンチマークを導入し、クラウドソースアノテーションの豊富なセットを補完し、8ドルの相互関連タスクをサポートする。
このベンチマークで様々な手法を比較し、複数のタスクにおいて、中程度の大きさの微調整されたモデルが、より大きな数発の言語モデルよりも一貫して優れていることを発見した。
論文 参考訳(メタデータ) (2023-05-23T17:39:54Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - A Case Study of Spanish Text Transformations for Twitter Sentiment
Analysis [1.9694608733361543]
感性分析は、与えられたテキストの極性、すなわちその正性または負性を決定するテキストマイニングタスクである。
テキスト表現の新しい形式は、スラング、正書法、文法的誤りを用いてテキストを分析するための新しい課題を示す。
論文 参考訳(メタデータ) (2021-06-03T17:24:31Z) - Intrinsic Probing through Dimension Selection [69.52439198455438]
現代のほとんどのNLPシステムは、様々なタスクにおいて驚くほど高いパフォーマンスが得られる事前訓練された文脈表現を使用している。
このような高いパフォーマンスは、ある種の言語構造がこれらの表現に根ざしない限りはあり得ず、それを探究する研究が盛んに行われている。
本稿では,言語情報が表現内でどのように構造化されているかを示す内在的探索と,先行研究で広く普及している外在的探索とを区別し,抽出に成功したことを示すことによって,そのような情報の存在を主張するのみである。
論文 参考訳(メタデータ) (2020-10-06T15:21:08Z) - UiO-UvA at SemEval-2020 Task 1: Contextualised Embeddings for Lexical
Semantic Change Detection [5.099262949886174]
本稿では,時とともに意味的ドリフトの度合いで単語をランク付けするSubtask 2に焦点を当てた。
最も効果的なアルゴリズムは、平均的なトークン埋め込みとトークン埋め込み間のペア距離のコサイン類似性に依存する。
論文 参考訳(メタデータ) (2020-04-30T18:43:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。