論文の概要: A Topological Method for Comparing Document Semantics
- arxiv url: http://arxiv.org/abs/2012.04203v1
- Date: Tue, 8 Dec 2020 04:21:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-17 10:09:32.821868
- Title: A Topological Method for Comparing Document Semantics
- Title(参考訳): 文書セマンティックスの比較のためのトポロジ的手法
- Authors: Yuqi Kong, Fanchao Meng, Benjamin Carterette
- Abstract要約: 2つの文書間の意味的類似性を比較するための新しいアルゴリズムを提案する。
私たちの実験は、人間の判定結果を含む文書データセット上で行われます。
提案アルゴリズムは,NLTKとの結びつきはあるものの,人間の一貫性の高い結果が得られるとともに,ほとんどの最先端の手法に勝る。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Comparing document semantics is one of the toughest tasks in both Natural
Language Processing and Information Retrieval. To date, on one hand, the tools
for this task are still rare. On the other hand, most relevant methods are
devised from the statistic or the vector space model perspectives but nearly
none from a topological perspective. In this paper, we hope to make a different
sound. A novel algorithm based on topological persistence for comparing
semantics similarity between two documents is proposed. Our experiments are
conducted on a document dataset with human judges' results. A collection of
state-of-the-art methods are selected for comparison. The experimental results
show that our algorithm can produce highly human-consistent results, and also
beats most state-of-the-art methods though ties with NLTK.
- Abstract(参考訳): ドキュメントセマンティクスの比較は、自然言語処理と情報検索の両方において、最も難しいタスクの1つです。
今のところ、このタスクのツールはまだ稀だ。
一方、最も関連する手法は統計学的あるいはベクトル空間モデルの観点から考案されるが、位相的観点からはほとんどない。
本稿では,異なる音を奏でることを願っている。
2つの文書間の意味的類似性を比較するためのトポロジ的永続性に基づく新しいアルゴリズムを提案する。
私たちの実験は、人間の判定結果を含む文書データセット上で行われます。
比較のために最先端メソッドのコレクションが選択される。
実験結果から,本アルゴリズムはnltkと密接な関係をも有するが,高い人間一貫性を持つ結果が得られることが示された。
関連論文リスト
- Relation-aware Ensemble Learning for Knowledge Graph Embedding [68.94900786314666]
我々は,既存の手法を関係性に配慮した方法で活用し,アンサンブルを学習することを提案する。
関係認識アンサンブルを用いてこれらのセマンティクスを探索すると、一般的なアンサンブル法よりもはるかに大きな検索空間が得られる。
本稿では,リレーショナルなアンサンブル重みを独立に検索する分割探索合成アルゴリズムRelEns-DSCを提案する。
論文 参考訳(メタデータ) (2023-10-13T07:40:12Z) - A Comparative Study of Sentence Embedding Models for Assessing Semantic
Variation [0.0]
本稿では,複数の文献において,連続する文間の意味的類似性の時系列と対の文類似性の行列を用いた最近の文埋め込み法について比較する。
文の埋め込み手法のほとんどは、ある文書において意味的類似性の高相関パターンを推定するが、興味深い相違が見られる。
論文 参考訳(メタデータ) (2023-08-08T23:31:10Z) - Topics in the Haystack: Extracting and Evaluating Topics beyond
Coherence [0.0]
本稿では,文と文書のテーマを深く理解する手法を提案する。
これにより、一般的な単語やネオロジズムを含む潜在トピックを検出することができる。
本稿では, 侵入者の単語の人間識別と相関係数を示し, 単語侵入作業において, ほぼ人間レベルの結果を得る。
論文 参考訳(メタデータ) (2023-03-30T12:24:25Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Fine-Grained Visual Entailment [51.66881737644983]
そこで本稿では,テキストから画像への微粒な知識要素の論理的関係を予測することを目的として,このタスクの拡張を提案する。
従来の研究とは異なり、本手法は本質的に説明可能であり、異なるレベルの粒度で論理的予測を行う。
本手法は,手動でアノテートした知識要素のデータセットを用いて評価し,この課題に対して68.18%の精度を達成できることを示す。
論文 参考訳(メタデータ) (2022-03-29T16:09:38Z) - Learning with Neighbor Consistency for Noisy Labels [69.83857578836769]
特徴空間におけるトレーニング例間の類似性を利用した雑音ラベルから学習する手法を提案する。
合成(CIFAR-10, CIFAR-100)とリアル(mini-WebVision, Clothing1M, mini-ImageNet-Red)の両方のノイズを評価するデータセットの評価を行った。
論文 参考訳(メタデータ) (2022-02-04T15:46:27Z) - TFW2V: An Enhanced Document Similarity Method for the Morphologically
Rich Finnish Language [0.5801044612920816]
本研究は,形態学的に豊かな言語であるフィンランド語に対する現在のアプローチの実験に焦点をあてる。
本稿では,長文文書と限られた量のデータの両方を扱う上で,高い効率性を示す簡易な方法TFW2Vを提案する。
論文 参考訳(メタデータ) (2021-12-23T12:27:45Z) - A novel hybrid methodology of measuring sentence similarity [0.0]
文間の類似性を正確に測定する必要がある。
ディープラーニング手法は、多くの自然言語処理分野における最先端のパフォーマンスを示す。
文の構造や文を構成する単語構造を考えることも重要である。
論文 参考訳(メタデータ) (2021-05-03T06:50:54Z) - Efficient Clustering from Distributions over Topics [0.0]
本稿では,類似度関数を計算可能な文書の小さなサブセットを識別する手段として,コレクション内の文書上のトピックモデリングアルゴリズムの結果に依存するアプローチを提案する。
このアプローチは、科学出版分野における類似文書の特定において、有望な結果を得ることが証明されている。
論文 参考訳(メタデータ) (2020-12-15T10:52:19Z) - Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。
提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。
分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文 参考訳(メタデータ) (2020-11-13T10:53:27Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。