論文の概要: A Topological Approach to Compare Document Semantics Based on a New
Variant of Syntactic N-grams
- arxiv url: http://arxiv.org/abs/2103.05135v1
- Date: Mon, 8 Mar 2021 23:16:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2021-03-10 15:01:49.977257
- Title: A Topological Approach to Compare Document Semantics Based on a New
Variant of Syntactic N-grams
- Title(参考訳): 構文N-gramの新しい変数に基づく文書セマンティックスの比較のためのトポロジ的アプローチ
- Authors: Fanchao Meng
- Abstract要約: 本論文では,シンタクティックn-gram(sn-grams)の思考と利用に関する新たな視点を提案する。
一般化語句(GP)という,sn-gramの新しい変種を提案する。
そして、GPに基づいて、文書の意味的類似性を計算するためにDSCoHというトポロジ的アプローチを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper delivers a new perspective of thinking and utilizing syntactic
n-grams (sn-grams). Sn-grams are a type of non-linear n-grams which have been
playing a critical role in many NLP tasks. Introducing sn-grams to comparing
document semantics thus is an appealing application, and few studies have
reported progress at this. However, when proceeding on this application, we
found three major issues of sn-grams: lack of significance, being sensitive to
word orders and failing on capture indirect syntactic relations. To address
these issues, we propose a new variant of sn-grams named generalized phrases
(GPs). Then based on GPs we propose a topological approach, named DSCoH, to
compute document semantic similarities. DSCoH has been extensively tested on
the document semantics comparison and the document clustering tasks. The
experimental results show that DSCoH can outperform state-of-the-art
embedding-based methods.
- Abstract(参考訳): 本稿では,シンタクティックn-gram(sn-grams)の思考と利用に関する新たな視点を提案する。
Sn-gramは、多くのNLPタスクにおいて重要な役割を果たす非線形n-gramの一種である。
このように文書のセマンティクスを比較するためにsn-gramを導入することは魅力的なアプリケーションであり、その進歩を報告した研究はほとんどない。
しかし,本研究では,sn-gramの重要課題として,意味の欠如,単語の順序に敏感であること,間接構文的関係の獲得に失敗することの3つを見出した。
これらの問題に対処するため,GP(Generalized phrases)と呼ばれるsn-gramの新しい変種を提案する。
そして、GPに基づいて、文書の意味的類似性を計算するためにDSCoHというトポロジ的アプローチを提案する。
DSCoHは文書セマンティクス比較と文書クラスタリングタスクで広くテストされている。
実験の結果,DSCoHは最先端の埋め込み方式よりも優れていることがわかった。
関連論文リスト
- Graph Contrastive Topic Model [17.12121078203536]
対照的な学習データセットを持つ既存のNTMは、単語頻度に基づくサンプリング戦略によるサンプルバイアスの問題に悩まされる。
そこで本研究では, 負のサンプルに, 意味的に関係のない単語を含まなければならないという新たなサンプリング仮定を提案する。
論文 参考訳(メタデータ) (2023-07-05T07:39:47Z) - Prototype-based Embedding Network for Scene Graph Generation [105.97836135784794]
現在のシーングラフ生成(SGG)手法は、コンテキスト情報を探索し、エンティティペア間の関係を予測する。
被写体と対象物の組み合わせが多様であるため、各述語カテゴリーには大きなクラス内変異が存在する。
プロトタイプベースのEmbedding Network (PE-Net) は、エンティティ/述語を、プロトタイプに準拠したコンパクトで独特な表現でモデル化する。
PLは、PE-Netがそのようなエンティティ述語マッチングを効率的に学習するのを助けるために導入され、不明瞭なエンティティ述語マッチングを緩和するためにプロトタイプ正規化(PR)が考案されている。
論文 参考訳(メタデータ) (2023-03-13T13:30:59Z) - A Few Shot Multi-Representation Approach for N-gram Spotting in
Historical Manuscripts [1.2930503923129213]
少数の文字列(N-gram)のスポッティングのための数ショット学習パラダイムを提案する。
我々は,重要なn-gramの認識が語彙依存の軽減につながることを示した。
論文 参考訳(メタデータ) (2022-09-21T15:35:02Z) - NC-DRE: Leveraging Non-entity Clue Information for Document-level
Relation Extraction [3.276435438007766]
文書レベルの関係抽出(RE)は、複雑な文間関係を特定するために、異なる文の複数のエンティティを推論する必要がある。
従来の研究では、異種文書グラフの推論にグラフニューラルネットワーク(GNN)が用いられていた。
文書レベルの関係抽出に非エンタリティ・クリュー情報を活用するために,デコーダからエンコーダへのアテンション機構を導入した新しいグラフベースモデルNC-DREを提案する。
論文 参考訳(メタデータ) (2022-04-01T07:30:26Z) - Community-Detection via Hashtag-Graphs for Semi-Supervised NMF Topic
Models [0.0]
本稿では,ハッシュタググラフのトピック構造をトピックモデルに組み込む手法について概説する。
最近ストリーミングされたTwitterのデータにこのアプローチを適用することで、この手順がより直感的で人間的に解釈可能なトピックにつながることが分かるだろう。
論文 参考訳(メタデータ) (2021-11-17T12:52:16Z) - Hierarchical Heterogeneous Graph Representation Learning for Short Text
Classification [60.233529926965836]
短文分類のためのグラフニューラルネットワーク(GNN)に基づく ShiNE と呼ばれる新しい手法を提案する。
まず,短文データセットを単語レベル成分グラフからなる階層的不均一グラフとしてモデル化する。
そして、類似した短いテキスト間の効果的なラベル伝搬を容易にするショート文書グラフを動的に学習する。
論文 参考訳(メタデータ) (2021-10-30T05:33:05Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - Learning the Implicit Semantic Representation on Graph-Structured Data [57.670106959061634]
グラフ畳み込みネットワークにおける既存の表現学習手法は主に、各ノードの近傍を知覚全体として記述することで設計される。
本稿では,グラフの潜在意味パスを学習することで暗黙的な意味を探索する意味グラフ畳み込みネットワーク(sgcn)を提案する。
論文 参考訳(メタデータ) (2021-01-16T16:18:43Z) - Keyphrase Extraction with Dynamic Graph Convolutional Networks and
Diversified Inference [50.768682650658384]
キーワード抽出(KE)は、ある文書でカバーされている概念やトピックを正確に表現するフレーズの集合を要約することを目的としている。
最近のシークエンス・ツー・シークエンス(Seq2Seq)ベースの生成フレームワークはKEタスクで広く使われ、様々なベンチマークで競合性能を得た。
本稿では,この2つの問題を同時に解くために,動的グラフ畳み込みネットワーク(DGCN)を採用することを提案する。
論文 参考訳(メタデータ) (2020-10-24T08:11:23Z) - Improving Chinese Segmentation-free Word Embedding With Unsupervised
Association Measure [3.9435648520559177]
時間情報とポイントワイド関連性(PATI)という,新しい教師なしの関連尺度を通じてn-gramの語彙を収集することにより,セグメンテーションフリーな単語埋め込みモデルを提案する
提案手法では, コーパスからより潜時的な情報を利用して, 中国語テキストなどの未分類言語データに, より強い凝集度を持つn-gramを埋め込み, より有効なn-gramを収集できる。
論文 参考訳(メタデータ) (2020-07-05T13:55:19Z) - Sequential Graph Convolutional Network for Active Learning [53.99104862192055]
逐次グラフ畳み込みネットワーク(GCN)を用いた新しいプールベースアクティブラーニングフレームワークを提案する。
少数のランダムなサンプル画像がシードラベル付き例であるので、グラフのパラメータを学習してラベル付きノードと非ラベル付きノードを区別する。
我々はGCNの特性を利用してラベル付けされたものと十分に異なる未ラベルの例を選択する。
論文 参考訳(メタデータ) (2020-06-18T00:55:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。