論文の概要: Pairwise Multi-Class Document Classification for Semantic Relations
between Wikipedia Articles
- arxiv url: http://arxiv.org/abs/2003.09881v1
- Date: Sun, 22 Mar 2020 12:52:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 05:51:40.119482
- Title: Pairwise Multi-Class Document Classification for Semantic Relations
between Wikipedia Articles
- Title(参考訳): ウィキペディア記事間のセマンティック関係のためのペアワイズ多クラス文書分類
- Authors: Malte Ostendorff, Terry Ruas, Moritz Schubotz, Georg Rehm, Bela Gipp
- Abstract要約: 2つの文書間の関係をペアワイズ文書分類タスクとして検索する問題をモデル化する。
文書間の意味的関係を見つけるために,GloVe, paragraph-s,BERT,XLNetなどの一連の手法を適用する。
我々は,新たに提案された32,168のウィキペディア記事ペアと,セマンティックドキュメントの関係を定義するウィキデータプロパティに関する実験を行った。
- 参考スコア(独自算出の注目度): 5.40541521227338
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many digital libraries recommend literature to their users considering the
similarity between a query document and their repository. However, they often
fail to distinguish what is the relationship that makes two documents alike. In
this paper, we model the problem of finding the relationship between two
documents as a pairwise document classification task. To find the semantic
relation between documents, we apply a series of techniques, such as GloVe,
Paragraph-Vectors, BERT, and XLNet under different configurations (e.g.,
sequence length, vector concatenation scheme), including a Siamese architecture
for the Transformer-based systems. We perform our experiments on a newly
proposed dataset of 32,168 Wikipedia article pairs and Wikidata properties that
define the semantic document relations. Our results show vanilla BERT as the
best performing system with an F1-score of 0.93, which we manually examine to
better understand its applicability to other domains. Our findings suggest that
classifying semantic relations between documents is a solvable task and
motivates the development of recommender systems based on the evaluated
techniques. The discussions in this paper serve as first steps in the
exploration of documents through SPARQL-like queries such that one could find
documents that are similar in one aspect but dissimilar in another.
- Abstract(参考訳): 多くのデジタルライブラリは、クエリドキュメントとリポジトリの類似性を考慮した文献をユーザに推奨している。
しかし、2つの文書を類似させる関係を区別できないことが多い。
本稿では,2つの文書間の関係をペアワイズ文書分類タスクとして求める問題をモデル化する。
文書間の意味的関係を求めるために,グラブ,段落ベクトル,bert,xlnet などの手法を,トランスフォーマー系システムのための siamese アーキテクチャを含む,異なる構成(シーケンス長,ベクトル連結スキームなど)で適用する。
我々は,新たに提案された32,168のウィキペディア記事ペアと,セマンティックドキュメントの関係を定義するウィキデータプロパティに関する実験を行った。
以上の結果から,バニラBERTはF1スコア0.93の最高の演奏システムであり,他の領域への適用性について手作業で検討した。
その結果,文書間の意味関係の分類は解決可能な課題であり,評価手法に基づくレコメンダシステムの開発が動機であることが示唆された。
本稿では、SPARQLのようなクエリを使って文書を探索する最初のステップとして、ある点で類似しているが別の面では異なっていた文書を見つけることができる。
関連論文リスト
- Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - Generative Retrieval Meets Multi-Graded Relevance [104.75244721442756]
GRADed Generative Retrieval (GR$2$)というフレームワークを紹介します。
GR$2$は2つの重要なコンポーネントに焦点を当てている。
マルチグレードとバイナリの関連性を持つデータセットの実験は,GR$2$の有効性を示した。
論文 参考訳(メタデータ) (2024-09-27T02:55:53Z) - PDFTriage: Question Answering over Long, Structured Documents [60.96667912964659]
構造化文書をプレーンテキストとして表現することは、これらの文書をリッチな構造でユーザ精神モデルと矛盾する。
本稿では,構造や内容に基づいて,モデルがコンテキストを検索できるPDFTriageを提案する。
ベンチマークデータセットは,80以上の構造化文書に900以上の人間が生成した質問からなる。
論文 参考訳(メタデータ) (2023-09-16T04:29:05Z) - DAPR: A Benchmark on Document-Aware Passage Retrieval [57.45793782107218]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。
State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。
提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文 参考訳(メタデータ) (2023-05-23T10:39:57Z) - Cross-Modal Entity Matching for Visually Rich Documents [4.8119678510491815]
視覚的にリッチなドキュメントは、視覚的な手がかりを使ってセマンティクスを強化します。
これらのドキュメントの構造化クエリを可能にする既存の作業は、これを考慮に入れない。
この制限に対処するクロスモーダルなエンティティマッチングフレームワークであるJunoを提案する。
論文 参考訳(メタデータ) (2023-03-01T18:26:14Z) - CAPSTONE: Curriculum Sampling for Dense Retrieval with Document
Expansion [68.19934563919192]
本稿では,学習中に擬似クエリを利用して,生成したクエリと実際のクエリとの関係を徐々に向上させるカリキュラムサンプリング戦略を提案する。
ドメイン内およびドメイン外両方のデータセットに対する実験結果から,本手法が従来の高密度検索モデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-12-18T15:57:46Z) - Learning Diverse Document Representations with Deep Query Interactions
for Dense Retrieval [79.37614949970013]
そこで本研究では,問合せの深い文書表現を学習する高密度検索モデルを提案する。
本モデルでは,各文書に生成した擬似クエリをエンコードして,クエリインフォームド・マルチビュー文書表現を得る。
論文 参考訳(メタデータ) (2022-08-08T16:00:55Z) - Specialized Document Embeddings for Aspect-based Similarity of Research
Papers [4.661692753666685]
アスペクトベースの類似性は、アスペクト固有の埋め込み空間における古典的ベクトル類似性問題として扱う。
文書は単一の汎用的な埋め込みではなく、複数の専門的な埋め込みとして表現する。
当社のアプローチは、暗黙の偏見から生じる潜在的なリスクを明確化することで軽減します。
論文 参考訳(メタデータ) (2022-03-28T07:35:26Z) - Aspect-based Document Similarity for Research Papers [4.661692753666685]
文書分類タスクのペア化によってアスペクト情報との類似性を拡張する。
研究論文のアスペクトベースの文書類似性を評価する。
以上の結果から,SciBERTは最高の演奏システムであることがわかった。
論文 参考訳(メタデータ) (2020-10-13T13:51:21Z) - Document Network Projection in Pretrained Word Embedding Space [7.455546102930911]
本稿では,リンクされた文書の集合を事前学習した単語埋め込み空間に投影する新しい手法である正規化線形埋め込み(RLE)を提案する。
我々は相補的な情報を提供するペアワイズ類似性の行列を利用する(例えば、引用グラフ内の2つの文書のネットワーク近接)。
ドキュメント表現は、レコメンデーション、分類、クラスタリングなど、多くの情報検索タスクを解決するのに役立つ。
論文 参考訳(メタデータ) (2020-01-16T10:16:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。