論文の概要: Aspect-based Document Similarity for Research Papers
- arxiv url: http://arxiv.org/abs/2010.06395v1
- Date: Tue, 13 Oct 2020 13:51:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-08 00:14:55.091608
- Title: Aspect-based Document Similarity for Research Papers
- Title(参考訳): アスペクトに基づく研究論文の類似性
- Authors: Malte Ostendorff, Terry Ruas, Till Blume, Bela Gipp, Georg Rehm
- Abstract要約: 文書分類タスクのペア化によってアスペクト情報との類似性を拡張する。
研究論文のアスペクトベースの文書類似性を評価する。
以上の結果から,SciBERTは最高の演奏システムであることがわかった。
- 参考スコア(独自算出の注目度): 4.661692753666685
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional document similarity measures provide a coarse-grained distinction
between similar and dissimilar documents. Typically, they do not consider in
what aspects two documents are similar. This limits the granularity of
applications like recommender systems that rely on document similarity. In this
paper, we extend similarity with aspect information by performing a pairwise
document classification task. We evaluate our aspect-based document similarity
for research papers. Paper citations indicate the aspect-based similarity,
i.e., the section title in which a citation occurs acts as a label for the pair
of citing and cited paper. We apply a series of Transformer models such as
RoBERTa, ELECTRA, XLNet, and BERT variations and compare them to an LSTM
baseline. We perform our experiments on two newly constructed datasets of
172,073 research paper pairs from the ACL Anthology and CORD-19 corpus. Our
results show SciBERT as the best performing system. A qualitative examination
validates our quantitative results. Our findings motivate future research of
aspect-based document similarity and the development of a recommender system
based on the evaluated techniques. We make our datasets, code, and trained
models publicly available.
- Abstract(参考訳): 従来の文書類似度尺度は、類似文書と異種文書とを大まかに区別する。
典型的には、2つの文書がどの面に類似しているかは考慮していない。
これにより、文書の類似性に依存するレコメンダシステムのようなアプリケーションの粒度が制限される。
本稿では,ペアワイズ文書分類タスクを実行し,アスペクト情報との類似性を拡張する。
研究論文のアスペクトベースの文書類似性を評価する。
論文引用は、アスペクトベースの類似性、すなわち引用が起こるセクションタイトルが引用と引用の2つの紙のラベルとして機能することを示す。
本稿では,RoBERTa,ELECTRA,XLNet,BERTなど一連のトランスフォーマーモデルを適用し,LSTMベースラインと比較する。
ACLアンソロジーとCORD-19コーパスから新たに構築した172,073枚の研究論文のデータセットについて実験を行った。
この結果から,SciBERTは最高の演奏システムであることがわかった。
定性試験は我々の定量的結果を検証する。
本研究は,アスペクトベース文書の類似性に関する今後の研究と,評価手法に基づく推薦システムの開発を動機付けるものである。
データセット、コード、トレーニング済みのモデルを公開しています。
関連論文リスト
- CausalCite: A Causal Formulation of Paper Citations [80.82622421055734]
CausalCiteは紙の意義を測定するための新しい方法だ。
これは、従来のマッチングフレームワークを高次元のテキスト埋め込みに適応させる、新しい因果推論手法であるTextMatchに基づいている。
科学専門家が報告した紙衝撃と高い相関性など,各種基準におけるCausalCiteの有効性を実証する。
論文 参考訳(メタデータ) (2023-11-05T23:09:39Z) - Learning Diverse Document Representations with Deep Query Interactions
for Dense Retrieval [79.37614949970013]
そこで本研究では,問合せの深い文書表現を学習する高密度検索モデルを提案する。
本モデルでは,各文書に生成した擬似クエリをエンコードして,クエリインフォームド・マルチビュー文書表現を得る。
論文 参考訳(メタデータ) (2022-08-08T16:00:55Z) - Document-Level Relation Extraction with Sentences Importance Estimation
and Focusing [52.069206266557266]
文書レベルの関係抽出(DocRE)は、複数の文の文書から2つのエンティティ間の関係を決定することを目的としている。
我々はDocREのための文重要度スコアと文集中損失を設計するSIEF(Sentence Estimation and Focusing)フレームワークを提案する。
2つのドメインの実験結果から、SIEFは全体的なパフォーマンスを改善するだけでなく、DocREモデルをより堅牢にします。
論文 参考訳(メタデータ) (2022-04-27T03:20:07Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z) - Specialized Document Embeddings for Aspect-based Similarity of Research
Papers [4.661692753666685]
アスペクトベースの類似性は、アスペクト固有の埋め込み空間における古典的ベクトル類似性問題として扱う。
文書は単一の汎用的な埋め込みではなく、複数の専門的な埋め込みとして表現する。
当社のアプローチは、暗黙の偏見から生じる潜在的なリスクを明確化することで軽減します。
論文 参考訳(メタデータ) (2022-03-28T07:35:26Z) - Multi-Vector Models with Textual Guidance for Fine-Grained Scientific
Document Similarity [11.157086694203201]
本稿では, 微粒な面のマッチングに基づく新しい科学的文書類似性モデルを提案する。
本モデルは,テキスト管理の新たな形態として,関連論文の側面を記述した共引用文脈を用いて学習する。
論文 参考訳(メタデータ) (2021-11-16T11:12:30Z) - Eider: Evidence-enhanced Document-level Relation Extraction [56.71004595444816]
文書レベルの関係抽出(DocRE)は、文書内のエンティティペア間の意味関係を抽出することを目的としている。
本稿では,共同関係と証拠抽出,エビデンス中心関係抽出(RE),抽出結果の融合からなる3段階のエビデンス強化DocREフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-16T09:43:16Z) - Self-Supervised Document Similarity Ranking via Contextualized Language
Models and Hierarchical Inference [21.232963704793143]
本稿では,任意の長さの文書に適用可能な文書類似性の自己管理手法であるSDRを紹介する。
SDRは、Longformerの最大トークン制限4,096を超え、非常に長いドキュメントに効果的に適用できる。
我々は、長い文書の類似性評価を人間に注釈付けした2つのテストセットを公表する。
論文 参考訳(メタデータ) (2021-06-02T14:29:35Z) - Methods for Computing Legal Document Similarity: A Comparative Study [9.007583099505954]
同様の法的文書を見つけることは、法律情報検索分野において重要かつ困難な課題である。
本稿では,文献間の類似度を測定する方法として,先行引用ネットワークの分析と,テキスト内容の類似度測定に基づく類似度の測定の2つの方法を提案する。
これまでに検討されていない2つの新しい類似性計算手法(テキストベースとネットワーク埋め込みに基づくもの)について検討する。
論文 参考訳(メタデータ) (2020-04-26T08:26:04Z) - Fast(er) Reconstruction of Shredded Text Documents via Self-Supervised
Deep Asymmetric Metric Learning [62.34197797857823]
細断文書の自動復元における中心的な問題は、細断文書の相互互換性評価である。
本研究は,推定回数を線形にスケールするペアワイド互換性を測るスケーラブルな深層学習手法を提案する。
提案手法は,505個のシュレッダーを持つテストインスタンスに対して,22倍の高速化を実現した最先端技術に匹敵する精度を有する。
論文 参考訳(メタデータ) (2020-03-23T03:22:06Z) - Pairwise Multi-Class Document Classification for Semantic Relations
between Wikipedia Articles [5.40541521227338]
2つの文書間の関係をペアワイズ文書分類タスクとして検索する問題をモデル化する。
文書間の意味的関係を見つけるために,GloVe, paragraph-s,BERT,XLNetなどの一連の手法を適用する。
我々は,新たに提案された32,168のウィキペディア記事ペアと,セマンティックドキュメントの関係を定義するウィキデータプロパティに関する実験を行った。
論文 参考訳(メタデータ) (2020-03-22T12:52:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。