論文の概要: SChuBERT: Scholarly Document Chunks with BERT-encoding boost Citation
Count Prediction
- arxiv url: http://arxiv.org/abs/2012.11740v1
- Date: Mon, 21 Dec 2020 23:14:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-27 06:46:07.410203
- Title: SChuBERT: Scholarly Document Chunks with BERT-encoding boost Citation
Count Prediction
- Title(参考訳): SChuBERT: BERTエンコードによるCitation Count予測による文書化
- Authors: Thomas van Dongen, Gideon Maillette de Buy Wenniger, Lambert Schomaker
- Abstract要約: SChuBERTと呼ばれる新しい引用予測モデルを提案する。
実験では、SChuBERTといくつかの最先端の引用予測モデルを比較し、従来の手法よりも大きなマージンで優れていることを示す。
- 参考スコア(独自算出の注目度): 4.640835690336652
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Predicting the number of citations of scholarly documents is an upcoming task
in scholarly document processing. Besides the intrinsic merit of this
information, it also has a wider use as an imperfect proxy for quality which
has the advantage of being cheaply available for large volumes of scholarly
documents. Previous work has dealt with number of citations prediction with
relatively small training data sets, or larger datasets but with short,
incomplete input text. In this work we leverage the open access ACL Anthology
collection in combination with the Semantic Scholar bibliometric database to
create a large corpus of scholarly documents with associated citation
information and we propose a new citation prediction model called SChuBERT. In
our experiments we compare SChuBERT with several state-of-the-art citation
prediction models and show that it outperforms previous methods by a large
margin. We also show the merit of using more training data and longer input for
number of citations prediction.
- Abstract(参考訳): 学術文書の引用数を予測することは学術文書処理における今後の課題である。
この情報の本質的なメリットに加えて、大量の学術文書で安価に利用できるという利点を持つ品質の不完全な代理人として広く利用されている。
以前の研究では、比較的小さなトレーニングデータセットや大きなデータセットで、短い不完全な入力テキストで、引用数を予測していた。
本研究では,オープンアクセスACLアンソロジーコレクションとセマンティック学術文献データベースを併用して,学術文献の大量のコーパスと関連する引用情報を作成し,SChuBERTと呼ばれる新たな引用予測モデルを提案する。
実験では、SChuBERTといくつかの最先端の引用予測モデルを比較し、従来の手法よりも大きなマージンで優れていることを示す。
また,より多くの学習データと,引用数予測のためのより長い入力を用いるメリットを示す。
関連論文リスト
- unarXive 2022: All arXiv Publications Pre-Processed for NLP, Including
Structured Full-Text and Citation Network [0.0]
我々は、unarXiveというデータセットの新バージョンを提案する。
得られたデータセットは、複数の分野にまたがる1.9Mの出版物と32年からなる。
データセットに加えて、引用レコメンデーションとIMRaD分類のための準備の整ったトレーニング/テストデータを提供する。
論文 参考訳(メタデータ) (2023-03-27T07:40:59Z) - CiteBench: A benchmark for Scientific Citation Text Generation [69.37571393032026]
CiteBenchは引用テキスト生成のベンチマークである。
CiteBenchのコードはhttps://github.com/UKPLab/citebench.comで公開しています。
論文 参考訳(メタデータ) (2022-12-19T16:10:56Z) - Scientific Paper Extractive Summarization Enhanced by Citation Graphs [50.19266650000948]
我々は、引用グラフを活用して、異なる設定下での科学的論文の抽出要約を改善することに重点を置いている。
予備的な結果は、単純な教師なしフレームワークであっても、引用グラフが有用であることを示している。
そこで我々は,大規模ラベル付きデータが利用可能である場合のタスクにおいて,より正確な結果を得るために,グラフベースのスーパービジョン・サムライゼーション・モデル(GSS)を提案する。
論文 参考訳(メタデータ) (2022-12-08T11:53:12Z) - Towards generating citation sentences for multiple references with
intent control [86.53829532976303]
We build a novel generation model with the Fusion-in-Decoder approach to handlee with multiple long inputs。
実験により,提案手法は引用文を生成するためのより包括的な特徴を提供することが示された。
論文 参考訳(メタデータ) (2021-12-02T15:32:24Z) - MultiCite: Modeling realistic citations requires moving beyond the
single-sentence single-label setting [13.493267499658527]
我々は1200以上の計算言語学論文から12,653の引用コンテキストのデータセットであるMultiCiteをリリースした。
従来のCCAモデルのトレーニングにはまだ使用可能なデータセットが,固定幅テキスト分類以外にも,CCAの新しいタイプのモデルの開発をサポートすることを示す。
論文 参考訳(メタデータ) (2021-07-01T12:54:23Z) - CitationIE: Leveraging the Citation Graph for Scientific Information
Extraction [89.33938657493765]
引用論文と引用論文の参照リンクの引用グラフを使用する。
最先端技術に対するエンド・ツー・エンドの情報抽出の大幅な改善を観察する。
論文 参考訳(メタデータ) (2021-06-03T03:00:12Z) - Enhancing Scientific Papers Summarization with Citation Graph [78.65955304229863]
引用グラフを用いて科学論文の要約作業を再定義します。
我々は,141kの研究論文を異なる領域に格納した,新しい科学論文要約データセットセマンティックスタディネットワーク(ssn)を構築した。
我々のモデルは、事前訓練されたモデルと比較して競争性能を達成することができる。
論文 参考訳(メタデータ) (2021-04-07T11:13:35Z) - Utilizing Citation Network Structure to Predict Citation Counts: A Deep
Learning Approach [0.0]
本稿では,情報カスケードの効果を組み合わせ,引用数予測問題に注目するエンド・ツー・エンドのディープラーニングネットワークであるDeepCCPを提案する。
6つの実データ集合の実験によると、DeepCCPは引用数予測の精度において最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2020-09-06T05:27:50Z) - Learning Neural Textual Representations for Citation Recommendation [7.227232362460348]
サブモジュラースコアリング機能において,シームズとトリプルトネットワークを併用した文書(センテンス-BERT)の深部表現を用いた引用推薦手法を提案する。
我々の知る限りでは、これは引用推薦のタスクに対して、ディープ表現とサブモジュラー選択を組み合わせるための最初のアプローチである。
論文 参考訳(メタデータ) (2020-07-08T12:38:50Z) - Context-Based Quotation Recommendation [60.93257124507105]
本稿では,新しい文脈対応引用レコメンデーションシステムを提案する。
これは、所定のソース文書から引用可能な段落とトークンの列挙リストを生成する。
音声テキストと関連するニュース記事の収集実験を行う。
論文 参考訳(メタデータ) (2020-05-17T17:49:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。