論文の概要: Document Embedding for Scientific Articles: Efficacy of Word Embeddings
vs TFIDF
- arxiv url: http://arxiv.org/abs/2107.05151v1
- Date: Sun, 11 Jul 2021 23:58:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-14 00:25:45.214567
- Title: Document Embedding for Scientific Articles: Efficacy of Word Embeddings
vs TFIDF
- Title(参考訳): 学術論文への埋め込み:単語埋め込みとTFIDFの有効性
- Authors: H.J. Meijer, J. Truong, R. Karimi
- Abstract要約: 本研究は,大規模学術コーパスに適用した単語埋め込みの性能に着目した。
我々は, 学習語埋め込みの品質と効率を, 科学論文の内容のモデル化におけるTFIDF表現と比較した。
以上の結果から,単語埋め込みに基づくコンテンツモデルの方がタイトル(短文)に,TFIDFは抽象文(長文)に好適であることが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Over the last few years, neural network derived word embeddings became
popular in the natural language processing literature. Studies conducted have
mostly focused on the quality and application of word embeddings trained on
public available corpuses such as Wikipedia or other news and social media
sources. However, these studies are limited to generic text and thus lack
technical and scientific nuances such as domain specific vocabulary,
abbreviations, or scientific formulas which are commonly used in academic
context. This research focuses on the performance of word embeddings applied to
a large scale academic corpus. More specifically, we compare quality and
efficiency of trained word embeddings to TFIDF representations in modeling
content of scientific articles. We use a word2vec skip-gram model trained on
titles and abstracts of about 70 million scientific articles. Furthermore, we
have developed a benchmark to evaluate content models in a scientific context.
The benchmark is based on a categorization task that matches articles to
journals for about 1.3 million articles published in 2017. Our results show
that content models based on word embeddings are better for titles (short text)
while TFIDF works better for abstracts (longer text). However, the slight
improvement of TFIDF for larger text comes at the expense of 3.7 times more
memory requirement as well as up to 184 times higher computation times which
may make it inefficient for online applications. In addition, we have created a
2-dimensional visualization of the journals modeled via embeddings to
qualitatively inspect embedding model. This graph shows useful insights and can
be used to find competitive journals or gaps to propose new journals.
- Abstract(参考訳): ここ数年、ニューラルネットワークによる単語の埋め込みは自然言語処理の文献で人気を博した。
研究は主に、ウィキペディアや他のニュースやソーシャルメディアソースなどの公開コーパスで訓練された単語埋め込みの品質と応用に焦点を当てている。
しかし、これらの研究は一般的なテキストに限られており、それゆえに専門的な語彙や略語、学術的な文脈で一般的に用いられる科学的公式のような技術的・科学的ニュアンスを欠いている。
本研究は,大規模学術コーパスに適用した単語埋め込みの性能に着目した。
具体的には、訓練された単語埋め込みの品質と効率を、科学論文のコンテンツモデリングにおけるTFIDF表現と比較する。
我々は、約7000万の科学論文のタイトルと要約に基づいて訓練されたWord2vecスキップグラムモデルを使用する。
さらに,コンテンツモデルを科学的文脈で評価するベンチマークを開発した。
このベンチマークは、2017年に発行された約13万記事の論文とジャーナルをマッチングする分類タスクに基づいている。
以上の結果から,単語埋め込みに基づくコンテンツモデルはタイトル(短文)ではよいが,TFIDFは抽象文(長文)ではよいことがわかった。
しかし、より大きなテキストに対するtfidfのわずかな改善は、3.7倍のメモリ要求と最大184倍の計算時間を犠牲にして、オンラインアプリケーションでは非効率になる可能性がある。
さらに,組込みモデルを用いて2次元のジャーナルの可視化を行い,定性的に組込みモデルを検査した。
このグラフは有用な洞察を示し、新しいジャーナルを提案するための競合ジャーナルやギャップを見つけるために使用できる。
関連論文リスト
- The Semantic Scholar Open Data Platform [79.4493235243312]
セマンティック・スカラー(Semantic Scholar、S2)は、学術文献の発見と理解を支援することを目的としたオープンデータプラットフォームおよびウェブサイトである。
我々は、学術的なPDFコンテンツ抽出と知識グラフの自動構築のための最先端技術を用いて、パブリックおよびプロプライエタリなデータソースを組み合わせる。
このグラフには、構造解析されたテキスト、自然言語要約、ベクトル埋め込みなどの高度な意味的特徴が含まれている。
論文 参考訳(メタデータ) (2023-01-24T17:13:08Z) - CiteBench: A benchmark for Scientific Citation Text Generation [69.37571393032026]
CiteBenchは引用テキスト生成のベンチマークである。
CiteBenchのコードはhttps://github.com/UKPLab/citebench.comで公開しています。
論文 参考訳(メタデータ) (2022-12-19T16:10:56Z) - MIST: a Large-Scale Annotated Resource and Neural Models for Functions
of Modal Verbs in English Scientific Text [1.8502316793903635]
MISTデータセットは5つの科学領域に3737のモーダル・インスタンスを含み、それらの意味、実用的、または修辞的機能に注釈を付ける。
我々は、MIST上で競合するニューラルネットワークの集合を体系的に評価する。
我々のコーパス分析は、科学的コミュニティがモーダル動詞の使用で異なることを示す証拠を提供する。
論文 参考訳(メタデータ) (2022-12-14T11:10:03Z) - TERMinator: A system for scientific texts processing [0.0]
本稿では,学術文献から実体の抽出とそれらの意味的関係について述べる。
本稿では,2つのタスクに対するアノテーションを含むデータセットと,言語モデルが単語認識に与える影響を研究するためのTERMinatorと呼ばれるシステムを提案する。
論文 参考訳(メタデータ) (2022-09-29T15:14:42Z) - Automatic Analysis of Linguistic Features in Journal Articles of
Different Academic Impacts with Feature Engineering Techniques [0.975434908987426]
本研究では, 特徴工学的手法を用いて, 高次・中等度な学術誌RAのマイクロレベル言語的特徴の抽出を試みた。
英文記事のコーパスから特徴選択手法を用いて,25の高関連特徴を抽出した。
その結果, 隣接文間の内容語重複, 第三者代名詞の使用, 助動詞, 時制, 感情語など24種類の言語的特徴が, 学術的影響の異なる雑誌記事に対して一貫した, 正確な予測を提供することがわかった。
論文 参考訳(メタデータ) (2021-11-15T03:56:50Z) - CitationIE: Leveraging the Citation Graph for Scientific Information
Extraction [89.33938657493765]
引用論文と引用論文の参照リンクの引用グラフを使用する。
最先端技術に対するエンド・ツー・エンドの情報抽出の大幅な改善を観察する。
論文 参考訳(メタデータ) (2021-06-03T03:00:12Z) - CiteWorth: Cite-Worthiness Detection for Improved Scientific Document
Understanding [23.930041685595775]
本研究は,文が外部ソースを引用するか否かをラベル付けした英語における引用親和性検出の詳細な研究である。
CiteWorthは高品質で、挑戦的で、ドメイン適応のような問題の研究に適している。
論文 参考訳(メタデータ) (2021-05-23T11:08:45Z) - Enhancing Scientific Papers Summarization with Citation Graph [78.65955304229863]
引用グラフを用いて科学論文の要約作業を再定義します。
我々は,141kの研究論文を異なる領域に格納した,新しい科学論文要約データセットセマンティックスタディネットワーク(ssn)を構築した。
我々のモデルは、事前訓練されたモデルと比較して競争性能を達成することができる。
論文 参考訳(メタデータ) (2021-04-07T11:13:35Z) - What's New? Summarizing Contributions in Scientific Literature [85.95906677964815]
本稿では,論文のコントリビューションと作業状況について,個別の要約を生成するために,論文要約のアンタングル化という新たなタスクを導入する。
本稿では,学術論文のS2ORCコーパスを拡張し,コントリビューション・コントリビューション・コントリビューション・レファレンス・ラベルを付加する。
本稿では, 生成した出力の関連性, 新規性, 絡み合いを報告する総合的自動評価プロトコルを提案する。
論文 参考訳(メタデータ) (2020-11-06T02:23:01Z) - Be More with Less: Hypergraph Attention Networks for Inductive Text
Classification [56.98218530073927]
グラフニューラルネットワーク(GNN)は、研究コミュニティで注目され、この標準タスクで有望な結果を実証している。
成功にもかかわらず、それらのパフォーマンスは、単語間の高次相互作用をキャプチャできないため、実際は大部分が危険に晒される可能性がある。
本稿では,テキスト表現学習において,少ない計算量でより表現力の高いハイパーグラフアテンションネットワーク(HyperGAT)を提案する。
論文 参考訳(メタデータ) (2020-11-01T00:21:59Z) - Large Scale Subject Category Classification of Scholarly Papers with
Deep Attentive Neural Networks [15.241086410108512]
本稿では,学術論文を要約のみを用いて分類するディープ注意ニューラルネットワーク(DANN)を提案する。
提案するネットワークは2つの双方向リカレントニューラルネットワークとアテンション層から構成される。
最適モデルでは,0.50~0.95の範囲の個々の対象カテゴリーのF1に対して0.76のマイクロF1測定値が得られる。
論文 参考訳(メタデータ) (2020-07-27T19:42:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。