論文の概要: The Effect of Metadata on Scientific Literature Tagging: A Cross-Field
Cross-Model Study
- arxiv url: http://arxiv.org/abs/2302.03341v1
- Date: Tue, 7 Feb 2023 09:34:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-08 17:02:06.764057
- Title: The Effect of Metadata on Scientific Literature Tagging: A Cross-Field
Cross-Model Study
- Title(参考訳): メタデータが科学文献タギングに及ぼす影響:クロスフィールドクロスモデルによる研究
- Authors: Yu Zhang, Bowen Jin, Qi Zhu, Yu Meng, Jiawei Han
- Abstract要約: メタデータが19分野にわたる科学文献のタグ付けに与える影響を体系的に研究した。
全分野にわたるメタデータの効果のユビキタスなパターンを観察する。
- 参考スコア(独自算出の注目度): 29.965010251365946
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to the exponential growth of scientific publications on the Web, there is
a pressing need to tag each paper with fine-grained topics so that researchers
can track their interested fields of study rather than drowning in the whole
literature. Scientific literature tagging is beyond a pure multi-label text
classification task because papers on the Web are prevalently accompanied by
metadata information such as venues, authors, and references, which may serve
as additional signals to infer relevant tags. Although there have been studies
making use of metadata in academic paper classification, their focus is often
restricted to one or two scientific fields (e.g., computer science and
biomedicine) and to one specific model. In this work, we systematically study
the effect of metadata on scientific literature tagging across 19 fields. We
select three representative multi-label classifiers (i.e., a bag-of-words
model, a sequence-based model, and a pre-trained language model) and explore
their performance change in scientific literature tagging when metadata are fed
to the classifiers as additional features. We observe some ubiquitous patterns
of metadata's effects across all fields (e.g., venues are consistently
beneficial to paper tagging in almost all cases), as well as some unique
patterns in fields other than computer science and biomedicine, which are not
explored in previous studies.
- Abstract(参考訳): Web上の科学出版物が急増しているため、各論文に詳細なトピックをタグ付けする必要があるため、研究者は文学全体に溺れ込むのではなく、研究分野を追跡できる。
科学文献のタグ付けは、Web上の論文には、場所、著者、参照といったメタデータ情報があり、関連するタグを推測するための追加の信号として機能するため、純粋なマルチラベルテキスト分類タスクを超えている。
学術論文の分類にメタデータを利用する研究があるが、その焦点は1つまたは2つの科学分野(例えば、コンピュータ科学とバイオメディシン)と1つの特定のモデルに限られている。
本研究では,19分野にわたる学術文献タグ付けにおけるメタデータの効果を体系的に研究する。
我々は,3つの代表的多言語分類器(back-of-wordsモデル,シーケンスベースモデル,事前学習言語モデル)を選択し,メタデータを分類器に供給する際の科学文献タグ付けにおける性能変化を付加的な特徴として検討する。
全ての分野にわたるメタデータの効果のユビキタスなパターン(例えば、会場は、ほぼすべてのケースにおいて、紙のタグ付けに一貫して有益である)や、コンピュータサイエンスやバイオメディシン以外の分野におけるユニークなパターンを観察した。
関連論文リスト
- An Instance-based Plus Ensemble Learning Method for Classification of Scientific Papers [2.0794749869068005]
本稿では,科学論文の分類に事例ベース学習とアンサンブル学習を併用した新しい手法を提案する。
実験の結果,提案手法は論文を様々な研究領域に分類する上で効果的かつ効果的であることが示唆された。
論文 参考訳(メタデータ) (2024-09-21T19:42:15Z) - Ontology Embedding: A Survey of Methods, Applications and Resources [54.3453925775069]
オントロジはドメイン知識とメタデータを表現するために広く使われている。
1つの簡単な解決策は、統計分析と機械学習を統合することである。
埋め込みに関する多くの論文が出版されているが、体系的なレビューの欠如により、研究者はこの分野の包括的な理解を妨げている。
論文 参考訳(メタデータ) (2024-06-16T14:49:19Z) - Seed-Guided Fine-Grained Entity Typing in Science and Engineering
Domains [51.02035914828596]
科学・工学分野において,シード誘導型細粒度エンティティタイピングの課題について検討する。
まず、ラベルのないコーパスから各タイプのエンティティを抽出し、弱い監視力を高めるSETypeを提案する。
そして、リッチなエンティティをラベルなしのテキストにマッチさせ、擬似ラベル付きサンプルを取得し、見知らぬ型と見えない型の両方に推論できるテキストエンテリメントモデルを訓練する。
論文 参考訳(メタデータ) (2024-01-23T22:36:03Z) - Automated Annotation of Scientific Texts for ML-based Keyphrase
Extraction and Validation [0.0]
ラベルなしテキストに対するML生成メタデータの検証のための2つの新しいテキストラベリング手法を提案する。
本手法は,未ラベルテキストと科学領域に関する既存の情報を活用する2つの新しい手法の可能性を示す。
論文 参考訳(メタデータ) (2023-11-08T22:09:31Z) - Mapping Research Trajectories [0.0]
本稿では, あらゆる科学分野に適用可能な, 研究軌道のエンハンマッピングに関する原則的アプローチを提案する。
われわれの視覚化は、時間とともに実体の研究トピックを、直接的に相互に表現している。
実践的な実証アプリケーションでは、機械学習による出版コーパスに対する提案されたアプローチを例示する。
論文 参考訳(メタデータ) (2022-04-25T13:32:39Z) - CitationIE: Leveraging the Citation Graph for Scientific Information
Extraction [89.33938657493765]
引用論文と引用論文の参照リンクの引用グラフを使用する。
最先端技術に対するエンド・ツー・エンドの情報抽出の大幅な改善を観察する。
論文 参考訳(メタデータ) (2021-06-03T03:00:12Z) - Semantic Analysis for Automated Evaluation of the Potential Impact of
Research Articles [62.997667081978825]
本稿では,情報理論に基づくテキスト意味のベクトル表現のための新しい手法を提案する。
この情報意味論がLeicester Scientific Corpusに基づいてテキスト分類にどのように使用されるかを示す。
テキストの意味を表現するための情報的アプローチは,研究論文の科学的影響を効果的に予測する方法であることを示す。
論文 参考訳(メタデータ) (2021-04-26T20:37:13Z) - Enhancing Scientific Papers Summarization with Citation Graph [78.65955304229863]
引用グラフを用いて科学論文の要約作業を再定義します。
我々は,141kの研究論文を異なる領域に格納した,新しい科学論文要約データセットセマンティックスタディネットワーク(ssn)を構築した。
我々のモデルは、事前訓練されたモデルと比較して競争性能を達成することができる。
論文 参考訳(メタデータ) (2021-04-07T11:13:35Z) - MATCH: Metadata-Aware Text Classification in A Large Hierarchy [60.59183151617578]
MATCHはメタデータと階層情報の両方を利用するエンドツーエンドのフレームワークである。
親による各子ラベルのパラメータと出力確率を正規化するさまざまな方法を提案します。
大規模なラベル階層を持つ2つの大規模なテキストデータセットの実験は、MATCHの有効性を示しています。
論文 参考訳(メタデータ) (2021-02-15T05:23:08Z) - Machine Identification of High Impact Research through Text and Image
Analysis [0.4737991126491218]
本稿では,引用の可能性が低い論文から高い論文を自動的に分離するシステムを提案する。
本システムでは,文書全体の外観を推測する視覚的分類器と,コンテンツインフォームド決定のためのテキスト分類器の両方を用いる。
論文 参考訳(メタデータ) (2020-05-20T19:12:24Z) - Minimally Supervised Categorization of Text with Metadata [40.13841133991089]
メタデータでテキストを分類する最小限のフレームワークであるMetaCatを提案する。
我々は,単語,文書,ラベル,メタデータ間の関係を記述した生成プロセスを開発する。
同じ生成過程に基づいて,ラベル不足のボトルネックに対処するため,トレーニングサンプルを合成する。
論文 参考訳(メタデータ) (2020-05-01T21:42:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。