論文の概要: MIReAD: Simple Method for Learning High-quality Representations from
Scientific Documents
- arxiv url: http://arxiv.org/abs/2305.04177v1
- Date: Sun, 7 May 2023 03:29:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-09 17:10:19.687170
- Title: MIReAD: Simple Method for Learning High-quality Representations from
Scientific Documents
- Title(参考訳): MIREAD:科学文献から高品質表現を学習するための簡易手法
- Authors: Anastasia Razdaibiedina, Alexander Brechalov
- Abstract要約: 論文の高品質な表現を学習する簡単な方法であるMIREADを提案する。
私たちは、2000以上のジャーナルクラスで50万以上のPubMedとarXivの抽象クラスでMIREADをトレーニングします。
- 参考スコア(独自算出の注目度): 77.34726150561087
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning semantically meaningful representations from scientific documents
can facilitate academic literature search and improve performance of
recommendation systems. Pre-trained language models have been shown to learn
rich textual representations, yet they cannot provide powerful document-level
representations for scientific articles. We propose MIReAD, a simple method
that learns high-quality representations of scientific papers by fine-tuning
transformer model to predict the target journal class based on the abstract. We
train MIReAD on more than 500,000 PubMed and arXiv abstracts across over 2,000
journal classes. We show that MIReAD produces representations that can be used
for similar papers retrieval, topic categorization and literature search. Our
proposed approach outperforms six existing models for representation learning
on scientific documents across four evaluation standards.
- Abstract(参考訳): 科学的文書から意味論的に意味のある表現を学習することで、学術文献の検索とレコメンデーションシステムの性能向上が促進される。
事前学習された言語モデルは、リッチなテキスト表現を学ぶことが示されているが、科学論文に強力な文書レベルの表現を提供することはできない。
学術論文の高品質な表現を微調整トランスフォーマーモデルで学習し,その抽象概念に基づいて目的とするジャーナルクラスを予測する方法であるMIREADを提案する。
私たちは2000以上のジャーナルクラスで50万以上のpubmedとarxivの抽象化をトレーニングしています。
類似論文の検索,トピック分類,文献検索に使用可能な表現をmireadが生成することを示す。
提案手法は,4つの評価基準にまたがる科学的文書表現学習モデルにおいて,既存の6つのモデルよりも優れている。
関連論文リスト
- DocReLM: Mastering Document Retrieval with Language Model [49.847369507694154]
本研究では,大規模言語モデルを利用することで,文書検索システムが高度な意味理解能力を実現することを実証する。
我々のアプローチは、大規模言語モデルによって生成されたドメイン固有データを用いて、検索者と再ランカを訓練することである。
我々は、量子物理学とコンピュータビジョンの分野の研究者によって注釈付けされたテストセットを使用して、システムの性能を評価する。
論文 参考訳(メタデータ) (2024-05-19T06:30:22Z) - OpenMSD: Towards Multilingual Scientific Documents Similarity
Measurement [11.602151258188862]
本研究は,多言語科学的文書類似度測定モデルの開発と評価である。
我々は,103言語で74万の論文と778の引用ペアを持つ,最初の多言語科学文書データセットOpen- Access Multilingual Scientific Documents (OpenMSD)を提案する。
論文 参考訳(メタデータ) (2023-09-19T11:38:39Z) - SciRepEval: A Multi-Format Benchmark for Scientific Document
Representations [52.01865318382197]
SciRepEvalは、科学文書表現のトレーニングと評価のための最初の総合的なベンチマークである。
SPECTERやSciNCLのような最先端のモデルが、タスクフォーマットをまたいだ一般化にどのように苦労しているかを示す。
ドキュメント毎に複数の埋め込みを学習する新しいアプローチは、それぞれ異なるフォーマットに合わせて、パフォーマンスを改善することができる。
論文 参考訳(メタデータ) (2022-11-23T21:25:39Z) - SimCPSR: Simple Contrastive Learning for Paper Submission Recommendation
System [0.0]
本研究では,論文提出推薦システムの効率的な手法としてトランスファーラーニングを用いたトランスフォーマーモデルを提案する。
本質的な情報(タイトル、要約、キーワードのリストなど)をジャーナルの目的とスコープと組み合わせることで、このモデルは論文の受容を最大化するトップK誌を推薦することができる。
論文 参考訳(メタデータ) (2022-05-12T08:08:22Z) - Knowledge Graph informed Fake News Classification via Heterogeneous
Representation Ensembles [1.8374319565577157]
本稿では,異なる文書表現を効果的に偽ニュース識別に利用する方法を示す。
重要な貢献の1つは、知識グラフのみに基づく新しい文書表現学習手法のセットである。
我々は,知識グラフに基づく表現が,従来受け入れられていた表現学習者に対する競合性能をすでに達成していることを示す。
論文 参考訳(メタデータ) (2021-10-20T09:41:14Z) - CitationIE: Leveraging the Citation Graph for Scientific Information
Extraction [89.33938657493765]
引用論文と引用論文の参照リンクの引用グラフを使用する。
最先端技術に対するエンド・ツー・エンドの情報抽出の大幅な改善を観察する。
論文 参考訳(メタデータ) (2021-06-03T03:00:12Z) - Enhancing Scientific Papers Summarization with Citation Graph [78.65955304229863]
引用グラフを用いて科学論文の要約作業を再定義します。
我々は,141kの研究論文を異なる領域に格納した,新しい科学論文要約データセットセマンティックスタディネットワーク(ssn)を構築した。
我々のモデルは、事前訓練されたモデルと比較して競争性能を達成することができる。
論文 参考訳(メタデータ) (2021-04-07T11:13:35Z) - SPECTER: Document-level Representation Learning using Citation-informed
Transformers [51.048515757909215]
SPECTERは、Transformer言語モデルの事前学習に基づいて、科学文書の文書レベルの埋め込みを生成する。
SciDocsは、引用予測から文書分類、レコメンデーションまでの7つの文書レベルのタスクからなる新しい評価ベンチマークである。
論文 参考訳(メタデータ) (2020-04-15T16:05:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。