論文の概要: Classification and Clustering of Sentence-Level Embeddings of Scientific Articles Generated by Contrastive Learning
- arxiv url: http://arxiv.org/abs/2404.00224v1
- Date: Sat, 30 Mar 2024 02:52:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 06:36:22.148386
- Title: Classification and Clustering of Sentence-Level Embeddings of Scientific Articles Generated by Contrastive Learning
- Title(参考訳): コントラスト学習による科学論文の文レベル埋め込みの分類とクラスタリング
- Authors: Gustavo Bartz Guedes, Ana Estela Antunes da Silva,
- Abstract要約: 提案手法は,科学論文から文レベルの埋め込みを生成するための微調整変換言語モデルで構成されている。
対照的な学習で3つのデータセットでモデルをトレーニングしました。
比較学習と下流タスクへの埋め込みを併用した微調整文変換器は,学術論文における文分類への実現可能なアプローチであることを示す。
- 参考スコア(独自算出の注目度): 1.104960878651584
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Scientific articles are long text documents organized into sections, each describing aspects of the research. Analyzing scientific production has become progressively challenging due to the increase in the number of available articles. Within this scenario, our approach consisted of fine-tuning transformer language models to generate sentence-level embeddings from scientific articles, considering the following labels: background, objective, methods, results, and conclusion. We trained our models on three datasets with contrastive learning. Two datasets are from the article's abstracts in the computer science and medical domains. Also, we introduce PMC-Sents-FULL, a novel dataset of sentences extracted from the full texts of medical articles. We compare the fine-tuned and baseline models in clustering and classification tasks to evaluate our approach. On average, clustering agreement measures values were five times higher. For the classification measures, in the best-case scenario, we had an average improvement in F1-micro of 30.73\%. Results show that fine-tuning sentence transformers with contrastive learning and using the generated embeddings in downstream tasks is a feasible approach to sentence classification in scientific articles. Our experiment codes are available on GitHub.
- Abstract(参考訳): 科学論文は、研究の側面を記述するセクションにまとめられた長いテキスト文書である。
利用可能な記事の数が増えたため、科学的生産の分析は徐々に困難になっている。
本手法は, 背景, 目的, 方法, 結果, 結論といったラベルを考慮し, 科学的論文から文レベルの埋め込みを生成するための微調整変換言語モデルで構成された。
対照的な学習で3つのデータセットでモデルをトレーニングしました。
2つのデータセットは、コンピュータ科学と医療分野における記事の抽象概念からのものである。
また,医療記事の全文から抽出した文の新たなデータセットである PMC-Sents-FULL についても紹介する。
クラスタリングおよび分類タスクにおける微調整モデルとベースラインモデルを比較し、我々のアプローチを評価する。
クラスタリング合意値の平均は5倍であった。
分類では,F1-microの30.73\%の平均的な改善が見られた。
比較学習と下流タスクへの埋め込みを併用した微調整文変換器は, 学術論文の文分類において, 実現可能なアプローチであることを示す。
実験コードはGitHubで公開しています。
関連論文リスト
- Efficient Few-shot Learning for Multi-label Classification of Scientific Documents with Many Classes [44.51779041553597]
FusionSentは、多くのクラスで科学文書を数ショットで分類するための効率的かつ迅速なアプローチである。
実験の結果、FusionSentは平均6.0$$F_1$labelポイントで強いベースラインを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2024-10-08T07:52:35Z) - Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。
生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。
我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文 参考訳(メタデータ) (2024-10-02T20:48:28Z) - BERT Goes Off-Topic: Investigating the Domain Transfer Challenge using
Genre Classification [0.27195102129095]
トピックの分布が変化すると、分類タスクは依然としてパフォーマンスのギャップに悩まされる。
我々はこの現象を、大きなコーパスと大きなトピックセットで実証的に定量化する。
学習データセットを局所的に制御された合成テキストで強化した後、いくつかのトピックでF1スコアは最大50%改善する。
論文 参考訳(メタデータ) (2023-11-27T18:53:31Z) - RankAug: Augmented data ranking for text classification [0.0]
RankAugはテキストレベルのアプローチで、上位の強化テキストを検出し、フィルタリングする。
分類精度を35%まで向上させることができることを示す。
論文 参考訳(メタデータ) (2023-11-08T08:47:49Z) - MuLMS-AZ: An Argumentative Zoning Dataset for the Materials Science
Domain [1.209268134212644]
AZ(Argumentative Zone)の分類は学術文書の処理を改善するために提案されている。
我々は、手動で注釈付けされた研究論文50点の新しいデータセットを提示し、リリースする。
論文 参考訳(メタデータ) (2023-07-05T14:55:18Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Generate, Discriminate and Contrast: A Semi-Supervised Sentence
Representation Learning Framework [68.04940365847543]
本稿では,大規模未ラベルデータを効果的に活用する半教師付き文埋め込みフレームワークGenSEを提案する。
1) 生成: 生成: 生成/識別器モデルはオープンドメインの未ラベルコーパスから文ペアを合成するために共同で訓練される; 2) 識別: ノイズのある文ペアは識別器によってフィルタリングされ、高品質な正と負の文ペアを取得する; 3) コントラスト: 注釈付きデータと合成されたデータの両方を用いて文表現を学習するために、プロンプトベースのコントラクティブアプローチが提示される。
論文 参考訳(メタデータ) (2022-10-30T10:15:21Z) - Hierarchical Bi-Directional Self-Attention Networks for Paper Review
Rating Recommendation [81.55533657694016]
本稿では,階層型双方向自己注意ネットワークフレームワーク(HabNet)を提案する。
具体的には、文エンコーダ(レベル1)、レビュー内エンコーダ(レベル2)、レビュー間エンコーダ(レベル3)の3つのレベルで、論文レビューの階層構造を利用する。
我々は、最終的な受理決定を行う上で有用な予測者を特定することができ、また、数値的なレビュー評価とレビュアーが伝えるテキストの感情の不整合を発見するのに役立てることができる。
論文 参考訳(メタデータ) (2020-11-02T08:07:50Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z) - A Survey on Text Classification: From Shallow to Deep Learning [83.47804123133719]
過去10年は、ディープラーニングが前例のない成功を収めたために、この分野の研究が急増している。
本稿では,1961年から2021年までの最先端のアプローチを見直し,そのギャップを埋める。
特徴抽出と分類に使用されるテキストとモデルに基づいて,テキスト分類のための分類を作成する。
論文 参考訳(メタデータ) (2020-08-02T00:09:03Z) - Segmenting Scientific Abstracts into Discourse Categories: A Deep
Learning-Based Approach for Sparse Labeled Data [8.635930195821265]
我々は、PubMedから構造化された抽象概念に基づいて深層ニューラルネットワークをトレーニングし、それを手書きのコンピュータサイエンス論文の小さなコーパスで微調整する。
本手法は,データが疎結合である抽象文の自動セグメンテーションにおいて,有望な解であると考えられる。
論文 参考訳(メタデータ) (2020-05-11T20:21:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。