論文の概要: Fine-tuning Pre-trained Contextual Embeddings for Citation Content
Analysis in Scholarly Publication
- arxiv url: http://arxiv.org/abs/2009.05836v1
- Date: Sat, 12 Sep 2020 17:46:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-19 07:39:33.511904
- Title: Fine-tuning Pre-trained Contextual Embeddings for Citation Content
Analysis in Scholarly Publication
- Title(参考訳): 学術出版における引用内容分析のための微調整事前学習型文脈埋め込み
- Authors: Haihua Chen and Huyen Nguyen
- Abstract要約: 本稿では,そのタスクに対して,事前学習したコンテキスト埋め込み ULMFiT,BERT,XLNet を微調整する。
引用関数の同定では、XLNetモデルは、それぞれDFKI、UMICH、TKDE 2019データセットで87.2%、86.90%、81.6%を達成した。
我々の手法は、学者や学術出版物の影響力分析を強化するのに利用できる。
- 参考スコア(独自算出の注目度): 0.3997680012976965
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Citation function and citation sentiment are two essential aspects of
citation content analysis (CCA), which are useful for influence analysis, the
recommendation of scientific publications. However, existing studies are mostly
traditional machine learning methods, although deep learning techniques have
also been explored, the improvement of the performance seems not significant
due to insufficient training data, which brings difficulties to applications.
In this paper, we propose to fine-tune pre-trained contextual embeddings
ULMFiT, BERT, and XLNet for the task. Experiments on three public datasets show
that our strategy outperforms all the baselines in terms of the F1 score. For
citation function identification, the XLNet model achieves 87.2%, 86.90%, and
81.6% on DFKI, UMICH, and TKDE2019 datasets respectively, while it achieves
91.72% and 91.56% on DFKI and UMICH in term of citation sentiment
identification. Our method can be used to enhance the influence analysis of
scholars and scholarly publications.
- Abstract(参考訳): 引用機能と引用感情は、引用内容分析(CCA)の2つの重要な側面であり、科学的出版物の推奨である影響分析に有用である。
しかし、既存の研究は主に従来の機械学習手法であるが、深層学習技術も検討されているが、訓練データ不足のため性能の改善は重要ではなく、アプリケーションに困難をもたらす。
本稿では,そのタスクに対して,事前学習したコンテキスト埋め込み ULMFiT,BERT,XLNet を微調整する。
3つの公開データセットの実験により、我々の戦略はF1スコアで全てのベースラインを上回ります。
XLNetモデルは、それぞれDFKI、UMICH、TKDE2019のデータセットで87.2%、86.90%、81.6%を達成し、DFKI、UMICHでは91.72%、91.56%を達成している。
本手法は,研究者や学術出版物の影響分析の促進に有用である。
関連論文リスト
- Why do you cite? An investigation on citation intents and decision-making classification processes [1.7812428873698407]
本研究は,引用意図を信頼して分類することの重要性を強調する。
本稿では,citation Intent Classification (CIC) のための高度なアンサンブル戦略を用いた研究について述べる。
我々のモデルの1つは、SciCiteベンチマークで89.46%のマクロF1スコアを持つ新しい最先端(SOTA)として設定されている。
論文 参考訳(メタデータ) (2024-07-18T09:29:33Z) - Investigating Persuasion Techniques in Arabic: An Empirical Study Leveraging Large Language Models [0.13980986259786224]
本稿では、アラビアのソーシャルメディアコンテンツにおける説得的手法の同定に焦点をあてた総合的な実証的研究について述べる。
我々は、プレトレーニング言語モデル(PLM)を利用し、ArAlEvalデータセットを活用する。
本研究では,PLMの力を活用した3つの学習手法について検討した。
論文 参考訳(メタデータ) (2024-05-21T15:55:09Z) - Enriched BERT Embeddings for Scholarly Publication Classification [0.13654846342364302]
NSLP 2024 FoRC Task Iは、競争として組織されたこの課題に対処する。
目的は、ある論文に対する研究分野の分類法であるOpen Research Knowledge Graph (ORKG) から、123の事前定義されたクラスのうちの1つを予測することができる分類器を開発することである。
論文 参考訳(メタデータ) (2024-05-07T09:05:20Z) - An Anchor Learning Approach for Citation Field Learning [23.507104046870186]
本稿では,励磁場学習性能を向上させるための新しいアルゴリズムCIFALを提案する。
実験により、CIFALは励磁場学習において最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-09-07T08:42:40Z) - Analyzing Dataset Annotation Quality Management in the Wild [63.07224587146207]
最先端モデルのトレーニングと評価に使用される一般的なデータセットでさえ、誤ったアノテーションやバイアス、アーティファクトの量は無視できない。
データセット作成プロジェクトに関するプラクティスやガイドラインは存在するが、品質管理の実施方法に関する大規模な分析はまだ行われていない。
論文 参考訳(メタデータ) (2023-07-16T21:22:40Z) - Universal Domain Adaptation from Foundation Models: A Baseline Study [58.51162198585434]
基礎モデルを用いた最先端UniDA手法の実証的研究を行った。
CLIPモデルからターゲット知識を抽出するためのパラメータフリーな手法であるtextitCLIP 蒸留を導入する。
単純な手法ではあるが、ほとんどのベンチマークタスクでは従来の手法よりも優れている。
論文 参考訳(メタデータ) (2023-05-18T16:28:29Z) - A Large Scale Search Dataset for Unbiased Learning to Rank [51.97967284268577]
我々は、非バイアス学習のためのBaidu-ULTRデータセットをランク付けする。
ランダムに12億の検索セッションと7,008のエキスパートアノテートクエリをサンプリングする。
1)本来のセマンティックな特徴と,使用が容易な事前学習言語モデル,(2)位置,表示高さ,抽象表現などの十分な表示情報,(3)居住時間のような検索結果ページ(SERP)に対するリッチなユーザフィードバックを提供する。
論文 参考訳(メタデータ) (2022-07-07T02:37:25Z) - Deep Graph Learning for Anomalous Citation Detection [55.81334139806342]
本稿では,新たな深層グラフ学習モデルであるGLAD(Graph Learning for Anomaly Detection)を提案する。
GLADフレームワーク内ではCPU(Citation PUrpose)と呼ばれるアルゴリズムが提案され,引用テキストに基づく引用の目的が明らかになった。
論文 参考訳(メタデータ) (2022-02-23T09:05:28Z) - Guiding Generative Language Models for Data Augmentation in Few-Shot
Text Classification [59.698811329287174]
我々は、GPT-2を用いて、分類性能を向上させるために、人工訓練インスタンスを生成する。
実験の結果,少数のラベルインスタンスでGPT-2を微調整すると,一貫した分類精度が向上することがわかった。
論文 参考訳(メタデータ) (2021-11-17T12:10:03Z) - Enhancing Scientific Papers Summarization with Citation Graph [78.65955304229863]
引用グラフを用いて科学論文の要約作業を再定義します。
我々は,141kの研究論文を異なる領域に格納した,新しい科学論文要約データセットセマンティックスタディネットワーク(ssn)を構築した。
我々のモデルは、事前訓練されたモデルと比較して競争性能を達成することができる。
論文 参考訳(メタデータ) (2021-04-07T11:13:35Z) - ImpactCite: An XLNet-based method for Citation Impact Analysis [4.526582372434088]
インパクト分析により、引用の質を定量化できます。
XLNetベースのソリューションであるImpactCiteは、引用意図と感情分類の両方に対して、最先端のパフォーマンスを実現する。
CSC-Clean corpusは引用感情分類のためのクリーンで信頼性の高いデータセットである。
論文 参考訳(メタデータ) (2020-05-05T08:31:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。