論文の概要: Automatic Recognition and Classification of Future Work Sentences from
Academic Articles in a Specific Domain
- arxiv url: http://arxiv.org/abs/2212.13860v1
- Date: Wed, 28 Dec 2022 15:26:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-29 15:47:51.796623
- Title: Automatic Recognition and Classification of Future Work Sentences from
Academic Articles in a Specific Domain
- Title(参考訳): 特定分野における学術論文からの将来の作業内容の自動認識と分類
- Authors: Chengzhi Zhang, Yi Xiang, Wenke Hao, Zhicheng Li, Yuchen Qian, Yuzhuo
Wang
- Abstract要約: FWS(Future Work sentences)は、著者が提案したフォローアップ研究の方向性を記述した学術論文の文章である。
本稿では,学術論文から自動的にFWSを抽出し,論文の内容に具現化された異なる将来方向に応じて分類する手法を提案する。
- 参考スコア(独自算出の注目度): 7.652206854575039
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Future work sentences (FWS) are the particular sentences in academic papers
that contain the author's description of their proposed follow-up research
direction. This paper presents methods to automatically extract FWS from
academic papers and classify them according to the different future directions
embodied in the paper's content. FWS recognition methods will enable subsequent
researchers to locate future work sentences more accurately and quickly and
reduce the time and cost of acquiring the corpus. The current work on automatic
identification of future work sentences is relatively small, and the existing
research cannot accurately identify FWS from academic papers, and thus cannot
conduct data mining on a large scale. Furthermore, there are many aspects to
the content of future work, and the subdivision of the content is conducive to
the analysis of specific development directions. In this paper, Nature Language
Processing (NLP) is used as a case study, and FWS are extracted from academic
papers and classified into different types. We manually build an annotated
corpus with six different types of FWS. Then, automatic recognition and
classification of FWS are implemented using machine learning models, and the
performance of these models is compared based on the evaluation metrics. The
results show that the Bernoulli Bayesian model has the best performance in the
automatic recognition task, with the Macro F1 reaching 90.73%, and the SCIBERT
model has the best performance in the automatic classification task, with the
weighted average F1 reaching 72.63%. Finally, we extract keywords from FWS and
gain a deep understanding of the key content described in FWS, and we also
demonstrate that content determination in FWS will be reflected in the
subsequent research work by measuring the similarity between future work
sentences and the abstracts.
- Abstract(参考訳): 今後の作業文 (FWS) は、著者が提案したフォローアップ研究の方向性を記述した学術論文の特定の文である。
本稿では,学術論文から自動的にFWSを抽出し,論文の内容に具現化された異なる将来方向に応じて分類する手法を提案する。
fws認識により、後続の研究者は将来の作業文をより正確に迅速に見つけることができ、コーパスを取得する時間とコストを削減できる。
将来の作業文の自動識別に関する現在の研究は、比較的小規模であり、既存の研究は学術論文から正確なfwsを識別できないため、大規模なデータマイニングはできない。
さらに、将来の作業の内容には多くの側面があり、コンテンツの下位区分は特定の開発方向の分析に寄与する。
本稿では,自然言語処理(nlp)をケーススタディとして使用し,fwsを学術論文から抽出し,異なる種類に分類した。
アノテーション付きコーパスを6種類のFWSで手動で構築する。
次に、機械学習モデルを用いてFWSの自動認識と分類を行い、これらのモデルの性能を評価指標に基づいて比較する。
その結果、Bernolli Bayesianモデルは自動認識タスクで最高のパフォーマンスを示し、マクロF1は90.73%、SCIBERTモデルは自動分類タスクで最高のパフォーマンスを示し、重み付き平均F1は72.63%に達した。
最後に、FWS からキーワードを抽出し、FWS に記述されている重要な内容の深い理解を得るとともに、今後の作業文と抽象文の類似性を測定することにより、FWS におけるコンテンツ決定がその後の研究成果に反映されることを示す。
関連論文リスト
- Co-training for Low Resource Scientific Natural Language Inference [65.37685198688538]
遠隔教師付きラベルに分類器のトレーニング力学に基づいて重みを割り当てる新しいコトレーニング手法を提案する。
予測された信頼度に対する任意のしきい値に基づいてサンプルをフィルタリングするのではなく、重要重みを割り当てることにより、自動ラベル付きデータの使用を最大化する。
提案手法は、遠隔監視ベースラインに対するマクロF1の1.5%の改善と、他の強力なSSLベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-06-20T18:35:47Z) - Unsupervised Sentiment Analysis of Plastic Surgery Social Media Posts [91.3755431537592]
ソーシャルメディアプラットフォームにまたがる膨大なユーザー投稿は、主に人工知能(AI)のユースケースに使われていない。
自然言語処理(NLP)は、コーパス(corpora)として知られるドキュメントの体系を利用して、人間のような言語理解でコンピュータを訓練するAIのサブフィールドである。
本研究は, 教師なし解析の応用により, コンピュータがプラスティック手術に対する否定的, 肯定的, 中立的なユーザ感情を予測できることを示した。
論文 参考訳(メタデータ) (2023-07-05T20:16:20Z) - Information Extraction in Domain and Generic Documents: Findings from
Heuristic-based and Data-driven Approaches [0.0]
自然言語処理において,情報抽出が重要な役割を担っている。
IEタスクに対するドキュメントのジャンルと長さの影響。
両方のタスクで圧倒的なパフォーマンスを示す方法はひとつもなかった。
論文 参考訳(メタデータ) (2023-06-30T20:43:27Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of
Open Information Extraction [50.62245481416744]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - Tuning Traditional Language Processing Approaches for Pashto Text
Classification [0.0]
本研究の目的は,Pashto自動テキスト分類システムの構築である。
本研究は、統計的およびニューラルネットワーク機械学習技術の両方を含む複数のモデルを比較する。
本研究では,分類アルゴリズムとTFIDF特徴抽出法を用いて,平均試験精度94%を得た。
論文 参考訳(メタデータ) (2023-05-04T22:57:45Z) - Data-Centric Machine Learning in the Legal Domain [0.2624902795082451]
本稿では,データセットの変化がモデルの性能に与える影響について考察する。
法律ドメインから公開されている3つのデータセットを用いて,そのサイズ,列車/テストの分割,および人間のラベル付け精度がパフォーマンスに与える影響について検討する。
観察された効果は、特にクラスごとのパフォーマンスを考慮した場合、驚くほど顕著である。
論文 参考訳(メタデータ) (2022-01-17T23:05:14Z) - Revisiting Self-Training for Few-Shot Learning of Language Model [61.173976954360334]
ラベル付きデータにはタスク関連情報が豊富に含まれており、言語モデルの素早い学習に有用であることが証明されている。
本研究では,言語モデルファインチューニングのための自己学習手法を再検討し,最先端のプロンプトベースの少ショット学習者,SFLMを提案する。
論文 参考訳(メタデータ) (2021-10-04T08:51:36Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z) - What do writing features tell us about AI papers? [23.224038524126467]
学術論文の解釈可能な次元を研究することは、スケーラブルな解決につながると論じる。
我々は,文章の特徴の集合を抽出し,これらの特徴の引用数予測とAI関連論文の公開における有用性を評価するための一連の予測タスクを構築する。
論文 参考訳(メタデータ) (2021-07-13T18:12:12Z) - Automating Document Classification with Distant Supervision to Increase
the Efficiency of Systematic Reviews [18.33687903724145]
体系的なレビューは高価で、時間的需要があり、労働集約的です。
文書のレビュー作業を大幅に削減するための自動文書分類アプローチを提案します。
論文 参考訳(メタデータ) (2020-12-09T22:45:40Z) - SPECTER: Document-level Representation Learning using Citation-informed
Transformers [51.048515757909215]
SPECTERは、Transformer言語モデルの事前学習に基づいて、科学文書の文書レベルの埋め込みを生成する。
SciDocsは、引用予測から文書分類、レコメンデーションまでの7つの文書レベルのタスクからなる新しい評価ベンチマークである。
論文 参考訳(メタデータ) (2020-04-15T16:05:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。