論文の概要: Automatic Analysis of Linguistic Features in Journal Articles of
Different Academic Impacts with Feature Engineering Techniques
- arxiv url: http://arxiv.org/abs/2111.07525v1
- Date: Mon, 15 Nov 2021 03:56:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-16 15:22:22.356469
- Title: Automatic Analysis of Linguistic Features in Journal Articles of
Different Academic Impacts with Feature Engineering Techniques
- Title(参考訳): 特徴工学的手法による学術的影響の異なるジャーナル記事における言語的特徴の自動分析
- Authors: Siyu Lei, Ruiying Yang, Chu-Ren Huang
- Abstract要約: 本研究では, 特徴工学的手法を用いて, 高次・中等度な学術誌RAのマイクロレベル言語的特徴の抽出を試みた。
英文記事のコーパスから特徴選択手法を用いて,25の高関連特徴を抽出した。
その結果, 隣接文間の内容語重複, 第三者代名詞の使用, 助動詞, 時制, 感情語など24種類の言語的特徴が, 学術的影響の異なる雑誌記事に対して一貫した, 正確な予測を提供することがわかった。
- 参考スコア(独自算出の注目度): 0.975434908987426
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: English research articles (RAs) are an essential genre in academia, so the
attempts to employ NLP to assist the development of academic writing ability
have received considerable attention in the last two decades. However, there
has been no study employing feature engineering techniques to investigate the
linguistic features of RAs of different academic impacts (i.e., the papers of
high/moderate citation times published in the journals of high/moderate impact
factors). This study attempts to extract micro-level linguistic features in
high- and moderate-impact journal RAs, using feature engineering methods. We
extracted 25 highly relevant features from the Corpus of English Journal
Articles through feature selection methods. All papers in the corpus deal with
COVID-19 medical empirical studies. The selected features were then validated
of the classification performance in terms of consistency and accuracy through
supervised machine learning methods. Results showed that 24 linguistic features
such as the overlapping of content words between adjacent sentences, the use of
third-person pronouns, auxiliary verbs, tense, emotional words provide
consistent and accurate predictions for journal articles with different
academic impacts. Lastly, the random forest model is shown to be the best model
to fit the relationship between these 24 features and journal articles with
high and moderate impacts. These findings can be used to inform academic
writing courses and lay the foundation for developing automatic evaluation
systems for L2 graduate students.
- Abstract(参考訳): 英語の研究論文(RAs)は学術において不可欠なジャンルであり、学術書記能力の発展を支援するためにNLPを採用する試みは、過去20年でかなりの注目を集めている。
しかし、異なる学術的影響のRAの言語的特徴を調査するための特徴工学的手法を用いた研究は行われていない(高・モデレートな影響要因のジャーナルに掲載された高・モデレートな引用時間に関する論文)。
本研究では, 特徴工学的手法を用いて, 高次・中等度な学術誌RAのマイクロレベル言語的特徴の抽出を試みた。
英語雑誌記事のコーパスから, 特徴選択手法を用いて25項目の重要特徴を抽出した。
コーパスのすべての論文は、新型コロナウイルスの医療実験研究を扱う。
選択した特徴は、教師付き機械学習手法により、一貫性と精度の観点から分類性能を検証した。
その結果, 隣接文間の内容語重複, 第三者代名詞の使用, 助動詞, 時制, 感情語など24種類の言語的特徴が, 学術的影響の異なる雑誌記事に対して一貫した, 正確な予測を提供することがわかった。
最後に、ランダムな森林モデルが、これらの24の特徴とジャーナル記事の高次かつ適度な影響に適合する最良のモデルであることが示されている。
これらの知見は,l2大学院生のための自動評価システム開発の基礎を築いており,学術論文の執筆指導に活用できる。
関連論文リスト
- Inclusivity in Large Language Models: Personality Traits and Gender Bias in Scientific Abstracts [49.97673761305336]
我々は,3つの大きな言語モデル (LLM) を,人間の物語スタイルと潜在的な性別バイアスに適合させることで評価した。
以上の結果から,これらのモデルは一般的にヒトの投稿内容によく似たテキストを生成するが,スタイル的特徴の変化は有意な性差を示すことが示唆された。
論文 参考訳(メタデータ) (2024-06-27T19:26:11Z) - A Literature Review of Literature Reviews in Pattern Analysis and Machine Intelligence [58.6354685593418]
本稿では, レビューを評価するために, 記事レベル, フィールド正規化, 大規模言語モデルを用いた書誌指標を提案する。
新たに登場したAI生成の文献レビューも評価されている。
この研究は、文学レビューの現在の課題についての洞察を与え、彼らの開発に向けた今後の方向性を思い起こさせる。
論文 参考訳(メタデータ) (2024-02-20T11:28:50Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - Algorithmic Ghost in the Research Shell: Large Language Models and
Academic Knowledge Creation in Management Research [0.0]
本稿では,学術知識創造における大規模言語モデルの役割について考察する。
これには、書き込み、編集、レビュー、データセットの作成、キュレーションが含まれる。
論文 参考訳(メタデータ) (2023-03-10T14:25:29Z) - Artificial intelligence technologies to support research assessment: A
review [10.203602318836444]
この文献レビューは、記事のテキストから、より高いインパクトやより高い品質の研究に関連する指標を特定する。
論文やカンファレンス論文の引用数や品質スコアを予測するために機械学習技術を使用した研究が含まれている。
論文 参考訳(メタデータ) (2022-12-11T06:58:39Z) - Investigating Fairness Disparities in Peer Review: A Language Model
Enhanced Approach [77.61131357420201]
我々は、大規模言語モデル(LM)の助けを借りて、ピアレビューにおける公平性格差の徹底した厳密な研究を行う。
我々は、2017年から現在までのICLR(International Conference on Learning Representations)カンファレンスで、包括的なリレーショナルデータベースを収集、組み立て、維持しています。
我々は、著作者性別、地理、著作者、機関的名声など、興味のある複数の保護属性に対する公平性の違いを仮定し、研究する。
論文 参考訳(メタデータ) (2022-11-07T16:19:42Z) - TERMinator: A system for scientific texts processing [0.0]
本稿では,学術文献から実体の抽出とそれらの意味的関係について述べる。
本稿では,2つのタスクに対するアノテーションを含むデータセットと,言語モデルが単語認識に与える影響を研究するためのTERMinatorと呼ばれるシステムを提案する。
論文 参考訳(メタデータ) (2022-09-29T15:14:42Z) - Automated Speech Scoring System Under The Lens: Evaluating and
interpreting the linguistic cues for language proficiency [26.70127591966917]
従来の機械学習モデルを用いて、音声認識タスクを分類と回帰問題の両方として定式化する。
まず,5つのカテゴリー(頻度,発音,内容,文法,語彙,音響)で言語学の特徴を抽出し,応答を学習する。
比較すると,回帰に基づくモデルでは,分類法と同等かそれ以上の性能があることがわかった。
論文 参考訳(メタデータ) (2021-11-30T06:28:58Z) - Semantic Analysis for Automated Evaluation of the Potential Impact of
Research Articles [62.997667081978825]
本稿では,情報理論に基づくテキスト意味のベクトル表現のための新しい手法を提案する。
この情報意味論がLeicester Scientific Corpusに基づいてテキスト分類にどのように使用されるかを示す。
テキストの意味を表現するための情報的アプローチは,研究論文の科学的影響を効果的に予測する方法であることを示す。
論文 参考訳(メタデータ) (2021-04-26T20:37:13Z) - A Survey on Text Classification: From Shallow to Deep Learning [83.47804123133719]
過去10年は、ディープラーニングが前例のない成功を収めたために、この分野の研究が急増している。
本稿では,1961年から2021年までの最先端のアプローチを見直し,そのギャップを埋める。
特徴抽出と分類に使用されるテキストとモデルに基づいて,テキスト分類のための分類を作成する。
論文 参考訳(メタデータ) (2020-08-02T00:09:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。