論文の概要: Automated Research Article Classification and Recommendation Using NLP and ML
- arxiv url: http://arxiv.org/abs/2510.05495v1
- Date: Tue, 07 Oct 2025 01:24:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.055209
- Title: Automated Research Article Classification and Recommendation Using NLP and ML
- Title(参考訳): NLPとMLを用いた自動研究項目分類と勧告
- Authors: Shadikur Rahman, Hasibul Karim Shanto, Umme Ayman Koana, Syed Muhammad Danish,
- Abstract要約: 本稿では,論文分類と推薦のための自動フレームワークを提案する。
30年以上にわたる大規模なarXiv.orgデータセットを使用します。
分類を補完するために,ベクトル化された記事のコサイン類似性に基づいたレコメンデーションモジュールを組み込む。
- 参考スコア(独自算出の注目度): 0.5486463492959637
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the digital era, the exponential growth of scientific publications has made it increasingly difficult for researchers to efficiently identify and access relevant work. This paper presents an automated framework for research article classification and recommendation that leverages Natural Language Processing (NLP) techniques and machine learning. Using a large-scale arXiv.org dataset spanning more than three decades, we evaluate multiple feature extraction approaches (TF--IDF, Count Vectorizer, Sentence-BERT, USE, Mirror-BERT) in combination with diverse machine learning classifiers (Logistic Regression, SVM, Na\"ive Bayes, Random Forest, Gradient Boosted Trees, and k-Nearest Neighbour). Our experiments show that Logistic Regression with TF--IDF consistently yields the best classification performance, achieving an accuracy of 69\%. To complement classification, we incorporate a recommendation module based on the cosine similarity of vectorized articles, enabling efficient retrieval of related research papers. The proposed system directly addresses the challenge of information overload in digital libraries and demonstrates a scalable, data-driven solution to support literature discovery.
- Abstract(参考訳): デジタル時代には、科学出版物の指数的な成長により、研究者が関連する研究を効率的に特定し、アクセスすることがますます困難になっている。
本稿では,自然言語処理技術と機械学習を活用した研究論文分類と推薦のための自動フレームワークを提案する。
30年以上にわたる大規模なarXiv.orgデータセットを用いて、さまざまな機械学習分類器(ロジスティック回帰、SVM、Na\"ive Bayes、ランダムフォレスト、グラディエントブーストツリー、k-Nearest Neighbour)と組み合わせて、複数の特徴抽出アプローチ(TF-IDF、Count Vectorizer、Sentence-BERT、USE、Mirror-BERT)を評価した。
実験の結果,TF-IDFを用いたロジスティック回帰は最も優れた分類性能を示し,精度は69%であった。
分類を補完するために,ベクトル化物品のコサイン類似性に基づくレコメンデーションモジュールを導入し,関連研究論文の効率的な検索を可能にする。
提案システムは,デジタル図書館における情報過負荷の課題に直接対処し,文献発見を支援するスケーラブルでデータ駆動型ソリューションを実証する。
関連論文リスト
- Comparison of Machine Learning Models to Classify Documents on Digital Development [0.0]
本研究は,12分野に分類される世界規模のデジタル開発介入に関する文書データベースを公開している。
この研究は、データ量がパフォーマンスに影響を与える唯一の要因ではないと結論付け、クラス間の類似性やクラス間の相違性といった特徴も重要であると結論付けている。
論文 参考訳(メタデータ) (2025-10-01T09:53:28Z) - MOLE: Metadata Extraction and Validation in Scientific Papers Using LLMs [48.73595915402094]
MOLEは、アラビア語以外の言語のデータセットをカバーする科学論文からメタデータ属性を自動的に抽出するフレームワークである。
本手法では,複数の入力形式にまたがって文書全体を処理し,一貫した出力に対する堅牢な検証機構を組み込む。
論文 参考訳(メタデータ) (2025-05-26T10:31:26Z) - Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。
生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。
我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文 参考訳(メタデータ) (2024-10-02T20:48:28Z) - Enriched BERT Embeddings for Scholarly Publication Classification [0.13654846342364302]
NSLP 2024 FoRC Task Iは、競争として組織されたこの課題に対処する。
目的は、ある論文に対する研究分野の分類法であるOpen Research Knowledge Graph (ORKG) から、123の事前定義されたクラスのうちの1つを予測することができる分類器を開発することである。
論文 参考訳(メタデータ) (2024-05-07T09:05:20Z) - Empowering Interdisciplinary Research with BERT-Based Models: An Approach Through SciBERT-CNN with Topic Modeling [0.0]
本稿では,SciBERTモデルとCNNを用いて,学術論文を体系的に分類する手法を提案する。
CNNは、畳み込みとプーリングを使用して特徴抽出を強化し、次元を減少させる。
論文 参考訳(メタデータ) (2024-04-16T05:21:47Z) - Tuning Traditional Language Processing Approaches for Pashto Text
Classification [0.0]
本研究の目的は,Pashto自動テキスト分類システムの構築である。
本研究は、統計的およびニューラルネットワーク機械学習技術の両方を含む複数のモデルを比較する。
本研究では,分類アルゴリズムとTFIDF特徴抽出法を用いて,平均試験精度94%を得た。
論文 参考訳(メタデータ) (2023-05-04T22:57:45Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - Combining Feature and Instance Attribution to Detect Artifacts [62.63504976810927]
トレーニングデータアーティファクトの識別を容易にする手法を提案する。
提案手法は,トレーニングデータのアーティファクトの発見に有効であることを示す。
我々は,これらの手法が実際にNLP研究者にとって有用かどうかを評価するために,小規模なユーザスタディを実施している。
論文 参考訳(メタデータ) (2021-07-01T09:26:13Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。