論文の概要: Publication Trend Analysis and Synthesis via Large Language Model: A Case Study of Engineering in PNAS
- arxiv url: http://arxiv.org/abs/2510.16152v1
- Date: Fri, 17 Oct 2025 18:57:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:38.870912
- Title: Publication Trend Analysis and Synthesis via Large Language Model: A Case Study of Engineering in PNAS
- Title(参考訳): 大規模言語モデルによるパブリケーショントレンド分析と合成:PNASにおける工学を事例として
- Authors: Mason Smetana, Lev Khazanovich,
- Abstract要約: 本研究では, 適応型大規模言語モデル (LLM) を基礎として, 主題的傾向を定量化するフレームワークを提案する。
このアプローチは、米国科学アカデミー紀要によって発行された1500以上の工学論文の20年以上のコレクションで実証されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scientific literature is increasingly siloed by complex language, static disciplinary structures, and potentially sparse keyword systems, making it cumbersome to capture the dynamic nature of modern science. This study addresses these challenges by introducing an adaptable large language model (LLM)-driven framework to quantify thematic trends and map the evolving landscape of scientific knowledge. The approach is demonstrated over a 20-year collection of more than 1,500 engineering articles published by the Proceedings of the National Academy of Sciences (PNAS), marked for their breadth and depth of research focus. A two-stage classification pipeline first establishes a primary thematic category for each article based on its abstract. The subsequent phase performs a full-text analysis to assign secondary classifications, revealing latent, cross-topic connections across the corpus. Traditional natural language processing (NLP) methods, such as Bag-of-Words (BoW) and Term Frequency-Inverse Document Frequency (TF-IDF), confirm the resulting topical structure and also suggest that standalone word-frequency analyses may be insufficient for mapping fields with high diversity. Finally, a disjoint graph representation between the primary and secondary classifications reveals implicit connections between themes that may be less apparent when analyzing abstracts or keywords alone. The findings show that the approach independently recovers much of the journal's editorially embedded structure without prior knowledge of its existing dual-classification schema (e.g., biological studies also classified as engineering). This framework offers a powerful tool for detecting potential thematic trends and providing a high-level overview of scientific progress.
- Abstract(参考訳): 科学文学は、複雑な言語、静的なディシプリナ構造、潜在的にスパースなキーワードシステムによって、ますますサイロ化され、現代の科学の動的な性質を捉えるのが困難になっている。
本研究では, 適応型大規模言語モデル(LLM)を基礎として, テーマ的傾向を定量化し, 科学的知識の進化の風景を地図化する枠組みを導入することで, これらの課題に対処する。
このアプローチは、PNAS(Proceedings of the National Academy of Sciences)が発行した1500以上の工学論文の20年以上にわたるコレクションで実証されている。
2段階分類パイプラインは、まず、その抽象に基づいて各記事の第一テーマカテゴリを確立する。
その後のフェーズでは、セカンダリ分類を割り当てるフルテキスト解析が行われ、コーパスを横断する潜在的、横断的な接続が明らかになる。
Bag-of-Words (BoW) や Term Frequency-Inverse Document Frequency (TF-IDF) のような従来の自然言語処理(NLP)手法は、結果のトピック構造を確認し、また、多様性の高いフィールドのマッピングにスタンドアロンの単語周波数解析が不十分である可能性を示唆している。
最後に、一次分類と二次分類の間の不整合グラフ表現は、抽象文やキーワードのみを解析する際に明らかでないテーマ間の暗黙的な関係を明らかにする。
この結果は、既存の二重分類スキーマ(例えば、生物学的研究も工学として分類される)の事前知識なしで、論文の編集に埋め込まれた構造の多くを独立に復元することを示している。
このフレームワークは、潜在的なテーマの傾向を検出し、科学的進歩のハイレベルな概要を提供する強力なツールを提供する。
関連論文リスト
- Context-Aware Hierarchical Taxonomy Generation for Scientific Papers via LLM-Guided Multi-Aspect Clustering [59.54662810933882]
既存の分類体系の構築手法は、教師なしクラスタリングや大きな言語モデルの直接的プロンプトを利用しており、コヒーレンスと粒度の欠如が多かった。
LLM誘導型マルチアスペクト符号化と動的クラスタリングを統合したコンテキスト対応階層型階層型分類生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-23T15:12:58Z) - A Survey of Scientific Large Language Models: From Data Foundations to Agent Frontiers [251.23085679210206]
科学大規模言語モデル(Sci-LLMs)は、科学研究において、知識の表現、統合、適用の方法を変えつつある。
この調査は、モデルとその基盤となるデータ基板の共進化として、Sci-LLMの開発を再考する。
我々は、科学的データの統一された分類法と、科学的知識の階層的なモデルを定式化する。
論文 参考訳(メタデータ) (2025-08-28T18:30:52Z) - A Hybrid AI Methodology for Generating Ontologies of Research Topics from Scientific Paper Corpora [6.384357773998868]
Sci-OGは研究トピックを生成するための半自動的な方法論である。
本稿では,研究トピックを生成するための半自動設計手法であるSci-OGを提案する。
提案手法は,21,649件の注釈付きセマンティック・トリプルのデータセットを用いて,様々な代替ソリューションに対して評価する。
論文 参考訳(メタデータ) (2025-08-06T08:48:14Z) - Enhancing Abstractive Summarization of Scientific Papers Using Structure Information [6.414732533433283]
本稿では,学術論文における構造的機能の自動認識を活用する2段階の抽象的要約フレームワークを提案する。
第1段階では,多くの学術論文から章題を標準化し,構造関数認識のための大規模データセットを構築した。
第2段階では、Longformerを用いて、セクション間のリッチなコンテキスト関係をキャプチャし、コンテキスト対応の要約を生成する。
論文 参考訳(メタデータ) (2025-05-20T10:34:45Z) - Science Hierarchography: Hierarchical Organization of Science Literature [37.75616980493253]
我々は、科学文献を高品質な階層構造に整理する目的であるSCIENCE HIERARCHOGRAPHYを動機付けている。
我々は、効率的な埋め込みベースのクラスタリングとLLMベースのプロンプトを組み合わせたハイブリッドアプローチを開発した。
その結果,本手法は解釈可能性を改善し,科学的文献を探索するための代替経路を提供することがわかった。
論文 参考訳(メタデータ) (2025-04-18T17:59:29Z) - Automating Intervention Discovery from Scientific Literature: A Progressive Ontology Prompting and Dual-LLM Framework [56.858564736806414]
本稿では,大規模言語モデル(LLM)を利用した科学文献の介入の同定手法を提案する。
言語病理領域における64,177論文のコーパスから,2,421件の介入が得られた。
論文 参考訳(メタデータ) (2024-08-20T16:42:23Z) - Retrieval-Enhanced Machine Learning: Synthesis and Opportunities [60.34182805429511]
検索エンハンスメントは機械学習(ML)の幅広い範囲に拡張できる
この研究は、MLの様々な領域の文献を、現在の文献から欠落している一貫した表記で合成することで、このパラダイムの正式なフレームワークであるRetrieval-Enhanced Machine Learning (REML)を導入する。
本研究の目的は、様々な分野の研究者に対して、検索強化モデルの包括的、正式に構造化された枠組みを付与し、学際的な将来の研究を促進することである。
論文 参考訳(メタデータ) (2024-07-17T20:01:21Z) - Knowledge-Aware Bayesian Deep Topic Model [50.58975785318575]
本稿では,事前知識を階層型トピックモデリングに組み込むベイズ生成モデルを提案する。
提案モデルでは,事前知識を効率的に統合し,階層的なトピック発見と文書表現の両面を改善する。
論文 参考訳(メタデータ) (2022-09-20T09:16:05Z) - Analyzing Scientific Publications using Domain-Specific Word Embedding
and Topic Modelling [0.6308539010172307]
本稿では学術出版物の科学的分析を行うための枠組みを提案する。
自然言語処理の様々な技術、例えば単語の埋め込みやトピックモデリングを組み合わせる。
PUB-G と PUB-W という2つの新しい科学論文の埋め込みを提案する。
論文 参考訳(メタデータ) (2021-12-24T04:25:34Z) - Semantic and Relational Spaces in Science of Science: Deep Learning
Models for Article Vectorisation [4.178929174617172]
我々は、自然言語処理(NLP)とグラフニューラルネットワーク(GNN)を用いて、記事の意味的・関係的な側面に基づく文書レベルの埋め込みに焦点を当てる。
論文のセマンティックな空間をNLPでエンコードできるのに対し、GNNでは研究コミュニティの社会的実践をエンコードするリレーショナルな空間を構築することができる。
論文 参考訳(メタデータ) (2020-11-05T14:57:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。