論文の概要: Assessing the impact of Open Research Information Infrastructures using NLP driven full-text Scientometrics: A case study of the LXCat open-access platform
- arxiv url: http://arxiv.org/abs/2602.07664v1
- Date: Sat, 07 Feb 2026 19:15:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.748051
- Title: Assessing the impact of Open Research Information Infrastructures using NLP driven full-text Scientometrics: A case study of the LXCat open-access platform
- Title(参考訳): NLP駆動フルテキストサイエントメトリックスを用いたオープンリサーチ情報基盤の効果評価:LXCatオープンアクセスプラットフォームを事例として
- Authors: Kalp Pandya, Khushi Shah, Nirmal Shah, Nakshi Shah, Bhaskar Chaudhury,
- Abstract要約: オープン・リサーチ・インフォメーション(ORI)は、科学知識の創出、普及、検証、再利用の過程における中心的な役割を担っている。
我々は、引用数を超えるORIインフラストラクチャの影響を定量化するためのフルテキスト自然言語処理(NLP)駆動のサイエントメトリックフレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.3694429692322631
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open research information (ORI) play a central role in shaping how scientific knowledge is produced, disseminated, validated, and reused across the research lifecycle. While the visibility of such ORI infrastructures is often assessed through citation-based metrics, in this study, we present a full-text, natural language processing (NLP) driven scientometric framework to systematically quantify the impact of ORI infrastructures beyond citation counts, using the LXCat platform for low temperature plasma (LTP) research as a representative case study. The modeling of LTPs and interpretation of LTP experiments rely heavily on accurate data, much of which is hosted on LXCat, a community-driven, open-access platform central to the LTP research ecosystem. To investigate the scholarly impact of the LXCat platform over the past decade, we analyzed a curated corpus of full-text research articles citing three foundational LXCat publications. We present a comprehensive pipeline that integrates chemical entity recognition, dataset and solver mention extraction, affiliation based geographic mapping and topic modeling to extract fine-grained patterns of data usage that reflect implicit research priorities, data practices, differential reliance on specific databases, evolving modes of data reuse and coupling within scientific workflows, and thematic evolution. Importantly, our proposed methodology is domain-agnostic and transferable to other ORI contexts, and highlights the utility of NLP in quantifying the role of scientific data infrastructures and offers a data-driven reflection on how open-access platforms like LXCat contribute to shaping research directions. This work presents a scalable scientometric framework that has the potential to support evidence based evaluation of ORI platforms and to inform infrastructure design, governance, sustainability, and policy for future development.
- Abstract(参考訳): オープン・リサーチ・インフォメーション(ORI)は、科学知識の創出、普及、検証、再利用の過程における中心的な役割を担っている。
このようなORIインフラストラクチャの可視性は、引用に基づくメトリクスによって評価されることが多いが、本研究では、低温プラズマ(LTP)研究のためのLXCatプラットフォームを用いて、引用数を超えるORIインフラストラクチャの影響を体系的に定量化する、フルテキスト自然言語処理(NLP)駆動のサイエントメトリックフレームワークを提案する。
LTPのモデリングとLTP実験の解釈は正確なデータに大きく依存しており、その大部分はコミュニティ主導のオープンアクセスプラットフォームであるLXCatにホストされている。
過去10年間のLXCatプラットフォームによる学術的影響を調べるために,3つの基礎的なLXCat出版を引用したフルテキスト研究論文のコーパスを分析した。
ケミカルエンティティ認識,データセットとソルバが参照する抽出,アフィリエレーションに基づく地理的マッピングとトピックモデリングを統合して,暗黙的な研究優先順位,データプラクティス,特定のデータベースへの差分依存,データ再利用と科学ワークフローにおける結合の進化,およびテーマ進化を反映した詳細なデータ利用パターンを抽出する。
重要なことは、提案手法はドメインに依存しない他のORIコンテキストへの転送が可能であり、科学データ基盤の役割の定量化におけるNLPの有用性を強調し、LXCatのようなオープンアクセスプラットフォームが研究の方向性形成にどのように貢献するかをデータ駆動リフレクションを提供する。
本研究は,ORIプラットフォームのエビデンスに基づく評価を支援し,インフラ設計,ガバナンス,持続可能性,今後の開発方針を通知する,スケーラブルなサイエントメトリック・フレームワークを提案する。
関連論文リスト
- Beyond Citations: A Cross-Domain Metric for Dataset Impact and Shareability [2.1689170017681696]
X-インデックス(X-index)は、2段階のプロセスを通じてデータコントリビューションの価値を定量化する、新しい著者レベルのメトリクスである。
専門家評価に対する我々のアプローチを検証し、強い相関性を達成する。
X-indexは持続可能なデータ共有の実践を奨励し、機関、資金提供者、プラットフォームに、研究データセットの持続的な影響を認識するための具体的な方法を提供する。
論文 参考訳(メタデータ) (2025-11-17T04:45:19Z) - A Survey of Scientific Large Language Models: From Data Foundations to Agent Frontiers [251.23085679210206]
科学大規模言語モデル(Sci-LLMs)は、科学研究において、知識の表現、統合、適用の方法を変えつつある。
この調査は、モデルとその基盤となるデータ基板の共進化として、Sci-LLMの開発を再考する。
我々は、科学的データの統一された分類法と、科学的知識の階層的なモデルを定式化する。
論文 参考訳(メタデータ) (2025-08-28T18:30:52Z) - Helix 1.0: An Open-Source Framework for Reproducible and Interpretable Machine Learning on Tabular Scientific Data [1.433481719062383]
HelixはオープンソースのPythonベースのソフトウェアフレームワークで、再現性と解釈可能な機械学習を促進する。
透過的な実験データ分析の必要性の高まりに対処する。
MITライセンスでリリースされているHelixは、GitHubとPyPI経由でアクセスすることができる。
論文 参考訳(メタデータ) (2025-07-23T10:33:35Z) - Data-Driven Breakthroughs and Future Directions in AI Infrastructure: A Comprehensive Review [0.0]
本稿では,過去15年間の人工知能(AI)の大きなブレークスルーを包括的に合成する。
計算リソース、データアクセス、アルゴリズム革新の収束をトレースすることで、AIの進化における重要なインフレクションポイントを特定する。
論文 参考訳(メタデータ) (2025-05-22T15:12:48Z) - Data-Centric AI in the Age of Large Language Models [51.20451986068925]
本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。
本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。
データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
論文 参考訳(メタデータ) (2024-06-20T16:34:07Z) - A Reliable Knowledge Processing Framework for Combustion Science using
Foundation Models [0.0]
この研究は、多様な燃焼研究データを処理し、実験研究、シミュレーション、文献にまたがるアプローチを導入している。
開発されたアプローチは、データのプライバシと精度を最適化しながら、計算と経済の費用を最小化する。
このフレームワークは、最小限の人間の監視で、常に正確なドメイン固有の応答を提供する。
論文 参考訳(メタデータ) (2023-12-31T17:15:25Z) - The Open Review-Based (ORB) dataset: Towards Automatic Assessment of
Scientific Papers and Experiment Proposals in High-Energy Physics [0.0]
新しい包括的オープンレビューベースデータセット(ORB)を紹介する。
これには36,000以上の科学論文のキュレートされたリストが含まれ、89,000以上のレビューと最終決定が含まれている。
本稿では,データアーキテクチャと収集データの概要と関連する統計について述べる。
論文 参考訳(メタデータ) (2023-11-29T20:52:02Z) - A Diachronic Analysis of Paradigm Shifts in NLP Research: When, How, and
Why? [84.46288849132634]
本稿では、因果発見と推論技術を用いて、科学分野における研究トピックの進化を分析するための体系的な枠組みを提案する。
我々は3つの変数を定義し、NLPにおける研究トピックの進化の多様な側面を包含する。
我々は因果探索アルゴリズムを用いてこれらの変数間の因果関係を明らかにする。
論文 参考訳(メタデータ) (2023-05-22T11:08:00Z) - Citation Trajectory Prediction via Publication Influence Representation
Using Temporal Knowledge Graph [52.07771598974385]
既存のアプローチは主に学術論文の時間的データとグラフデータのマイニングに依存している。
本フレームワークは,差分保存グラフ埋め込み,きめ細かい影響表現,学習に基づく軌道計算という3つのモジュールから構成される。
APSアカデミックデータセットとAIPatentデータセットの両方で実験を行った。
論文 参考訳(メタデータ) (2022-10-02T07:43:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。