論文の概要: BioMedJImpact: A Comprehensive Dataset and LLM Pipeline for AI Engagement and Scientific Impact Analysis of Biomedical Journals
- arxiv url: http://arxiv.org/abs/2511.12821v1
- Date: Sun, 16 Nov 2025 23:03:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.558825
- Title: BioMedJImpact: A Comprehensive Dataset and LLM Pipeline for AI Engagement and Scientific Impact Analysis of Biomedical Journals
- Title(参考訳): BioMedJImpact: バイオメディカルジャーナルのAIエンゲージメントと科学的インパクト分析のための包括的データセットとLLMパイプライン
- Authors: Ruiyu Wang, Yuzhang Xie, Xiao Hu, Carl Yang, Jiaying Lu,
- Abstract要約: 我々は、学術的影響とAIの関与に関するジャーナルレベルの分析を促進するために設計されたデータセットであるBioMedJImpactを紹介する。
BioMedJImpactは、PubMed Centralの記事が2,744冊のジャーナルに掲載されている。
我々は、コラボレーションの強度とAIのエンゲージメントが、パンデミック前およびポストパンデミック後における科学的影響にどのように影響するかを分析する。
- 参考スコア(独自算出の注目度): 15.269105797223373
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Assessing journal impact is central to scholarly communication, yet existing open resources rarely capture how collaboration structures and artificial intelligence (AI) research jointly shape venue prestige in biomedicine. We present BioMedJImpact, a large-scale, biomedical-oriented dataset designed to advance journal-level analysis of scientific impact and AI engagement. Built from 1.74 million PubMed Central articles across 2,744 journals, BioMedJImpact integrates bibliometric indicators, collaboration features, and LLM-derived semantic indicators for AI engagement. Specifically, the AI engagement feature is extracted through a reproducible three-stage LLM pipeline that we propose. Using this dataset, we analyze how collaboration intensity and AI engagement jointly influence scientific impact across pre- and post-pandemic periods (2016-2019, 2020-2023). Two consistent trends emerge: journals with higher collaboration intensity, particularly those with larger and more diverse author teams, tend to achieve greater citation impact, and AI engagement has become an increasingly strong correlate of journal prestige, especially in quartile rankings. To further validate the three-stage LLM pipeline we proposed for deriving the AI engagement feature, we conduct human evaluation, confirming substantial agreement in AI relevance detection and consistent subfield classification. Together, these contributions demonstrate that BioMedJImpact serves as both a comprehensive dataset capturing the intersection of biomedicine and AI, and a validated methodological framework enabling scalable, content-aware scientometric analysis of scientific impact and innovation dynamics. Code is available at https://github.com/JonathanWry/BioMedJImpact.
- Abstract(参考訳): 学術的なコミュニケーションにおいてジャーナルの影響を評価することは重要であるが、既存のオープンリソースは、コラボレーション構造と人工知能(AI)の研究が、バイオメディシンで名高い場所を共同で形成する方法を捉えることは滅多にない。
我々は、学術的影響とAIの関与に関するジャーナルレベルの分析を促進するために設計された、大規模でバイオメディカル指向のデータセットであるBioMedJImpactを紹介する。
BioMedJImpactは、2,744のジャーナルにまたがる1,74万のPubMed Central記事から構築され、バイオメトリック指標、コラボレーション機能、LLMから派生したAIエンゲージメントのセマンティックインジケータを統合している。
具体的には、AIエンゲージメント機能は、我々が提案する再現可能な3段階LLMパイプラインを通して抽出される。
このデータセットを用いて、コラボレーションの強度とAIの関与が、パンデミック前とポストパンデミック後(2016-2019, 2020-2023)の科学的影響にどのように影響するかを分析する。
2つの一貫した傾向が出現する: コラボレーションの強度が高いジャーナル、特に、より大きく多様な著者チームを持つジャーナルは、引用の影響を大きくする傾向にあり、AIの関与は、特に質素なランキングにおいて、ジャーナルの権威の強い相関関係をますます高めている。
我々は、AIエンゲージメント機能を導出するために提案した3段階LLMパイプラインをさらに検証するため、人間による評価を行い、AI関連性検出と一貫したサブフィールド分類においてかなりの一致を確認した。
これらの貢献により、BioMedJImpactは、バイオメディシンとAIの交差点を捉える包括的なデータセットとして機能し、科学的影響とイノベーションのダイナミクスのスケーラブルでコンテンツ対応のサイエントメトリック分析を可能にする検証済みの方法論のフレームワークとして機能している。
コードはhttps://github.com/JonathanWry/BioMedJImpact.comで入手できる。
関連論文リスト
- Advancing AI Research Assistants with Expert-Involved Learning [84.30323604785646]
大規模言語モデル (LLM) と大規模マルチモーダルモデル (LMM) は、生物医学的な発見を促進することを約束するが、その信頼性は未定である。
ARIEL(AI Research Assistant for Expert-in-the-Loop Learning)は,オープンソースの評価・最適化フレームワークである。
LMMは詳細な視覚的推論に苦しむのに対し、最先端のモデルでは流動性はあるが不完全な要約を生成する。
論文 参考訳(メタデータ) (2025-05-03T14:21:48Z) - m-KAILIN: Knowledge-Driven Agentic Scientific Corpus Distillation Framework for Biomedical Large Language Models Training [22.996230737442254]
バイオメディカルな大規模言語モデル(LLM)のためのコーパスヘッダーは、オープンソースの科学コーパスにおいて、不十分な量と品質のプレス課題に対処しようとしている。
本稿では, バイオメディカル領域におけるLLMトレーニングに適した, 科学的コーパス蒸留のための知識駆動型エージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-28T08:18:24Z) - A Large-Scale Vision-Language Dataset Derived from Open Scientific Literature to Advance Biomedical Generalist AI [70.06771291117965]
PubMed Central Open Accessサブセットから派生したオープンソースのデータセットであるBiomedicaを紹介する。
Biomedicaには600万以上の科学論文と2400万の画像テキストペアが含まれている。
私たちは、Webサーバを通じてスケーラブルなストリーミングと検索APIを提供し、AIシステムとのシームレスな統合を容易にします。
論文 参考訳(メタデータ) (2025-03-26T05:56:46Z) - Multimodal Contrastive Representation Learning in Augmented Biomedical Knowledge Graphs [2.006175707670159]
PrimeKG++はマルチモーダルデータを組み込んだ豊富な知識グラフである。
提案手法は強い一般化可能性を示し,未知のノードに対しても正確なリンク予測を可能にする。
論文 参考訳(メタデータ) (2025-01-03T05:29:12Z) - Causal Representation Learning from Multimodal Biomedical Observations [57.00712157758845]
バイオメディカルデータセットの理解を容易にするために,マルチモーダルデータに対するフレキシブルな識別条件と原理的手法を開発した。
主要な理論的貢献は、モジュラリティ間の因果関係の構造的空間性である。
実世界のヒト表現型データセットの結果は、確立された生物医学研究と一致している。
論文 参考訳(メタデータ) (2024-11-10T16:40:27Z) - Diversifying Knowledge Enhancement of Biomedical Language Models using
Adapter Modules and Knowledge Graphs [54.223394825528665]
我々は、軽量なアダプターモジュールを用いて、構造化された生体医学的知識を事前訓練された言語モデルに注入するアプローチを開発した。
バイオメディカル知識システムUMLSと新しいバイオケミカルOntoChemの2つの大きなKGと、PubMedBERTとBioLinkBERTの2つの著名なバイオメディカルPLMを使用している。
計算能力の要件を低く保ちながら,本手法がいくつかの事例において性能改善につながることを示す。
論文 参考訳(メタデータ) (2023-12-21T14:26:57Z) - pyBibX -- A Python Library for Bibliometric and Scientometric Analysis
Powered with Artificial Intelligence Tools [0.0]
pyBibXは、Scopus、Web of Science、PubMedからソースされた生データファイルの総合的な書誌的および科学的な分析を行うために開発されたピソンライブラリである。
このライブラリは総合的なEDAを実行し、視覚的に魅力的な図形を通して結果を提示する。
埋め込み、トピックモデリング、テキスト要約、その他の一般的な言語処理タスクを含むAI機能を備えている。
論文 参考訳(メタデータ) (2023-04-27T20:06:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。