論文の概要: Extracting ORR Catalyst Information for Fuel Cell from Scientific Literature
- arxiv url: http://arxiv.org/abs/2507.07499v1
- Date: Thu, 10 Jul 2025 07:35:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.308492
- Title: Extracting ORR Catalyst Information for Fuel Cell from Scientific Literature
- Title(参考訳): 燃料電池用ORR触媒情報の科学文献からの抽出
- Authors: Hein Htet, Amgad Ahmed Ali Ibrahim, Yutaka Sasaki, Ryoji Asahi,
- Abstract要約: 我々は、複数の事前学習されたBERT変異を持つDyGIE++を用いて、名前付きエンティティ認識(NER)と関係抽出(RE)アプローチを提案する。
包括的なデータセットは、12の重要なエンティティと2つのエンティティ間の関係タイプを識別することで手動で構築された。
実験により、微調整されたPubMedBERTモデルは82.19%のNER F1スコアを獲得し、MatSciBERTモデルは66.10%のRE F1スコアを達成した。
- 参考スコア(独自算出の注目度): 1.2499537119440245
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The oxygen reduction reaction (ORR) catalyst plays a critical role in enhancing fuel cell efficiency, making it a key focus in material science research. However, extracting structured information about ORR catalysts from vast scientific literature remains a significant challenge due to the complexity and diversity of textual data. In this study, we propose a named entity recognition (NER) and relation extraction (RE) approach using DyGIE++ with multiple pre-trained BERT variants, including MatSciBERT and PubMedBERT, to extract ORR catalyst-related information from the scientific literature, which is compiled into a fuel cell corpus for materials informatics (FC-CoMIcs). A comprehensive dataset was constructed manually by identifying 12 critical entities and two relationship types between pairs of the entities. Our methodology involves data annotation, integration, and fine-tuning of transformer-based models to enhance information extraction accuracy. We assess the impact of different BERT variants on extraction performance and investigate the effects of annotation consistency. Experimental evaluations demonstrate that the fine-tuned PubMedBERT model achieves the highest NER F1-score of 82.19% and the MatSciBERT model attains the best RE F1-score of 66.10%. Furthermore, the comparison with human annotators highlights the reliability of fine-tuned models for ORR catalyst extraction, demonstrating their potential for scalable and automated literature analysis. The results indicate that domain-specific BERT models outperform general scientific models like BlueBERT for ORR catalyst extraction.
- Abstract(参考訳): 酸素還元反応(ORR)触媒は燃料電池の効率向上に重要な役割を担い、物質科学研究において重要な役割を担っている。
しかし, ORR触媒に関する構造化情報を膨大な科学文献から抽出することは, テキストデータの複雑さと多様性のため, 依然として重要な課題である。
本研究では,DyGIE++とMatSciBERT,PubMedBERTを含む複数の事前学習BERT変異体を用いた名前付きエンティティ認識(NER)および関係抽出(RE)アプローチを提案し,材料情報(FC-CoMIcs)用の燃料電池コーパスにコンパイルされた科学文献からORR触媒関連情報を抽出する。
包括的なデータセットは、12の重要なエンティティと2つのエンティティ間の関係タイプを識別することで手動で構築された。
本手法では,情報抽出精度を高めるために,データアノテーション,統合,変換器ベースモデルの微調整を行う。
異なるBERT変種が抽出性能に与える影響を評価し,アノテーションの整合性について検討する。
実験により、微調整されたPubMedBERTモデルは82.19%のNER F1スコアを獲得し、MatSciBERTモデルは66.10%のRE F1スコアを達成した。
さらに、ヒトアノテータとの比較では、ORR触媒抽出のための微調整モデルの信頼性を強調し、スケーラブルで自動化された文献解析の可能性を示している。
その結果, 領域特異的BERTモデルは, ORR触媒抽出のためのBlueBERTのような一般的な科学的モデルよりも優れていた。
関連論文リスト
- GLiNER-BioMed: A Suite of Efficient Models for Open Biomedical Named Entity Recognition [0.06554326244334868]
GLiNER-BioMedは、バイオメディシンに特化したジェネラリストモデルと軽量モデル(GLiNER)のドメイン適応スイートである。
従来の手法とは対照的に、GLiNERは任意のエンティティ型を推論するために自然言語ラベルを使用するため、ゼロショット認識が可能である。
いくつかのバイオメディカルデータセットの実験では、GLiNER-BioMedは両方のゼロショットシナリオで最先端を達成している。
論文 参考訳(メタデータ) (2025-04-01T11:40:50Z) - Causal Discovery from Data Assisted by Large Language Models [50.193740129296245]
知識駆動発見のために、実験データと事前のドメイン知識を統合することが不可欠である。
本稿では、高分解能走査透過電子顕微鏡(STEM)データと大規模言語モデル(LLM)からの洞察を組み合わせることで、このアプローチを実証する。
SmドープBiFeO3(SmBFO)におけるChatGPTをドメイン固有文献に微調整することにより、構造的、化学的、分極的自由度の間の因果関係をマッピングするDAG(Directed Acyclic Graphs)の隣接行列を構築する。
論文 参考訳(メタデータ) (2025-03-18T02:14:49Z) - Inorganic Catalyst Efficiency Prediction Based on EAPCR Model: A Deep Learning Solution for Multi-Source Heterogeneous Data [9.022023762759641]
本研究では,Embedding-Attention-Permutated CNN-Residual (EAPCR)ディープラーニングモデルを提案する。
EAPCRは埋め込みと注意機構を用いて特徴関連行列を構築し、予測性能を向上させる。
我々は、不均一光触媒、熱、電気触媒のデータセット上でEAPCRを評価する。
論文 参考訳(メタデータ) (2025-03-10T15:10:22Z) - A Machine Learning and Explainable AI Framework Tailored for Unbalanced Experimental Catalyst Discovery [10.92613600218535]
各種成分の触媒収率を正確に分類するために,堅牢な機械学習と説明可能なAI(XAI)フレームワークを導入する。
このフレームワークは、触媒データの不足と不均衡を処理するために設計された一連のMLプラクティスを組み合わせる。
このような知見は, 新規触媒の開発・同定において, 優れた性能を有する化学者を支援することができると信じている。
論文 参考訳(メタデータ) (2024-07-10T13:09:53Z) - Retrosynthesis prediction enhanced by in-silico reaction data
augmentation [66.5643280109899]
RetroWISEは,実データから推定されるベースモデルを用いて,シリコン内反応の生成と増大を行うフレームワークである。
3つのベンチマークデータセットで、RetroWISEは最先端モデルに対して最高の全体的なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-01-31T07:40:37Z) - Relation Extraction in underexplored biomedical domains: A
diversity-optimised sampling and synthetic data generation approach [0.0]
ラベル付きデータの空間性は関係抽出モデルの開発に障害となる。
我々は、最初のキュレートされた評価データセットを作成し、LOTUSデータベースから文献項目を抽出し、トレーニングセットを構築する。
我々は,オープンな大規模言語モデルを用いた生成タスクと数ショット学習として,標準微調整の性能を評価する。
論文 参考訳(メタデータ) (2023-11-10T19:36:00Z) - PathLDM: Text conditioned Latent Diffusion Model for Histopathology [62.970593674481414]
そこで我々は,高品質な病理像を生成するためのテキスト条件付き遅延拡散モデルPathLDMを紹介した。
提案手法は画像とテキストデータを融合して生成プロセスを強化する。
我々は,TCGA-BRCAデータセット上でのテキスト・ツー・イメージ生成において,SoTA FIDスコア7.64を達成し,FID30.1と最も近いテキスト・コンディショナブル・コンペティタを著しく上回った。
論文 参考訳(メタデータ) (2023-09-01T22:08:32Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z) - SAIS: Supervising and Augmenting Intermediate Steps for Document-Level
Relation Extraction [51.27558374091491]
本稿では,関係抽出のための中間ステップ(SAIS)を監督し,拡張することにより,関連コンテキストやエンティティタイプをキャプチャするモデルを明示的に教えることを提案する。
そこで本提案手法は,より効果的な管理を行うため,より優れた品質の関係を抽出するだけでなく,それに対応する証拠をより正確に抽出する。
論文 参考訳(メタデータ) (2021-09-24T17:37:35Z) - Investigation of BERT Model on Biomedical Relation Extraction Based on
Revised Fine-tuning Mechanism [2.8881198461098894]
BERTモデルの微調整過程における層全体の利用法について検討する。
さらに解析により,BERTモデルの最後の層から関係性に関する重要な知識を学習できることが示唆された。
論文 参考訳(メタデータ) (2020-11-01T01:47:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。