論文の概要: Symbol-based entity marker highlighting for enhanced text mining in materials science with generative AI
- arxiv url: http://arxiv.org/abs/2505.05864v1
- Date: Fri, 09 May 2025 07:58:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-12 20:40:10.198056
- Title: Symbol-based entity marker highlighting for enhanced text mining in materials science with generative AI
- Title(参考訳): 生成AIを用いた材料科学におけるテキストマイニング強化のためのシンボルベースエンティティマーカーハイライト
- Authors: Junhyeong Lee, Jong Min Yuk, Chan-Woo Lee,
- Abstract要約: 本研究では,非構造化科学テキストを構造化データに変換するためのハイブリッドテキストマイニングフレームワークを提案する。
提案手法は,まずテキストをエンティティ認識テキストに変換し,次いで構造化フォームに変換する。
また,シンボルアノテーションを用いた簡易かつ効果的な手法であるエンティティマーカーを導入することにより,エンティティ認識性能も向上する。
- 参考スコア(独自算出の注目度): 4.178382980763478
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The construction of experimental datasets is essential for expanding the scope of data-driven scientific discovery. Recent advances in natural language processing (NLP) have facilitated automatic extraction of structured data from unstructured scientific literature. While existing approaches-multi-step and direct methods-offer valuable capabilities, they also come with limitations when applied independently. Here, we propose a novel hybrid text-mining framework that integrates the advantages of both methods to convert unstructured scientific text into structured data. Our approach first transforms raw text into entity-recognized text, and subsequently into structured form. Furthermore, beyond the overall data structuring framework, we also enhance entity recognition performance by introducing an entity marker-a simple yet effective technique that uses symbolic annotations to highlight target entities. Specifically, our entity marker-based hybrid approach not only consistently outperforms previous entity recognition approaches across three benchmark datasets (MatScholar, SOFC, and SOFC slot NER) but also improve the quality of final structured data-yielding up to a 58% improvement in entity-level F1 score and up to 83% improvement in relation-level F1 score compared to direct approach.
- Abstract(参考訳): 実験データセットの構築は、データ駆動科学発見の範囲を広げるために不可欠である。
自然言語処理(NLP)の最近の進歩は、構造化されていない科学文献から構造化データの自動抽出を促進する。
既存のアプローチは、複数ステップで直接メソッドオフの有意義な機能だが、独立して適用する場合には制限も伴う。
本稿では,非構造化科学テキストを構造化データに変換する手法の利点を融合したハイブリッドテキストマイニングフレームワークを提案する。
提案手法は,まずテキストをエンティティ認識テキストに変換し,次いで構造化フォームに変換する。
さらに、全体的なデータ構造化フレームワークを超えて、ターゲットエンティティをハイライトするシンボリックアノテーションを使用して、エンティティマーカーをシンプルかつ効果的なテクニックとして導入することで、エンティティ認識性能も向上する。
具体的には、我々のエンティティマーカーベースのハイブリッドアプローチは、3つのベンチマークデータセット(MatScholar、SOFC、SOFCスロットNER)で従来のエンティティ認識アプローチを一貫して上回るだけでなく、エンティティレベルのF1スコアが最大58%向上し、関係レベルのF1スコアが最大83%向上した。
関連論文リスト
- Integrating Textual Embeddings from Contrastive Learning with Generative Recommender for Enhanced Personalization [8.466223794246261]
コントラストテキスト埋め込みモデルを用いて生成レコメンデータを増強するハイブリッドフレームワークを提案する。
本手法をAmazon Reviews 2023データセットから2つのドメインで評価する。
論文 参考訳(メタデータ) (2025-04-13T15:23:00Z) - ORIGAMI: A generative transformer architecture for predictions from semi-structured data [3.5639148953570836]
ORIGAMIは、ネストされたキー/バリューペアを処理するトランスフォーマーベースのアーキテクチャである。
分類を次点予測として再構成することで、ORIGAMIはシングルラベルとマルチラベルの両方のタスクを自然に処理する。
論文 参考訳(メタデータ) (2024-12-23T07:21:17Z) - Value Alignment from Unstructured Text [32.9140028463247]
構造化されていないテキストデータに表される暗黙的および明示的な値に,大規模言語モデル(LLM)を整合させる体系的なエンドツーエンド手法を提案する。
提案手法は、スケーラブルな合成データ生成技術を用いて、非構造化データに存在する値にモデルを効果的に整合させる。
提案手法は,LCMを文書内に埋め込まれた値に忠実に整合させ,他の手法に対する性能向上を示す。
論文 参考訳(メタデータ) (2024-08-19T20:22:08Z) - Accelerated materials language processing enabled by GPT [5.518792725397679]
我々は材料言語処理のための生成変換器(GPT)対応パイプラインを開発した。
まず、関連する文書をスクリーニングするためのGPT対応文書分類手法を開発する。
第二に、NERタスクでは、エンティティ中心のプロンプトを設計し、そのほとんどを学習することで、パフォーマンスが改善された。
最後に,GPT対応抽出QAモデルを開発し,性能の向上とアノテーションの自動修正の可能性を示す。
論文 参考訳(メタデータ) (2023-08-18T07:31:13Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - Nested Named Entity Recognition as Holistic Structure Parsing [92.8397338250383]
本研究は,文中の全入れ子NEを全体構造としてモデル化し,全体構造解析アルゴリズムを提案する。
実験により、我々のモデルは、最先端にアプローチしたり、あるいは達成したりするような、広く使われているベンチマークで有望な結果が得られることが示された。
論文 参考訳(メタデータ) (2022-04-17T12:48:20Z) - Modeling Multi-Granularity Hierarchical Features for Relation Extraction [26.852869800344813]
本稿では,原文のみに基づく多粒度特徴抽出手法を提案する。
外部知識を必要とせずに,効果的な構造的特徴が達成可能であることを示す。
論文 参考訳(メタデータ) (2022-04-09T09:44:05Z) - Pre-training Language Model Incorporating Domain-specific Heterogeneous Knowledge into A Unified Representation [49.89831914386982]
本研究では, 構造化されていないテキスト, 半構造化されたテキスト, 十分に構造化されたテキストを含む, あらゆる形式のテキストに対して, 統一された事前学習言語モデル (PLM) を提案する。
提案手法は,データの1/4のみを用いて,プレーンテキストの事前学習に優れる。
論文 参考訳(メタデータ) (2021-09-02T16:05:24Z) - SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。
既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文 参考訳(メタデータ) (2021-01-02T01:15:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。