論文の概要: Reshaping MOFs text mining with a dynamic multi-agents framework of large language model
- arxiv url: http://arxiv.org/abs/2504.18880v2
- Date: Fri, 25 Jul 2025 10:08:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 14:14:27.054519
- Title: Reshaping MOFs text mining with a dynamic multi-agents framework of large language model
- Title(参考訳): 大規模言語モデルの動的マルチエージェントフレームワークによるMOFテキストマイニングの再構築
- Authors: Zuhong Lin, Daoyuan Ren, Kai Ran, Jing Sun, Songlin Yu, Xuefeng Bai, Xiaotiang Huang, Haiyang He, Pengxu Pan, Xiaohang Zhang, Ying Fang, Tianying Wang, Minli Wu, Zhanglin Li, Xiaochuan Zhang, Haipu Li, Jingjing Yao,
- Abstract要約: 合成知識の抽出,構造化,適用を目的とした大規模言語モデル(LLM)に基づくマルチエージェントシステムMOFh6を提案する。
MoFh6は合成データの解析において99%の精度を達成し、複雑な共参照の94.1%を解決している。
単一のフルテキスト文書を9.6秒で処理し、構造化された合成記述を36秒以内にローカライズする。
- 参考スコア(独自算出の注目度): 5.150905688058796
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurately identifying synthesis conditions for metal-organic frameworks (MOFs) remains a critical bottleneck in materials research, as translating literature-derived knowledge into actionable insights is hindered by the unstructured and heterogeneous nature of scientific texts. Here we present MOFh6, a large language model (LLM)-based multi-agent system designed to extract, structure, and apply synthesis knowledge from diverse input formats, including raw literature and crystal codes. Built on gpt-4o-mini and fine-tuned with up to few-shot expert-annotated data, MOFh6 achieves 99% accuracy in synthesis data parsing and resolves 94.1% of complex co-reference abbreviations. It processes a single full-text document in 9.6 seconds and localizes structured synthesis descriptions within 36 seconds, with the cost per 100 papers reduced to USD 4.24, a 76% saving over existing systems. By addressing long-standing limitations in cross-paragraph semantic fusion and terminology standardization, MOFh6 reshapes the LLM-based paradigm for MOF synthesis research, transforming static retrieval into an integrated and dynamic knowledge acquisition process. This shift bridges the gap between scientific literature and actionable synthesis design, providing a scalable framework for accelerating materials discovery.
- Abstract(参考訳): 金属-有機フレームワーク(MOF)の正確な合成条件の同定は、文献由来の知識を実用的な洞察に翻訳することは、科学的テキストの非構造的で異質な性質によって妨げられるため、材料研究において重要なボトルネックとなっている。
ここでは,大規模言語モデル(LLM)に基づく多エージェントシステムであるMOFh6について述べる。
gpt-4o-mini上に構築され、最大数ショットのエキスパートアノテートデータで微調整されたMOFh6は、合成データの解析において99%の精度を達成し、94.1%の複雑なコレファレンス短縮を解決している。
単一のフルテキスト文書を9.6秒で処理し、構造化された合成記述を36秒以内にローカライズする。
クロスパラグラフのセマンティックフュージョンと用語の標準化における長年の制限に対処することにより、MOFh6は、静的検索を統合的で動的な知識獲得プロセスに変換するMOF合成研究のためのLLMベースのパラダイムを再考する。
このシフトは、科学文献と実行可能な合成設計のギャップを埋め、材料発見を加速するためのスケーラブルなフレームワークを提供する。
関連論文リスト
- Zero-Shot Document Understanding using Pseudo Table of Contents-Guided Retrieval-Augmented Generation [4.875345207589195]
DocsRayは、トレーニング不要の文書理解システムである。
擬似コンテンツテーブル(TOC)生成と階層型検索拡張生成(RAG)を統合する
論文 参考訳(メタデータ) (2025-07-31T03:14:45Z) - System of Agentic AI for the Discovery of Metal-Organic Frameworks [12.360146134865678]
生成モデルと機械学習は、CO2捕捉と水収穫のためのMOFにおける物質発見を加速させた。
我々は,相互接続エージェントからなるエージェントAIシステムMOFGenを提案する。
何十万もの新しいMOF構造と合成可能な有機リンカーを生成しました。
論文 参考訳(メタデータ) (2025-04-18T23:54:25Z) - Agentic Mixture-of-Workflows for Multi-Modal Chemical Search [0.0]
大規模言語モデル(LLM)は、様々な領域にわたる有望な推論と自動化機能を示している。
CRAG-MoWは、異なるCRAG戦略を用いて複数のエージェントを編成する新しいパラダイムである。
我々は、小型分子、高分子、化学反応、およびマルチモーダル核磁気共鳴(NMR)スペクトル検索のCRAG-MoWをベンチマークした。
論文 参考訳(メタデータ) (2025-02-26T23:48:02Z) - RFL: Simplifying Chemical Structure Recognition with Ring-Free Language [66.47173094346115]
化学構造を階層的に記述する新しいリング自由言語(RFL)を提案する。
RFLは複雑な分子構造を複数の部分に分解し、特異性と簡潔性の両方を保証する。
分子骨格と個々の環を段階的に予測する骨格生成モジュールからなる普遍的な分子骨格デコーダ(MSD)を提案する。
論文 参考訳(メタデータ) (2024-12-10T15:29:32Z) - Efficient and Effective Weight-Ensembling Mixture of Experts for Multi-Task Model Merging [111.8456671452411]
マルチタスク学習(MTL)は、共有モデルを利用して複数のタスクを遂行し、知識伝達を促進する。
マルチタスクモデル統合のためのウェイトエンセブリング・ミックス・オブ・エキスパート(WEMoE)手法を提案する。
WEMoEとE-WEMoEは, MTL性能, 一般化, 堅牢性の観点から, 最先端(SOTA)モデルマージ法より優れていることを示す。
論文 参考訳(メタデータ) (2024-10-29T07:16:31Z) - MOFFlow: Flow Matching for Structure Prediction of Metal-Organic Frameworks [42.61784133509237]
金属-有機フレームワーク(英: Metal-organic framework、MOF)は、炭素捕獲や薬物の放出といった多くの分野で有望な応用を持つ結晶材料のクラスである。
ab initio計算や深い生成モデルを含む既存のアプローチは、単位セル内の多くの原子のためにMOF構造が複雑になるのに苦労している。
我々はMOF構造予測に適した最初の深部生成モデルMOFFlowを紹介する。
論文 参考訳(メタデータ) (2024-10-07T13:51:58Z) - LLMs4Synthesis: Leveraging Large Language Models for Scientific Synthesis [0.16385815610837165]
本稿では,LLMs4Synthesisフレームワークについて紹介する。
オープンソースとプロプライエタリなLLMの両方を活用しながら、迅速で一貫性があり、文脈的にリッチな科学的洞察の統合の必要性に対処する。
論文 参考訳(メタデータ) (2024-09-27T15:04:39Z) - Configurable Foundation Models: Building LLMs from a Modular Perspective [115.63847606634268]
LLMを多数の機能モジュールに分解する傾向が高まり、複雑なタスクに取り組むためにモジュールの一部とモジュールの動的アセンブリを推論することができる。
各機能モジュールを表すブロックという用語を造語し、モジュール化された構造をカスタマイズ可能な基礎モデルとして定義する。
検索とルーティング,マージ,更新,成長という,レンガ指向の4つの操作を提示する。
FFN層はニューロンの機能的特殊化と機能的ニューロン分割を伴うモジュラーパターンに従うことが判明した。
論文 参考訳(メタデータ) (2024-09-04T17:01:02Z) - Retrieval-Enhanced Machine Learning: Synthesis and Opportunities [60.34182805429511]
検索エンハンスメントは機械学習(ML)の幅広い範囲に拡張できる
この研究は、MLの様々な領域の文献を、現在の文献から欠落している一貫した表記で合成することで、このパラダイムの正式なフレームワークであるRetrieval-Enhanced Machine Learning (REML)を導入する。
本研究の目的は、様々な分野の研究者に対して、検索強化モデルの包括的、正式に構造化された枠組みを付与し、学際的な将来の研究を促進することである。
論文 参考訳(メタデータ) (2024-07-17T20:01:21Z) - SciRIFF: A Resource to Enhance Language Model Instruction-Following over Scientific Literature [80.49349719239584]
SciRIFF(Scientific Resource for Instruction-Following and Finetuning, SciRIFF)は、54のタスクに対して137Kの命令追従デモのデータセットである。
SciRIFFは、幅広い科学分野の研究文献から情報を抽出し、合成することに焦点を当てた最初のデータセットである。
論文 参考訳(メタデータ) (2024-06-10T21:22:08Z) - LOCR: Location-Guided Transformer for Optical Character Recognition [55.195165959662795]
自動回帰中にトランスフォーマーアーキテクチャに位置案内を組み込むモデルであるLOCRを提案する。
125Kの学術文書ページから777万以上のテキスト配置ペアからなるデータセット上でモデルをトレーニングする。
これは、編集距離、BLEU、METEOR、F測定によって測定されたarXivから構築されたテストセットの既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-03-04T15:34:12Z) - ChemMiner: A Large Language Model Agent System for Chemical Literature Data Mining [56.15126714863963]
ChemMinerは、文学から化学データを抽出するエンドツーエンドのフレームワークである。
ChemMinerには、コア参照マッピングのためのテキスト分析エージェント、非テキスト情報抽出のためのマルチモーダルエージェント、データ生成のための合成分析エージェントの3つの特殊エージェントが組み込まれている。
実験の結果,ヒト化学者に匹敵する反応同定率を示すとともに,高い精度,リコール,F1スコアで処理時間を著しく短縮した。
論文 参考訳(メタデータ) (2024-02-20T13:21:46Z) - Model Composition for Multimodal Large Language Models [71.5729418523411]
本稿では,既存のMLLMのモデル構成による新しいパラダイムを提案する。
我々の基本的な実装であるNaiveMCは、モダリティエンコーダを再利用し、LLMパラメータをマージすることで、このパラダイムの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-20T06:38:10Z) - AutoIE: An Automated Framework for Information Extraction from
Scientific Literature [6.235887933544583]
AutoIEは科学的なPDF文書から重要データの抽出を自動化するために設計されたフレームワークである。
我々のSBERTモデルは、CoNLL04およびADEデータセット上で87.19と89.65の高いマルコF1スコアを達成する。
この研究は、分子シーブ合成におけるデータ管理と解釈の強化の道を開くものである。
論文 参考訳(メタデータ) (2024-01-30T01:45:03Z) - ChEF: A Comprehensive Evaluation Framework for Standardized Assessment
of Multimodal Large Language Models [49.48109472893714]
MLLM(Multimodal Large Language Models)は、視覚コンテンツと無数の下流タスクとを相互作用する優れた能力を示す。
本稿では,各MLLMを全体プロファイルし,異なるMLLMを比較した最初の総合評価フレームワーク(ChEF)を提案する。
詳細な実装をすべて公開して、さらなる分析と、新しいレシピやモデルを統合するための使い易いモジュラーツールキットを提供します。
論文 参考訳(メタデータ) (2023-11-05T16:01:40Z) - MOFDiff: Coarse-grained Diffusion for Metal-Organic Framework Design [4.819734936375677]
金属-有機フレームワーク(MOF)は、ガス貯蔵や炭素捕獲といった応用に非常に関心がある。
CGMOF構造を生成する粗粒拡散モデルMOFDiffを提案する。
有効かつ斬新なMOF構造の生成能力と優れたMOF材料の設計における有効性を評価する。
論文 参考訳(メタデータ) (2023-10-16T18:00:15Z) - ChatGPT Chemistry Assistant for Text Mining and Prediction of MOF
Synthesis [1.6889526065328493]
我々は、金属-有機フレームワーク(MOF)合成条件のテキストマイニングの自動化において、ChatGPTを誘導するために、即時エンジニアリングを使用する。
これはChatGPTが情報を幻覚させる傾向を効果的に緩和する。
論文 参考訳(メタデータ) (2023-06-20T05:20:29Z) - Empowering Molecule Discovery for Molecule-Caption Translation with Large Language Models: A ChatGPT Perspective [53.300288393173204]
大規模言語モデル(LLM)は、様々なクロスモーダルタスクにおいて顕著なパフォーマンスを示している。
本研究では,分子カプセル翻訳のためのインコンテキストFew-Shot Molecule Learningパラダイムを提案する。
分子理解とテキストベースの分子生成を含む分子キャプション翻訳におけるMollReGPTの有効性を評価する。
論文 参考訳(メタデータ) (2023-06-11T08:16:25Z) - Extracting Structured Seed-Mediated Gold Nanorod Growth Procedures from
Literature with GPT-3 [52.59930033705221]
1,137枚の紙から抽出した11,644個のエンティティのデータセットを作成した。
1,137枚の紙から抽出した11,644個のエンティティのデータセットを作成した。
論文 参考訳(メタデータ) (2023-04-26T22:21:33Z) - Building Open Knowledge Graph for Metal-Organic Frameworks (MOF-KG):
Challenges and Case Studies [63.61566811532431]
金属有機フレームワーク(MOF)は、ガス貯蔵、分子分離、化学センシング、結晶および薬物のデリバリーといった応用に革命をもたらす大きな可能性を持っている。
ケンブリッジ構造データベース(CSD)は10,636個のMOF結晶を報告しており、これには114,373個のMOF構造が含まれる。
本稿では,MOF予測,発見,合成を容易にする知識グラフ手法の活用に向けた取り組みについて述べる。
論文 参考訳(メタデータ) (2022-07-10T16:41:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。