論文の概要: MolMole: Molecule Mining from Scientific Literature
- arxiv url: http://arxiv.org/abs/2505.03777v1
- Date: Wed, 30 Apr 2025 09:30:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-08 19:07:35.794985
- Title: MolMole: Molecule Mining from Scientific Literature
- Title(参考訳): MolMole: 科学文献からの分子マイニング
- Authors: LG AI Research, Sehyun Chun, Jiye Kim, Ahra Jo, Yeonsik Jo, Seungyul Oh, Seungjun Lee, Kwangrok Ryoo, Jongmin Lee, Seunghwan Kim, Byung Jun Kang, Soonyoung Lee, Jun Ha Park, Chanwoo Moon, Jiwon Ham, Haein Lee, Heejae Han, Jaeseung Byun, Soojong Do, Minju Ha, Dongyun Kim, Kyunghoon Bae, Woohyung Lim, Edward Hwayoung Lee, Yongmin Park, Jeongsang Yu, Gerrard Jeongwon Jo, Yeonjung Hong, Kyungjae Yoo, Sehui Han, Jaewan Lee, Changyoung Park, Kijeong Jeon, Sihyuk Yi,
- Abstract要約: MolMoleは、分子検出、反応図解析、光学化学構造認識を統合するビジョンベースのディープラーニングフレームワークである。
分子境界ボックス,反応ラベル,MOLファイルを付加した550ページのテストセットを提示する。
MolMoleはベンチマークと公開データセットの両方で既存のツールキットよりも優れています。
- 参考スコア(独自算出の注目度): 10.183226397580876
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The extraction of molecular structures and reaction data from scientific documents is challenging due to their varied, unstructured chemical formats and complex document layouts. To address this, we introduce MolMole, a vision-based deep learning framework that unifies molecule detection, reaction diagram parsing, and optical chemical structure recognition (OCSR) into a single pipeline for automating the extraction of chemical data directly from page-level documents. Recognizing the lack of a standard page-level benchmark and evaluation metric, we also present a testset of 550 pages annotated with molecule bounding boxes, reaction labels, and MOLfiles, along with a novel evaluation metric. Experimental results demonstrate that MolMole outperforms existing toolkits on both our benchmark and public datasets. The benchmark testset will be publicly available, and the MolMole toolkit will be accessible soon through an interactive demo on the LG AI Research website. For commercial inquiries, please contact us at \href{mailto:contact_ddu@lgresearch.ai}{contact\_ddu@lgresearch.ai}.
- Abstract(参考訳): 科学的文書からの分子構造と反応データの抽出は、化学形態の多様性と複雑な文書レイアウトのために困難である。
これを解決するために,分子検出,反応図解析,光学化学構造認識(OCSR)を統合化した視覚ベースのディープラーニングフレームワークであるMo MolMole を,ページレベルの文書から直接化学データの抽出を自動化する単一のパイプラインに導入する。
また,標準ページレベルのベンチマークと評価基準の欠如を認識し,分子境界ボックス,反応ラベル,MOLファイルを付加した550ページの試験セットと,新しい評価指標を提示する。
MolMoleはベンチマークと公開データセットの両方で既存のツールキットよりも優れています。
ベンチマークテストセットは公開され、LG AI ResearchのWebサイトでインタラクティブなデモを通じて、MollMoleツールキットがすぐにアクセスできるようになる。
商用の問い合わせについては、 \href{mailto:contact_ddu@lgresearch.ai}{contact\_ddu@lgresearch.ai} を参照してください。
関連論文リスト
- RFL: Simplifying Chemical Structure Recognition with Ring-Free Language [66.47173094346115]
化学構造を階層的に記述する新しいリング自由言語(RFL)を提案する。
RFLは複雑な分子構造を複数の部分に分解し、特異性と簡潔性の両方を保証する。
分子骨格と個々の環を段階的に予測する骨格生成モジュールからなる普遍的な分子骨格デコーダ(MSD)を提案する。
論文 参考訳(メタデータ) (2024-12-10T15:29:32Z) - MolParser: End-to-end Visual Recognition of Molecule Structures in the Wild [23.558032054114577]
両端から端までの新しい化学構造認識法であるモールについて述べる。
SMILES符号化法を用いて,最大のアノテート分子画像データセットである Mol-7M をアノテートする。
我々は、カリキュラム学習アプローチを用いて、エンドツーエンドの分子画像キャプションモデル、Molを訓練した。
論文 参考訳(メタデータ) (2024-11-17T15:00:09Z) - MoleculeCLA: Rethinking Molecular Benchmark via Computational Ligand-Target Binding Analysis [18.940529282539842]
約140,000個の小分子からなる大規模かつ高精度な分子表現データセットを構築した。
我々のデータセットは、モデルの開発と設計をガイドするために、重要な物理化学的解釈性を提供します。
このデータセットは、分子表現学習のためのより正確で信頼性の高いベンチマークとして機能すると考えています。
論文 参考訳(メタデータ) (2024-06-13T02:50:23Z) - Data-Efficient Molecular Generation with Hierarchical Textual Inversion [48.816943690420224]
分子生成のための階層型テキスト変換法 (HI-Mol) を提案する。
HI-Molは分子分布を理解する上での階層的情報、例えば粗い特徴ときめ細かい特徴の重要性にインスパイアされている。
単一レベルトークン埋め込みを用いた画像領域の従来のテキストインバージョン法と比較して, マルチレベルトークン埋め込みにより, 基礎となる低ショット分子分布を効果的に学習することができる。
論文 参考訳(メタデータ) (2024-05-05T08:35:23Z) - Structure to Property: Chemical Element Embeddings and a Deep Learning Approach for Accurate Prediction of Chemical Properties [0.0]
化学分類タスクのためのelEmBERTモデルを提案する。
これは多層エンコーダアーキテクチャのようなディープラーニング技術に基づいている。
我々は, 有機, 無機, 結晶化合物の集合に対して, アプローチがもたらす機会を実証する。
論文 参考訳(メタデータ) (2023-09-17T19:41:32Z) - MolGrapher: Graph-based Visual Recognition of Chemical Structures [50.13749978547401]
化学構造を視覚的に認識するためにMolGrapherを導入する。
すべての候補原子と結合をノードとして扱い、それらをグラフ化する。
グラフニューラルネットワークを用いてグラフ内の原子と結合ノードを分類する。
論文 参考訳(メタデータ) (2023-08-23T16:16:11Z) - Building Open Knowledge Graph for Metal-Organic Frameworks (MOF-KG):
Challenges and Case Studies [63.61566811532431]
金属有機フレームワーク(MOF)は、ガス貯蔵、分子分離、化学センシング、結晶および薬物のデリバリーといった応用に革命をもたらす大きな可能性を持っている。
ケンブリッジ構造データベース(CSD)は10,636個のMOF結晶を報告しており、これには114,373個のMOF構造が含まれる。
本稿では,MOF予測,発見,合成を容易にする知識グラフ手法の活用に向けた取り組みについて述べる。
論文 参考訳(メタデータ) (2022-07-10T16:41:11Z) - MolScribe: Robust Molecular Structure Recognition with Image-To-Graph
Generation [28.93523736883784]
MolScribeは、分子構造を構築するために、原子と結合と幾何学的レイアウトを明示的に予測する画像とグラフのモデルである。
MolScribeは以前のモデルよりも大幅に優れ、公開ベンチマークで76-93%の精度を達成した。
論文 参考訳(メタデータ) (2022-05-28T03:03:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。