論文の概要: MarkushGrapher: Joint Visual and Textual Recognition of Markush Structures
- arxiv url: http://arxiv.org/abs/2503.16096v1
- Date: Thu, 20 Mar 2025 12:40:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 16:33:49.647567
- Title: MarkushGrapher: Joint Visual and Textual Recognition of Markush Structures
- Title(参考訳): MarkushGrapher: Markush構造を視覚とテキストで認識する
- Authors: Lucas Morin, Valéry Weber, Ahmed Nassar, Gerhard Ingmar Meijer, Luc Van Gool, Yawei Li, Peter Staar,
- Abstract要約: MarkushGrapherは、ドキュメント内のMarkush構造を認識するためのマルチモーダルアプローチである。
本稿では,多種多様な現実的なマルコシュ構造を生成する合成データ生成パイプラインを提案する。
M2Sは、実世界のMarkush構造の最初の注釈付きベンチマークである。
- 参考スコア(独自算出の注目度): 47.41884299076947
- License:
- Abstract: The automated analysis of chemical literature holds promise to accelerate discovery in fields such as material science and drug development. In particular, search capabilities for chemical structures and Markush structures (chemical structure templates) within patent documents are valuable, e.g., for prior-art search. Advancements have been made in the automatic extraction of chemical structures from text and images, yet the Markush structures remain largely unexplored due to their complex multi-modal nature. In this work, we present MarkushGrapher, a multi-modal approach for recognizing Markush structures in documents. Our method jointly encodes text, image, and layout information through a Vision-Text-Layout encoder and an Optical Chemical Structure Recognition vision encoder. These representations are merged and used to auto-regressively generate a sequential graph representation of the Markush structure along with a table defining its variable groups. To overcome the lack of real-world training data, we propose a synthetic data generation pipeline that produces a wide range of realistic Markush structures. Additionally, we present M2S, the first annotated benchmark of real-world Markush structures, to advance research on this challenging task. Extensive experiments demonstrate that our approach outperforms state-of-the-art chemistry-specific and general-purpose vision-language models in most evaluation settings. Code, models, and datasets will be available.
- Abstract(参考訳): 化学文献の自動分析は、物質科学や薬物開発などの分野における発見を加速させると約束している。
特に、特許文書内の化学構造とマルコフ構造(化学構造テンプレート)の探索能力は、例えば、先行技術の探索に有用である。
テキストや画像から化学構造を自動的に抽出する手法が進歩してきたが、マークシュ構造は複雑なマルチモーダルの性質のため、ほとんど解明されていない。
本稿では,文書中のMarkush構造を認識するためのマルチモーダルアプローチであるMarkushGrapherを紹介する。
本手法は,テキスト,画像,レイアウト情報を視覚テキストレイアウトエンコーダと光学化学構造認識ビジョンエンコーダを介して共同で符号化する。
これらの表現はマージされ、変数群を定義するテーブルとともにマルコシュ構造の逐次グラフ表現を自動回帰的に生成するために使用される。
実世界のトレーニングデータの欠如を克服するために,多種多様な現実的なマルコシュ構造を生成する合成データ生成パイプラインを提案する。
さらに,実世界のMarkush構造をアノテートした最初のベンチマークであるM2Sを紹介し,この課題について研究を進める。
広汎な実験により、我々の手法は、ほとんどの評価設定において、最先端の化学種別および汎用的な視覚言語モデルよりも優れていることが示された。
コード、モデル、データセットが利用可能になる。
関連論文リスト
- ChemTEB: Chemical Text Embedding Benchmark, an Overview of Embedding Models Performance & Efficiency on a Specific Domain [0.8974531206817746]
本稿では,ケミカルテキスト埋め込みベンチマーク(ChemTEB)という新しいベンチマークを紹介する。
ChemTEBは、化学文献とデータのユニークな言語的・意味的な複雑さに対処する。
化学情報の処理と理解における現在の方法論の長所と短所を照らす。
論文 参考訳(メタデータ) (2024-11-30T16:45:31Z) - MolParser: End-to-end Visual Recognition of Molecule Structures in the Wild [23.558032054114577]
両端から端までの新しい化学構造認識法であるモールについて述べる。
SMILES符号化法を用いて,最大のアノテート分子画像データセットである Mol-7M をアノテートする。
我々は、カリキュラム学習アプローチを用いて、エンドツーエンドの分子画像キャプションモデル、Molを訓練した。
論文 参考訳(メタデータ) (2024-11-17T15:00:09Z) - Exploring Optimal Transport-Based Multi-Grained Alignments for Text-Molecule Retrieval [24.061535843472427]
最適TRansportに基づく多粒度アライメントモデル(ORMA)を導入する。
ORMAは、テキスト記述と分子間の多義的なアライメントを促進する新しいアプローチである。
ChEBI-20データセットとPCdesデータセットの実験結果から、ORMAが既存のSOTA(State-of-the-art)モデルを大幅に上回っていることが示されている。
論文 参考訳(メタデータ) (2024-11-04T06:30:52Z) - OmniParser: A Unified Framework for Text Spotting, Key Information Extraction and Table Recognition [79.852642726105]
多様なシナリオにまたがって視覚的なテキストを解析するための統一パラダイムを提案する。
具体的には,3つの視覚的なテキスト解析タスクを同時に処理できるOmniというユニバーサルモデルを提案する。
オムニでは、全てのタスクが統一エンコーダ・デコーダアーキテクチャ、統一目的点条件テキスト生成、統一入力表現を共有している。
論文 参考訳(メタデータ) (2024-03-28T03:51:14Z) - SciMMIR: Benchmarking Scientific Multi-modal Information Retrieval [64.03631654052445]
科学領域内の画像テキストペアリングにおけるMMIR性能を評価するための最新のベンチマークは、顕著なギャップを示している。
オープンアクセス用紙コレクションを利用した特殊な科学的MMIRベンチマークを開発する。
このベンチマークは、科学的文書に詳細なキャプションのある数字や表から抽出された、530Kの精巧にキュレートされた画像テキストペアからなる。
論文 参考訳(メタデータ) (2024-01-24T14:23:12Z) - MolGrapher: Graph-based Visual Recognition of Chemical Structures [50.13749978547401]
化学構造を視覚的に認識するためにMolGrapherを導入する。
すべての候補原子と結合をノードとして扱い、それらをグラフ化する。
グラフニューラルネットワークを用いてグラフ内の原子と結合ノードを分類する。
論文 参考訳(メタデータ) (2023-08-23T16:16:11Z) - Multi-modal Molecule Structure-text Model for Text-based Retrieval and
Editing [107.49804059269212]
分子の化学構造とテキスト記述を共同で学習し, マルチモーダルな分子構造テキストモデル, MoleculeSTMを提案する。
実験において、分子STMは、新しい生化学的概念を創出するための最先端の一般化能力を得る。
論文 参考訳(メタデータ) (2022-12-21T06:18:31Z) - Structured information extraction from complex scientific text with
fine-tuned large language models [55.96705756327738]
そこで本研究では,共振器認識と関係抽出のための簡単なシーケンス・ツー・シーケンス手法を提案する。
このアプローチは、約500組のプロンプトで微調整された、事前訓練済みの大規模言語モデル(LLM)であるGPT-3を利用する。
このアプローチは、構造化されていないテキストから抽出された構造化知識の大規模なデータベースを得るための、シンプルで、アクセス可能で、非常に柔軟な経路を示す。
論文 参考訳(メタデータ) (2022-12-10T07:51:52Z) - Fine-Grained Chemical Entity Typing with Multimodal Knowledge
Representation [36.6963949360594]
核となる化学文献から化学反応に関する詳細な知識を抽出する方法は、新たな課題である。
本稿では, 微細な化学エンティティタイピングの問題を解決するために, マルチモーダル表現学習フレームワークを提案する。
実験の結果,提案手法は複数の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2021-08-29T19:41:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。