論文の概要: MarkushGrapher: Joint Visual and Textual Recognition of Markush Structures
- arxiv url: http://arxiv.org/abs/2503.16096v1
- Date: Thu, 20 Mar 2025 12:40:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 15:30:52.395687
- Title: MarkushGrapher: Joint Visual and Textual Recognition of Markush Structures
- Title(参考訳): MarkushGrapher: Markush構造を視覚とテキストで認識する
- Authors: Lucas Morin, Valéry Weber, Ahmed Nassar, Gerhard Ingmar Meijer, Luc Van Gool, Yawei Li, Peter Staar,
- Abstract要約: MarkushGrapherは、ドキュメント内のMarkush構造を認識するためのマルチモーダルアプローチである。
本稿では,多種多様な現実的なマルコシュ構造を生成する合成データ生成パイプラインを提案する。
M2Sは、実世界のMarkush構造の最初の注釈付きベンチマークである。
- 参考スコア(独自算出の注目度): 47.41884299076947
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The automated analysis of chemical literature holds promise to accelerate discovery in fields such as material science and drug development. In particular, search capabilities for chemical structures and Markush structures (chemical structure templates) within patent documents are valuable, e.g., for prior-art search. Advancements have been made in the automatic extraction of chemical structures from text and images, yet the Markush structures remain largely unexplored due to their complex multi-modal nature. In this work, we present MarkushGrapher, a multi-modal approach for recognizing Markush structures in documents. Our method jointly encodes text, image, and layout information through a Vision-Text-Layout encoder and an Optical Chemical Structure Recognition vision encoder. These representations are merged and used to auto-regressively generate a sequential graph representation of the Markush structure along with a table defining its variable groups. To overcome the lack of real-world training data, we propose a synthetic data generation pipeline that produces a wide range of realistic Markush structures. Additionally, we present M2S, the first annotated benchmark of real-world Markush structures, to advance research on this challenging task. Extensive experiments demonstrate that our approach outperforms state-of-the-art chemistry-specific and general-purpose vision-language models in most evaluation settings. Code, models, and datasets will be available.
- Abstract(参考訳): 化学文献の自動分析は、物質科学や薬物開発などの分野における発見を加速させると約束している。
特に、特許文書内の化学構造とマルコフ構造(化学構造テンプレート)の探索能力は、例えば、先行技術の探索に有用である。
テキストや画像から化学構造を自動的に抽出する手法が進歩してきたが、マークシュ構造は複雑なマルチモーダルの性質のため、ほとんど解明されていない。
本稿では,文書中のMarkush構造を認識するためのマルチモーダルアプローチであるMarkushGrapherを紹介する。
本手法は,テキスト,画像,レイアウト情報を視覚テキストレイアウトエンコーダと光学化学構造認識ビジョンエンコーダを介して共同で符号化する。
これらの表現はマージされ、変数群を定義するテーブルとともにマルコシュ構造の逐次グラフ表現を自動回帰的に生成するために使用される。
実世界のトレーニングデータの欠如を克服するために,多種多様な現実的なマルコシュ構造を生成する合成データ生成パイプラインを提案する。
さらに,実世界のMarkush構造をアノテートした最初のベンチマークであるM2Sを紹介し,この課題について研究を進める。
広汎な実験により、我々の手法は、ほとんどの評価設定において、最先端の化学種別および汎用的な視覚言語モデルよりも優れていることが示された。
コード、モデル、データセットが利用可能になる。
関連論文リスト
- SubGrapher: Visual Fingerprinting of Chemical Structures [46.677062201188015]
SubGrapherは化学構造画像の視覚的フィンガープリントの手法である。
完全な分子グラフを再構築しようとする従来の光学化学構造認識(OCSR)モデルとは異なり、SubGrapherは化学構造画像から直接分子指紋を抽出することに焦点を当てている。
本手法は最先端のOCSRおよびフィンガープリント法に対して評価され,多様な分子描写における検索性能とロバスト性を向上した。
論文 参考訳(メタデータ) (2025-04-28T11:45:46Z) - Mixture of Structural-and-Textual Retrieval over Text-rich Graph Knowledge Bases [78.62158923194153]
テキストリッチなグラフ知識ベース(TG-KB)は、テキストおよび構造的知識を提供することで、クエリに応答する上でますます重要になっている。
本研究では,これら2種類の知識を計画・推論・組織化フレームワークを用いて検索するための構造・テキスト検索(MoR)の混合を提案する。
論文 参考訳(メタデータ) (2025-02-27T17:42:52Z) - Multimodal Search in Chemical Documents and Reactions [26.94136747669151]
本稿では, 化学反応, 分子構造, 関連テキストの検索を容易にするマルチモーダル検索ツールを提案する。
クエリは、分子図、テキスト記述、反応データを組み合わせることで、ユーザーは異なる化学情報の表現を接続することができる。
本稿では,システムのアーキテクチャ,重要な機能,検索プロセス,およびシステムの専門家による評価について述べる。
論文 参考訳(メタデータ) (2025-02-24T06:00:17Z) - MolParser: End-to-end Visual Recognition of Molecule Structures in the Wild [23.558032054114577]
両端から端までの新しい化学構造認識法であるモールについて述べる。
SMILES符号化法を用いて,最大のアノテート分子画像データセットである Mol-7M をアノテートする。
我々は、カリキュラム学習アプローチを用いて、エンドツーエンドの分子画像キャプションモデル、Molを訓練した。
論文 参考訳(メタデータ) (2024-11-17T15:00:09Z) - Exploring Optimal Transport-Based Multi-Grained Alignments for Text-Molecule Retrieval [24.061535843472427]
最適TRansportに基づく多粒度アライメントモデル(ORMA)を導入する。
ORMAは、テキスト記述と分子間の多義的なアライメントを促進する新しいアプローチである。
ChEBI-20データセットとPCdesデータセットの実験結果から、ORMAが既存のSOTA(State-of-the-art)モデルを大幅に上回っていることが示されている。
論文 参考訳(メタデータ) (2024-11-04T06:30:52Z) - SciMMIR: Benchmarking Scientific Multi-modal Information Retrieval [64.03631654052445]
科学領域内の画像テキストペアリングにおけるMMIR性能を評価するための最新のベンチマークは、顕著なギャップを示している。
オープンアクセス用紙コレクションを利用した特殊な科学的MMIRベンチマークを開発する。
このベンチマークは、科学的文書に詳細なキャプションのある数字や表から抽出された、530Kの精巧にキュレートされた画像テキストペアからなる。
論文 参考訳(メタデータ) (2024-01-24T14:23:12Z) - MolGrapher: Graph-based Visual Recognition of Chemical Structures [50.13749978547401]
化学構造を視覚的に認識するためにMolGrapherを導入する。
すべての候補原子と結合をノードとして扱い、それらをグラフ化する。
グラフニューラルネットワークを用いてグラフ内の原子と結合ノードを分類する。
論文 参考訳(メタデータ) (2023-08-23T16:16:11Z) - Multi-modal Molecule Structure-text Model for Text-based Retrieval and
Editing [107.49804059269212]
分子の化学構造とテキスト記述を共同で学習し, マルチモーダルな分子構造テキストモデル, MoleculeSTMを提案する。
実験において、分子STMは、新しい生化学的概念を創出するための最先端の一般化能力を得る。
論文 参考訳(メタデータ) (2022-12-21T06:18:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。