論文の概要: GTR-CoT: Graph Traversal as Visual Chain of Thought for Molecular Structure Recognition
- arxiv url: http://arxiv.org/abs/2506.07553v2
- Date: Tue, 10 Jun 2025 02:18:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 12:52:34.301091
- Title: GTR-CoT: Graph Traversal as Visual Chain of Thought for Molecular Structure Recognition
- Title(参考訳): GTR-CoT:分子構造認識のための思考の視覚的連鎖としてのグラフトラバーサル
- Authors: Jingchao Wang, Haote Yang, Jiang Wu, Yifan He, Xingjian Wei, Yinfan Wang, Chengjin Liu, Lingli Ge, Lijun Wu, Bin Wang, Dahua Lin, Conghui He,
- Abstract要約: GTR-Mol-VLMは、2つの重要な革新を特徴とする新しいフレームワークである。
シーケンシャルな原子結合予測を通じて分子グラフを段階的に解析することで、人間の推論をエミュレートする。
MolRec-BenchはOCSRにおけるグラフパーシング精度の詳細な評価のために設計された最初のベンチマークである。
- 参考スコア(独自算出の注目度): 60.76623665324548
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Optical Chemical Structure Recognition (OCSR) is crucial for digitizing chemical knowledge by converting molecular images into machine-readable formats. While recent vision-language models (VLMs) have shown potential in this task, their image-captioning approach often struggles with complex molecular structures and inconsistent annotations. To overcome these challenges, we introduce GTR-Mol-VLM, a novel framework featuring two key innovations: (1) the Graph Traversal as Visual Chain of Thought mechanism that emulates human reasoning by incrementally parsing molecular graphs through sequential atom-bond predictions, and (2) the data-centric principle of Faithfully Recognize What You've Seen, which addresses the mismatch between abbreviated structures in images and their expanded annotations. To support model development, we constructed GTR-CoT-1.3M, a large-scale instruction-tuning dataset with meticulously corrected annotations, and introduced MolRec-Bench, the first benchmark designed for a fine-grained evaluation of graph-parsing accuracy in OCSR. Comprehensive experiments demonstrate that GTR-Mol-VLM achieves superior results compared to specialist models, chemistry-domain VLMs, and commercial general-purpose VLMs. Notably, in scenarios involving molecular images with functional group abbreviations, GTR-Mol-VLM outperforms the second-best baseline by approximately 14 percentage points, both in SMILES-based and graph-based metrics. We hope that this work will drive OCSR technology to more effectively meet real-world needs, thereby advancing the fields of cheminformatics and AI for Science. We will release GTR-CoT at https://github.com/opendatalab/GTR-CoT.
- Abstract(参考訳): 光化学構造認識(OCSR)は、分子画像を機械可読形式に変換することにより、化学知識のデジタル化に不可欠である。
近年の視覚言語モデル(VLM)はこの課題に可能性を示しているが、イメージキャプションのアプローチは複雑な分子構造や矛盾するアノテーションに悩まされることが多い。
これらの課題を克服するために,(1) 連続的な原子結合予測を通じて分子グラフを段階的に解析することで人間の推論をエミュレートする思考の視覚的連鎖としてのグラフトラバーサル,(2) 画像中の短縮構造と拡張アノテーションとのミスマッチに対処するFithfully Recognize What You've Seenのデータ中心原理,という2つの重要な革新を特徴とする新しいフレームワークであるGTR-Mol-VLMを紹介した。
GTR-CoT-1.3Mを構築し,OCSRにおけるグラフ解析精度の詳細な評価を目的とした最初のベンチマークであるMollRec-Benchを導入した。
総合実験により, GTR-Mol-VLMは, 専門モデル, 化学ドメインVLM, 商用汎用VLMよりも優れた結果が得られることが示された。
特に、GTR-Mol-VLMは、機能的グループ短縮を伴う分子画像を含むシナリオにおいて、SMILESとグラフベースのメトリクスの両方において、第2のベストベースラインを約14パーセント上回っている。
この取り組みにより、OCSRテクノロジーが現実世界のニーズをより効果的に満たし、化学情報学とAI for Scienceの分野を前進させることを願っている。
GTR-CoTはhttps://github.com/opendatalab/GTR-CoT.comでリリースします。
関連論文リスト
- ReasonGen-R1: CoT for Autoregressive Image generation models through SFT and RL [54.100889131719626]
連鎖推論と強化学習がNLPの突破口となった。
我々はReasonGen-R1を紹介した。ReasonGen-R1は自動回帰画像生成器に明示的なテキストベースの「思考」スキルを付与するフレームワークである。
ReasonGen-R1は、強いベースラインや先行技術モデルよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2025-05-30T17:59:48Z) - GIMLET: A Unified Graph-Text Model for Instruction-Based Molecule
Zero-Shot Learning [71.89623260998934]
本研究は,ゼロショット環境下での分子関連タスクの実現に自然言語命令を用いることの実現可能性について検討する。
既存の分子テキストモデルは、命令の不十分な処理とグラフの限られた容量のために、この設定では性能が良くない。
グラフデータとテキストデータの両方の言語モデルを統合するGIMLETを提案する。
論文 参考訳(メタデータ) (2023-05-28T18:27:59Z) - t-SMILES: A Scalable Fragment-based Molecular Representation Framework for De Novo Molecule Generation [9.116670221263753]
本研究では, t-SMILESと呼ばれる, フレキシブル, フラグメントベース, マルチスケールな分子表現フレームワークを提案する。
フラグメント化された分子グラフから生成された全二分木上で幅優先探索を行うことにより得られるSMILES型文字列を用いて分子を記述する。
従来のSMILES、DeepSMILES、SELFIES、ベースラインモデルをゴール指向タスクで大幅に上回っている。
論文 参考訳(メタデータ) (2023-01-04T21:41:01Z) - Graph Machine Learning for Design of High-Octane Fuels [47.43758223690195]
コンピュータ支援分子設計(CAMD)は、所望の自己着火特性を持つ分子を識別することができる。
本稿では,生成グラフMLモデルとグラフニューラルネットワークと最適化を統合したグラフ-ML CAMDフレームワークを提案する。
我々は、さらなる自動点火訓練データの必要性を実験的に調査し、説明するために使用した。
論文 参考訳(メタデータ) (2022-06-01T16:43:04Z) - Permutation invariant graph-to-sequence model for template-free
retrosynthesis and reaction prediction [2.5655440962401617]
本稿では,テキスト生成のためのトランスフォーマーモデルのパワーと,分子グラフエンコーダの置換不変性を組み合わせた新しいGraph2SMILESモデルについて述べる。
エンドツーエンドアーキテクチャとして、Graph2SMILESは、分子から分子への変換を含むあらゆるタスクにおいて、Transformerのドロップイン置換として使用できる。
論文 参考訳(メタデータ) (2021-10-19T01:23:15Z) - Lightweight, Dynamic Graph Convolutional Networks for AMR-to-Text
Generation [56.73834525802723]
軽量な動的グラフ畳み込みネットワーク (LDGCN) を提案する。
LDGCNは入力グラフから高次情報を合成することにより、よりリッチな非局所的な相互作用をキャプチャする。
我々は,グループグラフの畳み込みと重み付き畳み込みに基づく2つの新しいパラメータ保存戦略を開発し,メモリ使用量とモデル複雑性を低減する。
論文 参考訳(メタデータ) (2020-10-09T06:03:46Z) - Multi-View Graph Neural Networks for Molecular Property Prediction [67.54644592806876]
マルチビューグラフニューラルネットワーク(MV-GNN)を提案する。
MV-GNNでは,学習過程を安定させるために,自己注意型読み出しコンポーネントと不一致損失を導入する。
我々は、相互依存型メッセージパッシング方式を提案することにより、MV-GNNの表現力をさらに強化する。
論文 参考訳(メタデータ) (2020-05-17T04:46:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。