論文の概要: RTMol: Rethinking Molecule-text Alignment in a Round-trip View
- arxiv url: http://arxiv.org/abs/2511.12135v1
- Date: Sat, 15 Nov 2025 09:55:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:23.631026
- Title: RTMol: Rethinking Molecule-text Alignment in a Round-trip View
- Title(参考訳): RTMol: ラウンドトリップビューで分子文のアライメントを再考する
- Authors: Letian Chen, Runhan Shi, Gufeng Yu, Yang Yang,
- Abstract要約: 分子キャプションとテキストからSMILES生成を自己教師付きラウンドトリップ学習により統合する双方向アライメントフレームワークであるRTMolを提案する。
実験により、RTMolは様々なLLMに対して、双方向アライメント性能を最大47%向上させることが示された。
- 参考スコア(独自算出の注目度): 4.597922051722059
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Aligning molecular sequence representations (e.g., SMILES notations) with textual descriptions is critical for applications spanning drug discovery, materials design, and automated chemical literature analysis. Existing methodologies typically treat molecular captioning (molecule-to-text) and text-based molecular design (text-to-molecule) as separate tasks, relying on supervised fine-tuning or contrastive learning pipelines. These approaches face three key limitations: (i) conventional metrics like BLEU prioritize linguistic fluency over chemical accuracy, (ii) training datasets frequently contain chemically ambiguous narratives with incomplete specifications, and (iii) independent optimization of generation directions leads to bidirectional inconsistency. To address these issues, we propose RTMol, a bidirectional alignment framework that unifies molecular captioning and text-to-SMILES generation through self-supervised round-trip learning. The framework introduces novel round-trip evaluation metrics and enables unsupervised training for molecular captioning without requiring paired molecule-text corpora. Experiments demonstrate that RTMol enhances bidirectional alignment performance by up to 47% across various LLMs, establishing an effective paradigm for joint molecule-text understanding and generation.
- Abstract(参考訳): 文書記述による分子配列表現(SMILES表記法など)の調整は、薬物発見、材料設計、化学文献の自動解析といった分野に適用するために重要である。
既存の手法は一般に分子キャプション(molecule-to-text)とテキストベースの分子設計(text-to-molecule)を個別のタスクとして扱い、教師付き微調整や対照的な学習パイプラインに依存している。
これらのアプローチには3つの重要な制限がある。
(i)BLEUのような従来の指標は、化学的精度よりも言語流布を優先する。
二 トレーニングデータセットには、不完全仕様の化学的曖昧な物語をしばしば含んでいること。
三 生成方向の独立最適化は、双方向の不整合につながる。
分子キャプションとテキスト・ツー・SMILES生成を自己教師付きラウンドトリップ学習により統合する双方向アライメントフレームワークであるRTMolを提案する。
このフレームワークは、新しいラウンドトリップ評価指標を導入し、ペアの分子テキストコーパスを必要とせずに、分子キャプションの教師なしトレーニングを可能にする。
実験により、RTMolは様々なLLMに対して最大47%の双方向アライメント性能を向上し、結合分子のテキスト理解と生成に有効なパラダイムを確立した。
関連論文リスト
- $\text{M}^{2}$LLM: Multi-view Molecular Representation Learning with Large Language Models [59.125833618091846]
分子構造ビュー,分子タスクビュー,分子規則ビューの3つの視点を統合した多視点フレームワークを提案する。
実験によると、$textM2$LLMは、分類タスクと回帰タスクをまたいだ複数のベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-08-12T05:46:47Z) - MolReFlect: Towards In-Context Fine-grained Alignments between Molecules and Texts [23.53304253421472]
MolReFlectは、微細な方法で分子カプセルアライメントを文脈的に実行するように設計された教師学生向けフレームワークである。
実験の結果,MorReFlectはMistral-7BのようなLLMを従来のベースラインよりも大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2024-11-22T04:28:56Z) - Exploring Optimal Transport-Based Multi-Grained Alignments for Text-Molecule Retrieval [24.061535843472427]
最適TRansportに基づく多粒度アライメントモデル(ORMA)を導入する。
ORMAは、テキスト記述と分子間の多義的なアライメントを促進する新しいアプローチである。
ChEBI-20データセットとPCdesデータセットの実験結果から、ORMAが既存のSOTA(State-of-the-art)モデルを大幅に上回っていることが示されている。
論文 参考訳(メタデータ) (2024-11-04T06:30:52Z) - Advancing Molecular Graph-Text Pre-training via Fine-grained Alignment [36.130217091969335]
FineMolTexは、新しい分子グラフ-テキスト事前トレーニングフレームワークである。
粒度の粗い分子レベルの知識と粒度の細かいモチーフレベルの知識を学習する。
FineMolTexは、きめ細かな知識をうまく捉え、薬物発見と触媒設計のための貴重な洞察を提供する可能性がある。
論文 参考訳(メタデータ) (2024-09-21T11:19:15Z) - Atomas: Hierarchical Alignment on Molecule-Text for Unified Molecule Understanding and Generation [42.08917809689811]
クロスモーダル表現学習は、分子表現の質を高めるための有望な方向として登場した。
SMILES文字列とテキストから表現を共同で学習する階層的分子表現学習フレームワークAtomasを提案する。
Atomasは11のデータセット上の12のタスクで優れたパフォーマンスを実現し、11のベースラインモデルを上回っている。
論文 参考訳(メタデータ) (2024-04-23T12:35:44Z) - MolXPT: Wrapping Molecules with Text for Generative Pre-training [141.0924452870112]
MolXPTは、テキストでラップされたSMILESで事前訓練されたテキストと分子の統一言語モデルである。
MolXPT は MoleculeNet 上での分子特性予測の強いベースラインを上回ります。
論文 参考訳(メタデータ) (2023-05-18T03:58:19Z) - Multi-modal Molecule Structure-text Model for Text-based Retrieval and
Editing [107.49804059269212]
分子の化学構造とテキスト記述を共同で学習し, マルチモーダルな分子構造テキストモデル, MoleculeSTMを提案する。
実験において、分子STMは、新しい生化学的概念を創出するための最先端の一般化能力を得る。
論文 参考訳(メタデータ) (2022-12-21T06:18:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。