論文の概要: Towards Cross-Modal Text-Molecule Retrieval with Better Modality Alignment
- arxiv url: http://arxiv.org/abs/2410.23715v1
- Date: Thu, 31 Oct 2024 08:03:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-10 11:30:23.077893
- Title: Towards Cross-Modal Text-Molecule Retrieval with Better Modality Alignment
- Title(参考訳): モダリティアライメントを改良したクロスモーダルテキスト・分子検索に向けて
- Authors: Jia Song, Wanru Zhuang, Yujie Lin, Liang Zhang, Chunyan Li, Jinsong Su, Song He, Xiaochen Bo,
- Abstract要約: クロスモーダルテキスト-分子検索モデルは、テキストと分子の共有特徴空間を正確に類似性を計算するために学習することを目的としている。
これまでの研究は、テキストシーケンスと分子グラフの間の大きなギャップを考慮すると、モダリティ共有の特徴を捉えるのに不十分であった。
本稿では,2つの改良点を有するクロスモーダルテキスト-分子検索モデルを提案する。
- 参考スコア(独自算出の注目度): 23.86314167123294
- License:
- Abstract: Cross-modal text-molecule retrieval model aims to learn a shared feature space of the text and molecule modalities for accurate similarity calculation, which facilitates the rapid screening of molecules with specific properties and activities in drug design. However, previous works have two main defects. First, they are inadequate in capturing modality-shared features considering the significant gap between text sequences and molecule graphs. Second, they mainly rely on contrastive learning and adversarial training for cross-modality alignment, both of which mainly focus on the first-order similarity, ignoring the second-order similarity that can capture more structural information in the embedding space. To address these issues, we propose a novel cross-modal text-molecule retrieval model with two-fold improvements. Specifically, on the top of two modality-specific encoders, we stack a memory bank based feature projector that contain learnable memory vectors to extract modality-shared features better. More importantly, during the model training, we calculate four kinds of similarity distributions (text-to-text, text-to-molecule, molecule-to-molecule, and molecule-to-text similarity distributions) for each instance, and then minimize the distance between these similarity distributions (namely second-order similarity losses) to enhance cross-modal alignment. Experimental results and analysis strongly demonstrate the effectiveness of our model. Particularly, our model achieves SOTA performance, outperforming the previously-reported best result by 6.4%.
- Abstract(参考訳): クロスモーダルテキスト分子検索モデルは, 薬物設計における特定の特性と活性を持つ分子の迅速スクリーニングを容易にする, 正確な類似性計算のためのテキストと分子のモダリティの共有特徴空間を学習することを目的としている。
しかし、以前の作品には2つの欠点があった。
まず、テキストシーケンスと分子グラフの間の大きなギャップを考慮すると、モダリティ共有の特徴を捉えるのに不十分である。
第二に、それらは主に、相互モダリティアライメントのための対照的な学習と敵対的なトレーニングに依存しており、どちらも主に1階の類似性に注目しており、埋め込み空間におけるより構造的な情報をキャプチャできる2階の類似性を無視している。
これらの問題に対処するために,2つの改良を加えたクロスモーダルテキスト-分子検索モデルを提案する。
具体的には、2つのモダリティ固有エンコーダの上に、学習可能なメモリベクトルを含むメモリバンクベースの特徴プロジェクタを積み重ねて、モダリティ共有された特徴をよりよく抽出する。
さらに,モデルトレーニングにおいて,各インスタンスに対する4種類の類似度分布(テキスト・トゥ・テキスト・トゥ・分子・分子・分子間類似度分布)を計算し,それらの類似度分布(すなわち2階類似度損失)間の距離を最小化し,相互アライメントを向上させる。
実験結果と分析は,本モデルの有効性を強く示している。
特に,本モデルではSOTA性能が6.4%向上した。
関連論文リスト
- Bridging the Modality Gap: Dimension Information Alignment and Sparse Spatial Constraint for Image-Text Matching [10.709744162565274]
本稿では2つの側面からモダリティギャップを橋渡しするDIASと呼ばれる新しい手法を提案する。
この方法はFlickr30kとMSCOCOベンチマークで4.3%-10.2%のrSum改善を実現している。
論文 参考訳(メタデータ) (2024-10-22T09:37:29Z) - GSSF: Generalized Structural Sparse Function for Deep Cross-modal Metric Learning [51.677086019209554]
ペアワイド類似性学習のためのモダリティ間の強力な関係を捕捉する汎用構造スパースを提案する。
距離メートル法は、対角線とブロック対角線の2つの形式を微妙にカプセル化する。
クロスモーダルと2つの余分なユニモーダル検索タスクの実験は、その優位性と柔軟性を検証した。
論文 参考訳(メタデータ) (2024-10-20T03:45:50Z) - Optimizing OOD Detection in Molecular Graphs: A Novel Approach with Diffusion Models [71.39421638547164]
本稿では,入力分子と再構成グラフの類似性を比較する補助拡散モデルに基づくフレームワークを用いてOOD分子を検出することを提案する。
IDトレーニングサンプルの再構成に向けた生成バイアスのため、OOD分子の類似度スコアは検出を容易にするためにはるかに低い。
本研究は,PGR-MOOD(PGR-MOOD)とよばれる分子OOD検出のためのプロトタイプグラフ再構成のアプローチを開拓し,3つのイノベーションを生かした。
論文 参考訳(メタデータ) (2024-04-24T03:25:53Z) - Unified Molecular Modeling via Modality Blending [35.16755562674055]
我々は,新しい「Blund-then-predict」自己教師型学習法(MoleBLEND)を導入する。
MoleBLENDは、異なるモジュラリティからの原子関係をマトリックス符号化のための1つの統一された関係にブレンドし、2D構造と3D構造の両方のモダリティ固有情報を復元する。
実験によると、MoleBLENDは主要な2D/3Dベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-07-12T15:27:06Z) - BiCro: Noisy Correspondence Rectification for Multi-modality Data via
Bi-directional Cross-modal Similarity Consistency [66.8685113725007]
BiCroは、ノイズの多いデータペアのソフトラベルを推定して、その真の対応度を反映することを目的としている。
3つの一般的なクロスモーダルマッチングデータセットの実験により、BiCroは様々なマッチングモデルのノイズ・ロバスト性を大幅に改善することを示した。
論文 参考訳(メタデータ) (2023-03-22T09:33:50Z) - Molecular Property Prediction by Semantic-invariant Contrastive Learning [26.19431931932982]
分子特性予測のためのビュー生成法に基づくフラグメントに基づくセマンティック不変コントラスト学習モデルを開発した。
事前トレーニングのサンプルが少ないため、FraSICLは既存の主要なモデルと比較して最先端のパフォーマンスを達成できる。
論文 参考訳(メタデータ) (2023-03-13T07:32:37Z) - Cross-modal Contrastive Learning for Multimodal Fake News Detection [10.760000041969139]
COOLANTはマルチモーダルフェイクニュース検出のためのクロスモーダルコントラスト学習フレームワークである。
クロスモーダル融合モジュールは、クロスモーダル相関を学習するために開発された。
アテンションガイダンスモジュールは、アライメントされたユニモーダル表現を効果的かつ解釈可能に集約するために実装される。
論文 参考訳(メタデータ) (2023-02-25T10:12:34Z) - Disentangled Representation Learning for Text-Video Retrieval [51.861423831566626]
テキスト・ビデオ検索(TVR)における相互モダリティの相互作用
我々は相互作用のパラダイムを深く研究し、その計算を2つの項に分けることができることを示した。
本稿では,逐次的かつ階層的な表現を捉えるための非絡み合いフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-14T13:55:33Z) - Molecular Attributes Transfer from Non-Parallel Data [57.010952598634944]
分子最適化をスタイル伝達問題として定式化し、非並列データの2つのグループ間の内部差を自動的に学習できる新しい生成モデルを提案する。
毒性修飾と合成性向上という2つの分子最適化タスクの実験により,本モデルがいくつかの最先端手法を著しく上回ることを示した。
論文 参考訳(メタデータ) (2021-11-30T06:10:22Z) - Understanding Neural Abstractive Summarization Models via Uncertainty [54.37665950633147]
seq2seq抽象要約モデルは、自由形式の方法でテキストを生成する。
モデルのトークンレベルの予測のエントロピー、すなわち不確実性について検討する。
要約とテキスト生成モデルをより広範囲に解析する上で,不確実性は有用であることを示す。
論文 参考訳(メタデータ) (2020-10-15T16:57:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。