論文の概要: Seeing and Understanding: Bridging Vision with Chemical Knowledge Via ChemVLM
- arxiv url: http://arxiv.org/abs/2408.07246v1
- Date: Wed, 14 Aug 2024 01:16:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-15 14:35:46.730496
- Title: Seeing and Understanding: Bridging Vision with Chemical Knowledge Via ChemVLM
- Title(参考訳): 観察と理解 - ChemVLMによる化学知識によるブリッジングビジョン
- Authors: Junxian Li, Di Zhang, Xunzhi Wang, Zeying Hao, Jingdi Lei, Qian Tan, Cai Zhou, Wei Liu, Weiyun Wang, Zhe Chen, Wenhai Wang, Wei Li, Shufei Zhang, Mao Su, Wanli Ouyang, Yuqiang Li, Dongzhan Zhou,
- Abstract要約: 化学分野に特化したオープンソースのマルチモーダル大規模言語モデルであるChemVLMを提案する。
我々はChemLLM-20Bを基礎的な大規模モデルとして活用し、化学テキスト知識の理解と活用に頑健な能力を持つモデルを構築した。
分子,反応公式,化学試験データなど,化学領域からの高品質なデータを収集し,バイリンガル・マルチモーダル質問応答データセットにコンパイルした。
- 参考スコア(独自算出の注目度): 51.77759441598974
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this technical report, we propose ChemVLM, the first open-source multimodal large language model dedicated to the fields of chemistry, designed to address the incompatibility between chemical image understanding and text analysis. Built upon the VIT-MLP-LLM architecture, we leverage ChemLLM-20B as the foundational large model, endowing our model with robust capabilities in understanding and utilizing chemical text knowledge. Additionally, we employ InternVIT-6B as a powerful image encoder. We have curated high-quality data from the chemical domain, including molecules, reaction formulas, and chemistry examination data, and compiled these into a bilingual multimodal question-answering dataset. We test the performance of our model on multiple open-source benchmarks and three custom evaluation sets. Experimental results demonstrate that our model achieves excellent performance, securing state-of-the-art results in five out of six involved tasks. Our model can be found at https://huggingface.co/AI4Chem/ChemVLM-26B.
- Abstract(参考訳): 本稿では,ケミカルイメージ理解とテキスト解析の不整合性に対処するために,化学分野に特化した初のオープンソースマルチモーダル大規模言語モデルであるChemVLMを提案する。
VIT-MLP-LLMアーキテクチャを基盤として,ChemLLM-20Bを基礎となる大規模モデルとして活用し,化学テキスト知識の理解と活用に堅牢な能力を備えたモデルを構築した。
また、強力な画像エンコーダとしてInternVIT-6Bを用いる。
分子,反応公式,化学試験データなど,化学領域からの高品質なデータを収集し,バイリンガル・マルチモーダル質問応答データセットにコンパイルした。
複数のオープンソースベンチマークと3つのカスタム評価セットで,本モデルの性能を検証した。
実験結果から,6つのタスクのうち5つのタスクにおいて,本モデルが優れた性能を達成できることが確認された。
私たちのモデルはhttps://huggingface.co/AI4Chem/ChemVLM-26Bで確認できます。
関連論文リスト
- Instruction Multi-Constraint Molecular Generation Using a Teacher-Student Large Language Model [65.31067204558536]
本稿では,学生に類似した多制約分子生成大言語モデルTSMMGを紹介する。
TSMMGを訓練するために、これらの「教師」から分子知識を抽出し、大量のテキスト-分子対を構築する。
我々は,TSMMGが複雑で自然言語で記述された特性を満たす分子を生成できることを実験的に明らかにした。
論文 参考訳(メタデータ) (2024-03-20T02:15:55Z) - LlaSMol: Advancing Large Language Models for Chemistry with a Large-Scale, Comprehensive, High-Quality Instruction Tuning Dataset [13.063678216852473]
大規模言語モデル (LLMs) は, 包括的な化学タスクにおいて, 非常に強力な結果が得られることを示す。
命令チューニングのための大規模で包括的で高品質なデータセットであるSMolInstructを提案する。
SMolInstructを使ってオープンソースのLCMの集合を微調整し、その中のMistralが化学タスクの最良のベースモデルであることを示す。
論文 参考訳(メタデータ) (2024-02-14T18:42:25Z) - ChemLLM: A Chemical Large Language Model [49.308528569982805]
大規模言語モデル(LLM)は化学応用において顕著な進歩を遂げた。
しかし、コミュニティには化学に特化したLLMが欠落している。
本稿では,化学に特化した最初のLLMを特徴とする包括的フレームワークであるChemLLMを紹介する。
論文 参考訳(メタデータ) (2024-02-10T01:11:59Z) - ChemDFM: Dialogue Foundation Model for Chemistry [27.804229420333137]
ChemDFM-13Bは、化学文献、教科書、命令から34Bトークンと、一般領域からの様々なデータに基づいて訓練されている。
高度な自由形式の言語理解能力を持ちながら、化学知識や言語を保存し、理解し、推論することができる。
ChemDFMは、大きな大きさの違いにもかかわらず、化学タスクの大部分でGPT-4を超えることができる。
論文 参考訳(メタデータ) (2024-01-26T12:45:55Z) - MolCA: Molecular Graph-Language Modeling with Cross-Modal Projector and
Uni-Modal Adapter [91.77292826067465]
言語モデル(LM)は、様々な1Dテキスト関連タスクにおいて、印象的な分子理解能力を示す。
しかし、それらは本質的に2次元グラフの認識を欠いている。
クロスモーダルプロジェクタとユニモーダルアダプタを用いた分子グラフ言語モデリング(MolCA: Molecular Graph-Language Modeling)を提案する。
論文 参考訳(メタデータ) (2023-10-19T14:52:58Z) - Structure to Property: Chemical Element Embeddings and a Deep Learning Approach for Accurate Prediction of Chemical Properties [0.0]
化学分類タスクのためのelEmBERTモデルを提案する。
これは多層エンコーダアーキテクチャのようなディープラーニング技術に基づいている。
我々は, 有機, 無機, 結晶化合物の集合に対して, アプローチがもたらす機会を実証する。
論文 参考訳(メタデータ) (2023-09-17T19:41:32Z) - MolGrapher: Graph-based Visual Recognition of Chemical Structures [50.13749978547401]
化学構造を視覚的に認識するためにMolGrapherを導入する。
すべての候補原子と結合をノードとして扱い、それらをグラフ化する。
グラフニューラルネットワークを用いてグラフ内の原子と結合ノードを分類する。
論文 参考訳(メタデータ) (2023-08-23T16:16:11Z) - A Molecular Multimodal Foundation Model Associating Molecule Graphs with
Natural Language [63.60376252491507]
本稿では,分子グラフとその意味的関連テキストデータから事前学習した分子マルチモーダル基礎モデルを提案する。
我々のモデルは、生物学、化学、材料、環境、医学などの分野において、AIを動力とする分野に幅広い影響を与えるだろうと考えています。
論文 参考訳(メタデータ) (2022-09-12T00:56:57Z) - ChemBERTa-2: Towards Chemical Foundation Models [0.0]
SMILESの言語を用いたケミカルファンデーションモデルChemBERTa-2を構築した。
本研究では,事前学習プロセスの最適化によりChemBERTaを構築した。
我々の知る限り、77Mデータセットはこれまでに分子プレトレーニングに使われた最大のデータセットの1つである。
論文 参考訳(メタデータ) (2022-09-05T00:31:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。