論文の概要: Seeing and Understanding: Bridging Vision with Chemical Knowledge Via ChemVLM
- arxiv url: http://arxiv.org/abs/2408.07246v1
- Date: Wed, 14 Aug 2024 01:16:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-15 14:35:46.730496
- Title: Seeing and Understanding: Bridging Vision with Chemical Knowledge Via ChemVLM
- Title(参考訳): 観察と理解 - ChemVLMによる化学知識によるブリッジングビジョン
- Authors: Junxian Li, Di Zhang, Xunzhi Wang, Zeying Hao, Jingdi Lei, Qian Tan, Cai Zhou, Wei Liu, Weiyun Wang, Zhe Chen, Wenhai Wang, Wei Li, Shufei Zhang, Mao Su, Wanli Ouyang, Yuqiang Li, Dongzhan Zhou,
- Abstract要約: 化学分野に特化したオープンソースのマルチモーダル大規模言語モデルであるChemVLMを提案する。
我々はChemLLM-20Bを基礎的な大規模モデルとして活用し、化学テキスト知識の理解と活用に頑健な能力を持つモデルを構築した。
分子,反応公式,化学試験データなど,化学領域からの高品質なデータを収集し,バイリンガル・マルチモーダル質問応答データセットにコンパイルした。
- 参考スコア(独自算出の注目度): 51.77759441598974
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this technical report, we propose ChemVLM, the first open-source multimodal large language model dedicated to the fields of chemistry, designed to address the incompatibility between chemical image understanding and text analysis. Built upon the VIT-MLP-LLM architecture, we leverage ChemLLM-20B as the foundational large model, endowing our model with robust capabilities in understanding and utilizing chemical text knowledge. Additionally, we employ InternVIT-6B as a powerful image encoder. We have curated high-quality data from the chemical domain, including molecules, reaction formulas, and chemistry examination data, and compiled these into a bilingual multimodal question-answering dataset. We test the performance of our model on multiple open-source benchmarks and three custom evaluation sets. Experimental results demonstrate that our model achieves excellent performance, securing state-of-the-art results in five out of six involved tasks. Our model can be found at https://huggingface.co/AI4Chem/ChemVLM-26B.
- Abstract(参考訳): 本稿では,ケミカルイメージ理解とテキスト解析の不整合性に対処するために,化学分野に特化した初のオープンソースマルチモーダル大規模言語モデルであるChemVLMを提案する。
VIT-MLP-LLMアーキテクチャを基盤として,ChemLLM-20Bを基礎となる大規模モデルとして活用し,化学テキスト知識の理解と活用に堅牢な能力を備えたモデルを構築した。
また、強力な画像エンコーダとしてInternVIT-6Bを用いる。
分子,反応公式,化学試験データなど,化学領域からの高品質なデータを収集し,バイリンガル・マルチモーダル質問応答データセットにコンパイルした。
複数のオープンソースベンチマークと3つのカスタム評価セットで,本モデルの性能を検証した。
実験結果から,6つのタスクのうち5つのタスクにおいて,本モデルが優れた性能を達成できることが確認された。
私たちのモデルはhttps://huggingface.co/AI4Chem/ChemVLM-26Bで確認できます。
関連論文リスト
- ChemEval: A Comprehensive Multi-Level Chemical Evaluation for Large Language Models [62.37850540570268]
この領域の既存のベンチマークは、化学研究専門家の特定の要求を適切に満たさない。
ChemEvalは化学の4つの重要な進歩レベルを特定し、42の異なる化学タスクで12次元のLCMを評価する。
その結果, LLMは文献の理解と指導に優れる一方で, 高度な化学知識を必要とするタスクでは不足していることがわかった。
論文 参考訳(メタデータ) (2024-09-21T02:50:43Z) - ChemDFM-X: Towards Large Multimodal Model for Chemistry [16.811223849365483]
化学用クロスモーダル対話基盤モデル(ChemDFM-X)について紹介する。
近似計算とタスク固有モデル予測により、初期モダリティから、多様なマルチモーダルデータを生成する。
ChemDFM-Xは、様々なデータモダリティを持つ様々な化学タスクの広範な実験で評価される。
論文 参考訳(メタデータ) (2024-09-20T03:55:34Z) - Are large language models superhuman chemists? [4.87961182129702]
大規模言語モデル(LLM)は、人間の言語を処理し、明示的に訓練されていないタスクを実行する能力によって、広く関心を集めている。
本稿では,最新のLCMの化学知識と推論能力を評価する自動化フレームワークであるChemBenchを紹介する。
我々は2700以上の質問応答ペアをキュレートし、主要なオープンソースとクローズドソースのLCMを評価し、最良のモデルが最高の化学者より優れていることを発見した。
論文 参考訳(メタデータ) (2024-04-01T20:56:25Z) - ChemLLM: A Chemical Large Language Model [49.308528569982805]
大規模言語モデル(LLM)は化学応用において顕著な進歩を遂げた。
しかし、コミュニティには化学に特化したLLMが欠落している。
本稿では,化学に特化した最初のLLMを特徴とする包括的フレームワークであるChemLLMを紹介する。
論文 参考訳(メタデータ) (2024-02-10T01:11:59Z) - ChemDFM: A Large Language Foundation Model for Chemistry [27.864255196445324]
より汎用的で効率的なソリューションは、多くのタスクに対処し、幅広い化学分野における自由形式の対話をサポートするAIモデルである。
我々は化学文献や教科書から34Bトークンを学習し、2.7Mインストラクションを用いて微調整した化学用LLMのパイオニアであるChemDFMを開発した。
我々はHuggingface上のChemDFMの推論コード、評価データセット、モデルウェイトをオープンソース化した。
論文 参考訳(メタデータ) (2024-01-26T12:45:55Z) - Structured Chemistry Reasoning with Large Language Models [70.13959639460015]
大規模言語モデル(LLMs)は様々な分野において優れているが、特に化学において複雑な科学的推論に苦慮している。
所望のガイダンスを提供し,LSMの化学的推論能力を大幅に向上させる,シンプルで効果的なプロンプト戦略であるStructChemを紹介した。
量子化学、力学、物理化学、運動学の4分野にわたる試験では、StructChemはGPT-4の性能を大幅に向上させ、最大30%のピーク改善を実現している。
論文 参考訳(メタデータ) (2023-11-16T08:20:36Z) - Chemist-X: Large Language Model-empowered Agent for Reaction Condition Recommendation in Chemical Synthesis [57.70772230913099]
Chemist-Xは、検索増強生成(RAG)技術を用いた化学合成において、反応条件レコメンデーション(RCR)タスクを自動化する。
Chemist-Xはオンラインの分子データベースを尋問し、最新の文献データベースから重要なデータを蒸留する。
Chemist-Xは化学者の作業量を大幅に減らし、より根本的で創造的な問題に集中できるようにする。
論文 参考訳(メタデータ) (2023-11-16T01:21:33Z) - Multi-modal Molecule Structure-text Model for Text-based Retrieval and
Editing [107.49804059269212]
分子の化学構造とテキスト記述を共同で学習し, マルチモーダルな分子構造テキストモデル, MoleculeSTMを提案する。
実験において、分子STMは、新しい生化学的概念を創出するための最先端の一般化能力を得る。
論文 参考訳(メタデータ) (2022-12-21T06:18:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。