論文の概要: Cephalo: Multi-Modal Vision-Language Models for Bio-Inspired Materials Analysis and Design
- arxiv url: http://arxiv.org/abs/2405.19076v3
- Date: Mon, 15 Jul 2024 12:36:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 00:26:24.994926
- Title: Cephalo: Multi-Modal Vision-Language Models for Bio-Inspired Materials Analysis and Design
- Title(参考訳): Cephalo:バイオインスパイアされた材料分析と設計のためのマルチモーダルビジョンランゲージモデル
- Authors: Markus J. Buehler,
- Abstract要約: セファロ (Cephalo) は、材料科学の応用のために設計されたビジョン大型言語モデル(V-LLM)のシリーズである。
何千もの科学論文の総合的な画像とテキストデータに基づいて訓練されている。
ジェネレーティブ・アプリケーションには、花粉にインスパイアされた設計材料を含むバイオインスパイアされたデザインが含まれる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present Cephalo, a series of multimodal vision large language models (V-LLMs) designed for materials science applications, integrating visual and linguistic data for enhanced understanding. A key innovation of Cephalo is its advanced dataset generation method. Cephalo is trained on integrated image and text data from thousands of scientific papers and science-focused Wikipedia data demonstrates can interpret complex visual scenes, generate precise language descriptions, and answer queries about images effectively. The combination of a vision encoder with an autoregressive transformer supports multimodal natural language understanding, which can be coupled with other generative methods to create an image-to-text-to-3D pipeline. To develop more capable models from smaller ones, we report both mixture-of-expert methods and model merging. We examine the models in diverse use cases that incorporate biological materials, fracture and engineering analysis, protein biophysics, and bio-inspired design based on insect behavior. Generative applications include bio-inspired designs, including pollen-inspired architected materials, as well as the synthesis of bio-inspired material microstructures from a photograph of a solar eclipse. Additional model fine-tuning with a series of molecular dynamics results demonstrate Cephalo's enhanced capabilities to accurately predict statistical features of stress and atomic energy distributions, as well as crack dynamics and damage in materials.
- Abstract(参考訳): 本稿では,教材科学応用のための多モード視覚大言語モデル (V-LLM) であるCephaloについて述べる。
Cephaloの重要な革新は、その高度なデータセット生成方法である。
Cephaloは、何千もの科学論文と科学に焦点を当てたウィキペディアデータの統合画像とテキストデータに基づいて訓練されており、複雑な視覚シーンを解釈し、正確な言語記述を生成し、画像に関する質問に効果的に答えることができる。
視覚エンコーダと自動回帰変換器の組み合わせはマルチモーダル自然言語理解をサポートし、他の生成手法と結合して画像からテキストへ3Dパイプラインを作成することができる。
より小型のモデルからより有能なモデルを開発するために,実験的手法とモデルマージの両方を報告する。
本研究は, 生物材料, 破壊・工学解析, タンパク質生理学, 昆虫行動に基づくバイオインスパイアデザインを含む多種多様なユースケースのモデルについて検討する。
生成的応用には、花粉にインスパイアされた建築材料を含む生物にインスパイアされたデザインや、日食の写真から生体にインスパイアされた材料の微細構造を合成することが含まれる。
一連の分子動力学によるモデル微調整により、セファロは、応力と原子エネルギー分布の統計的特徴を正確に予測する能力と、材料中のひび割れのダイナミクスと損傷を正確に予測できることを示した。
関連論文リスト
- Leveraging Biomolecule and Natural Language through Multi-Modal
Learning: A Survey [75.47055414002571]
生物分子モデリングと自然言語(BL)の統合は、人工知能、化学、生物学の交差点において有望な学際領域として現れてきた。
生体分子と自然言語の相互モデリングによって達成された最近の進歩について分析する。
論文 参考訳(メタデータ) (2024-03-03T14:59:47Z) - Diversifying Knowledge Enhancement of Biomedical Language Models using
Adapter Modules and Knowledge Graphs [54.223394825528665]
我々は、軽量なアダプターモジュールを用いて、構造化された生体医学的知識を事前訓練された言語モデルに注入するアプローチを開発した。
バイオメディカル知識システムUMLSと新しいバイオケミカルOntoChemの2つの大きなKGと、PubMedBERTとBioLinkBERTの2つの著名なバイオメディカルPLMを使用している。
計算能力の要件を低く保ちながら,本手法がいくつかの事例において性能改善につながることを示す。
論文 参考訳(メタデータ) (2023-12-21T14:26:57Z) - BioinspiredLLM: Conversational Large Language Model for the Mechanics of
Biological and Bio-inspired Materials [0.0]
オープンソースの自己回帰変換器大言語モデルであるBioinspiredLLMが報告されている。
このモデルは、構造的生物学的および生体的インスパイアされた材料分野において、1,000以上の査読された記事のコーパスで微調整された。
論文 参考訳(メタデータ) (2023-09-15T22:12:44Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - GIT-Mol: A Multi-modal Large Language Model for Molecular Science with
Graph, Image, and Text [25.979382232281786]
グラフ,画像,テキスト情報を統合したマルチモーダルな大規模言語モデルであるGIT-Molを紹介する。
特性予測の精度は5%-10%向上し、分子生成の妥当性は20.2%向上した。
論文 参考訳(メタデータ) (2023-08-14T03:12:29Z) - MeLM, a generative pretrained language modeling framework that solves
forward and inverse mechanics problems [0.0]
本稿では, 様々な非線形前方・逆問題の解法として, フレキシブルなマルチモーダル力学言語モデル, MeLM を適用する。
このフレームワークは、バイオインスパイアされた階層的ハニカム設計やカーボンナノチューブ力学など、様々な例に適用されている。
論文 参考訳(メタデータ) (2023-06-30T10:28:20Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - RoentGen: Vision-Language Foundation Model for Chest X-ray Generation [7.618389245539657]
我々は,胸部X線のコーパスに事前学習した潜伏拡散モデルを適用することで,大きな自然医学的分布変化を克服する戦略を開発する。
テキストプロンプトに条件付された高忠実で多様な合成CXRを生成するモデルの能力について検討する。
得られたモデル(RoentGen)が視覚的に説得力があり多様な合成CXR画像を生成することができることを示す。
論文 参考訳(メタデータ) (2022-11-23T06:58:09Z) - A Molecular Multimodal Foundation Model Associating Molecule Graphs with
Natural Language [63.60376252491507]
本稿では,分子グラフとその意味的関連テキストデータから事前学習した分子マルチモーダル基礎モデルを提案する。
我々のモデルは、生物学、化学、材料、環境、医学などの分野において、AIを動力とする分野に幅広い影響を与えるだろうと考えています。
論文 参考訳(メタデータ) (2022-09-12T00:56:57Z) - Learning multi-scale functional representations of proteins from
single-cell microscopy data [77.34726150561087]
局所化分類に基づいて訓練された単純な畳み込みネットワークは、多様な機能情報をカプセル化したタンパク質表現を学習できることを示す。
また,生物機能の異なるスケールでタンパク質表現の質を評価するためのロバストな評価戦略を提案する。
論文 参考訳(メタデータ) (2022-05-24T00:00:07Z) - Multimodal Graph-based Transformer Framework for Biomedical Relation
Extraction [21.858440542249934]
本稿では,分子構造などの付加的なマルチモーダルキューの助けを借りて,モデルが実体(タンパク質)に関する多言語生物学的情報を学習することを可能にする新しい枠組みを提案する。
バイオメディカルコーパスを用いたタンパク質プロテイン相互作用タスクの評価を行った。
論文 参考訳(メタデータ) (2021-07-01T16:37:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。