論文の概要: L^2M^3OF: A Large Language Multimodal Model for Metal-Organic Frameworks
- arxiv url: http://arxiv.org/abs/2510.20976v1
- Date: Thu, 23 Oct 2025 20:12:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 06:57:23.354404
- Title: L^2M^3OF: A Large Language Multimodal Model for Metal-Organic Frameworks
- Title(参考訳): L^2M^3OF:金属-有機フレームワークのための大規模言語マルチモーダルモデル
- Authors: Jiyu Cui, Fang Wu, Haokai Zhao, Minggao Feng, Xenophon Evangelopoulos, Andrew I. Cooper, Yejin Choi,
- Abstract要約: 魅力的な例は、炭素捕獲や水素貯蔵のような衝撃的な応用のためにMOFのような機能材料を設計することである。
LLMによって解釈される言語ベースの表現において、その広大な複雑なデザイン空間をナビゲートすることは困難である。
L2M3OFは、結晶表現学習と言語理解を統合し、構造、テキスト、知識のモダリティを共同で処理する。
- 参考スコア(独自算出の注目度): 29.366697500323934
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models have demonstrated remarkable reasoning capabilities across diverse natural language tasks. However, comparable breakthroughs in scientific discovery are more limited, because understanding complex physical phenomena demands multifaceted representations far beyond language alone. A compelling example is the design of functional materials such as MOFs-critical for a range of impactful applications like carbon capture and hydrogen storage. Navigating their vast and intricate design space in language-based representations interpretable by LLMs is challenging due to the numerous possible three-dimensional atomic arrangements and strict reticular rules of coordination geometry and topology. Despite promising early results in LLM-assisted discovery for simpler materials systems, MOF design remains heavily reliant on tacit human expertise rarely codified in textual information alone. To overcome this barrier, we introduce L2M3OF, the first multimodal LLM for MOFs. L2M3OF integrates crystal representation learning with language understanding to process structural, textual, and knowledge modalities jointly. L2M3OF employs a pre-trained crystal encoder with a lightweight projection layer to compress structural information into a token space, enabling efficient alignment with language instructions. To facilitate training and evaluation, we curate a structure-property-knowledge database of crystalline materials and benchmark L2M3OF against state-of-the-art closed-source LLMs such as GPT-5, Gemini-2.5-Pro and DeepSeek-R1. Experiments show that L2M3OF outperforms leading text-based closed-source LLMs in property prediction and knowledge generation tasks, despite using far fewer parameters. These results highlight the importance of multimodal approaches for porous material understanding and establish L2M3OF as a foundation for next-generation AI systems in materials discovery.
- Abstract(参考訳): 大規模言語モデルは、様々な自然言語タスクにまたがる顕著な推論能力を示している。
しかし、複雑な物理現象を理解するには言語以外にも多面的表現を必要とするため、科学的発見において同等の突破口は限られている。
魅力的な例としては、炭素捕獲や水素貯蔵といった衝撃的な用途に欠かせないMOFsのような機能材料の設計が挙げられる。
LLMによって解釈される言語に基づく表現において、その広大な複雑な設計空間をナビゲートすることは、多くの3次元原子配列と調整幾何学とトポロジーの厳密な規則のために困難である。
LLMによる単純な材料システムの発見が期待できる初期の成果にもかかわらず、MOFの設計はテキスト情報だけでは稀な暗黙の人間の専門知識に大きく依存している。
この障壁を克服するために,MOF のための最初のマルチモーダル LLM である L2M3OF を導入する。
L2M3OFは、結晶表現学習と言語理解を統合し、構造、テキスト、知識のモダリティを共同で処理する。
L2M3OFは、事前訓練された結晶エンコーダと軽量な射影層を用いて、構造情報をトークン空間に圧縮し、言語命令との効率的なアライメントを可能にする。
GPT-5, Gemini-2.5-Pro, DeepSeek-R1 などの最先端のクローズドソース LLM に対して, 結晶材料の構造固有知識データベースとベンチマーク L2M3OF をキュレートする。
実験により、L2M3OFは、パラメータがはるかに少ないにもかかわらず、プロパティ予測や知識生成タスクにおいて、テキストベースのクローズドソースLLMよりも優れていることが示された。
これらの結果は、多孔質材料理解のためのマルチモーダルアプローチの重要性を強調し、材料発見における次世代AIシステムの基盤としてL2M3OFを確立する。
関連論文リスト
- Abstractive Visual Understanding of Multi-modal Structured Knowledge: A New Perspective for MLLM Evaluation [48.462734327375536]
MLLM(Multi-modal large language model)は、多種多様なシナリオやオブジェクトの包括的理解を可能にする。
MLLMの評価ベンチマークやリーダーボードの普及にもかかわらず、彼らはMLLMが視覚的に現れる構造化された抽象化で世界的知識を理解する上で重要な能力を見落としている。
構造化理解のためのマルチモーダルマップを基盤とした,革新的なベンチマークであるM3STRを提案する。
その結果,抽象的視覚情報を構造化知識で処理し,MLLMの総合的推論能力を向上させるための重要な軌道を図った。
論文 参考訳(メタデータ) (2025-06-02T04:00:35Z) - Enhanced Multimodal Aspect-Based Sentiment Analysis by LLM-Generated Rationales [7.119479942471737]
既存の方法は、画像とテキストの両方からアスペクトや感情に関連する情報を集めるために、事前訓練された小さな言語モデル(SLM)に依存している。
我々は,SLMの意思決定能力とMABSAのためのLLMが提供する付加情報を組み合わせた新しいフレームワークLRSAを提案する。
論文 参考訳(メタデータ) (2025-05-20T15:28:26Z) - When Text Embedding Meets Large Language Model: A Comprehensive Survey [37.656006634893046]
この調査は、大きな言語モデル(LLM)とテキスト埋め込みの相互作用に焦点を当てている。
様々な研究および応用分野からの貢献の、新しく体系的な概要を提供する。
この分析に基づいて,テキスト埋め込みの進化に向けた今後の方向性を概説する。
論文 参考訳(メタデータ) (2024-12-12T10:50:26Z) - LLM2CLIP: Powerful Language Model Unlocks Richer Visual Representation [72.02635550088546]
この研究は、大規模言語モデル(LLM)がCLIPの機能をどのように強化するか、特により長く複雑なイメージキャプションを処理するために検討する。
キャプション・トゥ・キャプション・トゥ・キャプション・トゥ・コントラスト・ファインチューニング・フレームワークを導入し,LLM出力の識別品質を大幅に向上させた。
提案手法はLoRA法よりも優れ,より優れた性能で4倍近い高速トレーニングを実現している。
論文 参考訳(メタデータ) (2024-11-07T18:59:16Z) - LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [72.68665884790002]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。
本稿では,教師モデルの頑健な表現を視覚的,言語的両面で伝達するために,MDist(Multimodal Distillation)を導入する。
また,提案した蒸留戦略の可能性をフル活用するための3段階学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T17:41:28Z) - Fine-tuning Multimodal Large Language Models for Product Bundling [53.01642741096356]
Bundle-MLLMは,大規模言語モデル(LLM)をハイブリットアイテムトークン化アプローチにより微調整する新しいフレームワークである。
具体的には、テキスト、メディア、およびリレーショナルデータを統一トークン化に統合し、テキストトークンと非テキストトークンを区別するソフトな分離トークンを導入する。
1)バンドルパターンを学習し,2)製品バンドル固有のマルチモーダルセマンティック理解の強化を行う。
論文 参考訳(メタデータ) (2024-07-16T13:30:14Z) - Language-Specific Neurons: The Key to Multilingual Capabilities in Large Language Models [117.20416338476856]
大規模言語モデル(LLM)は、特別にキュレートされた多言語並列コーパスで事前訓練されることなく、顕著な多言語機能を示す。
LLM内の言語特異的ニューロンを識別するための新しい検出手法である言語アクティベーション確率エントロピー(LAPE)を提案する。
以上の結果から,LLMが特定の言語を処理できる能力は,神経細胞のサブセットが少なすぎるためであることが示唆された。
論文 参考訳(メタデータ) (2024-02-26T09:36:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。