論文の概要: LLM-Fusion: A Novel Multimodal Fusion Model for Accelerated Material Discovery
- arxiv url: http://arxiv.org/abs/2503.01022v1
- Date: Sun, 02 Mar 2025 21:13:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:21:23.212410
- Title: LLM-Fusion: A Novel Multimodal Fusion Model for Accelerated Material Discovery
- Title(参考訳): LLM-Fusion: 加速材料発見のための新しいマルチモーダル核融合モデル
- Authors: Onur Boyar, Indra Priyadarsini, Seiji Takeda, Lisa Hamada,
- Abstract要約: 本稿では, SMILES, SELFIES, テキスト記述, 分子指紋などの多言語モデル(LLM)を活用して, 高精度な特性予測を行う新しい多モーダル融合モデルを提案する。
提案手法では,マルチモーダル入力処理をサポートするフレキシブルLLMアーキテクチャを導入し,従来の手法よりも高い精度で材料特性の予測を可能にする。
- 参考スコア(独自算出の注目度): 1.4570888984947485
- License:
- Abstract: Discovering materials with desirable properties in an efficient way remains a significant problem in materials science. Many studies have tackled this problem by using different sets of information available about the materials. Among them, multimodal approaches have been found to be promising because of their ability to combine different sources of information. However, fusion algorithms to date remain simple, lacking a mechanism to provide a rich representation of multiple modalities. This paper presents LLM-Fusion, a novel multimodal fusion model that leverages large language models (LLMs) to integrate diverse representations, such as SMILES, SELFIES, text descriptions, and molecular fingerprints, for accurate property prediction. Our approach introduces a flexible LLM-based architecture that supports multimodal input processing and enables material property prediction with higher accuracy than traditional methods. We validate our model on two datasets across five prediction tasks and demonstrate its effectiveness compared to unimodal and naive concatenation baselines.
- Abstract(参考訳): 望ましい性質を持つ材料を効率的に発見することは、材料科学において重要な問題である。
多くの研究が、材料に関する情報の異なるセットを使用することでこの問題に対処している。
その中でも,様々な情報ソースを組み合わせる能力から,マルチモーダルアプローチが有望であることが確認されている。
しかし、今までの融合アルゴリズムは単純であり、複数のモダリティをリッチに表現するメカニズムが欠如している。
本稿では, SMILES, SELFIES, テキスト記述, 分子指紋などの多言語モデル(LLM)を活用して, 高精度な特性予測を行う, 新たなマルチモーダル融合モデル LLM-Fusion を提案する。
提案手法では,マルチモーダル入力処理をサポートするフレキシブルLLMアーキテクチャを導入し,従来の手法よりも高い精度で材料特性の予測を可能にする。
我々は,5つの予測課題にまたがる2つのデータセット上でモデルを検証し,その有効性を示す。
関連論文リスト
- FedMLLM: Federated Fine-tuning MLLM on Multimodal Heterogeneity Data [64.50893177169996]
フェデレートラーニング(FL)による微調整型マルチモーダル大言語モデル(MLLM)は、プライベートデータソースを含めることで、トレーニングデータの範囲を拡大することができる。
マルチモーダルなヘテロジニアスシナリオにおけるMLLMのファインチューニングにおける様々なダウンストリームタスクを評価するためのベンチマークを提案する。
我々は,2つのモダリティに依存しない戦略とともに,4つの代表的FL手法を統合する汎用FedMLLMフレームワークを開発した。
論文 参考訳(メタデータ) (2024-11-22T04:09:23Z) - UniMEL: A Unified Framework for Multimodal Entity Linking with Large Language Models [0.42832989850721054]
MEL(Multimodal Entities Linking)は、ウィキペディアのようなマルチモーダル知識ベースの参照エンティティに、多モーダルコンテキスト内で曖昧な言及をリンクすることを目的とした重要なタスクである。
既存の方法はMELタスクを過度に複雑にし、視覚的意味情報を見渡す。
大規模言語モデルを用いたマルチモーダル・エンティティ・リンクタスクを処理するための新しいパラダイムを確立する統一フレームワークUniMELを提案する。
論文 参考訳(メタデータ) (2024-07-23T03:58:08Z) - Fine-tuning Multimodal Large Language Models for Product Bundling [53.01642741096356]
Bundle-MLLMは,大規模言語モデル(LLM)をハイブリットアイテムトークン化アプローチにより微調整する新しいフレームワークである。
具体的には、テキスト、メディア、およびリレーショナルデータを統一トークン化に統合し、テキストトークンと非テキストトークンを区別するソフトな分離トークンを導入する。
1)バンドルパターンを学習し,2)製品バンドル固有のマルチモーダルセマンティック理解の強化を行う。
論文 参考訳(メタデータ) (2024-07-16T13:30:14Z) - NoteLLM-2: Multimodal Large Representation Models for Recommendation [71.87790090964734]
大規模言語モデル(LLM)は、テキスト理解や埋め込みタスクにおいて、例外的な習熟度を示している。
マルチモーダル表現のポテンシャル、特にアイテムツーイテム(I2I)レコメンデーションについては、未解明のままである。
本稿では,既存のLLMと視覚エンコーダの統合をカスタマイズし,効率的なマルチモーダル表現を実現するエンド・ツー・エンドのファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-05-27T03:24:01Z) - Model Composition for Multimodal Large Language Models [71.5729418523411]
本稿では,既存のMLLMのモデル構成による新しいパラダイムを提案する。
我々の基本的な実装であるNaiveMCは、モダリティエンコーダを再利用し、LLMパラメータをマージすることで、このパラダイムの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-20T06:38:10Z) - Deep Equilibrium Multimodal Fusion [88.04713412107947]
多重モーダル融合は、複数のモーダルに存在する相補的な情報を統合し、近年多くの注目を集めている。
本稿では,動的多モード核融合プロセスの固定点を求めることにより,多モード核融合に対する新しいDeep equilibrium (DEQ)法を提案する。
BRCA,MM-IMDB,CMU-MOSI,SUN RGB-D,VQA-v2の実験により,DEC融合の優位性が示された。
論文 参考訳(メタデータ) (2023-06-29T03:02:20Z) - Provable Dynamic Fusion for Low-Quality Multimodal Data [94.39538027450948]
動的マルチモーダル融合は、有望な学習パラダイムとして現れる。
広く使われているにもかかわらず、この分野の理論的正当化は依然として顕著に欠落している。
本稿では、一般化の観点から最もポピュラーなマルチモーダル融合フレームワークの下で、この問題に答える理論的理解を提供する。
QMF(Quality-Aware Multimodal Fusion)と呼ばれる新しいマルチモーダル融合フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-03T08:32:35Z) - CLMLF:A Contrastive Learning and Multi-Layer Fusion Method for
Multimodal Sentiment Detection [24.243349217940274]
マルチモーダル感情検出のためのコントラスト学習・多層融合法(CLMLF)を提案する。
具体的には、まずテキストと画像をエンコードして隠れ表現を取得し、次に多層融合モジュールを使用してテキストと画像のトークンレベルの特徴を整列し、融合する。
また、感情分析タスクに加えて、ラベルベースコントラスト学習とデータベースコントラスト学習という2つのコントラスト学習タスクを設計した。
論文 参考訳(メタデータ) (2022-04-12T04:03:06Z) - Improving Multimodal Fusion with Hierarchical Mutual Information
Maximization for Multimodal Sentiment Analysis [16.32509144501822]
本稿では,MultiModal InfoMax (MMIM) というフレームワークを提案する。
このフレームワークは、下流のMSAタスクのパフォーマンスを改善するために、メインタスク(MSA)と共同で訓練されている。
論文 参考訳(メタデータ) (2021-09-01T14:45:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。