論文の概要: Fine-Tuning Vision-Language Models for Multimodal Polymer Property Prediction
- arxiv url: http://arxiv.org/abs/2511.05577v1
- Date: Tue, 04 Nov 2025 22:32:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.463539
- Title: Fine-Tuning Vision-Language Models for Multimodal Polymer Property Prediction
- Title(参考訳): マルチモーダルポリマー特性予測のための微調整ビジョンランゲージモデル
- Authors: An Vuong, Minh-Hao Van, Prateek Verma, Chen Zhao, Xintao Wu,
- Abstract要約: VLM(Vision-Language Models)は、視覚的質問応答やマルチモーダルテキスト生成といったタスクにおいて、強力なパフォーマンスを示している。
本稿では,マルチモーダル・ポリマー・データセットをインストラクション・チューニング・ペアを通じて微調整VLMに提供し,マルチモーダルが予測性能に与える影響を評価する。
- 参考スコア(独自算出の注目度): 28.839902250542192
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) have shown strong performance in tasks like visual question answering and multimodal text generation, but their effectiveness in scientific domains such as materials science remains limited. While some machine learning methods have addressed specific challenges in this field, there is still a lack of foundation models designed for broad tasks like polymer property prediction using multimodal data. In this work, we present a multimodal polymer dataset to fine-tune VLMs through instruction-tuning pairs and assess the impact of multimodality on prediction performance. Our fine-tuned models, using LoRA, outperform unimodal and baseline approaches, demonstrating the benefits of multimodal learning. Additionally, this approach reduces the need to train separate models for different properties, lowering deployment and maintenance costs.
- Abstract(参考訳): VLM(Vision-Language Models)は、視覚的質問応答やマルチモーダルテキスト生成といったタスクにおいて高い性能を示してきたが、材料科学のような科学領域におけるその有効性は依然として限られている。
この分野ではいくつかの機械学習手法が特定の課題に対処してきたが、マルチモーダルデータを用いたポリマー特性予測のような幅広いタスクのために設計された基礎モデルはいまだに存在しない。
本研究では,マルチモーダル・ポリマー・データセットをインストラクション・チューニング・ペアを通じて微調整VLMに提供し,マルチモーダルが予測性能に与える影響を評価する。
LoRAを用いた微調整モデルでは, マルチモーダル学習の利点を実証し, 単調, ベースラインアプローチより優れていた。
さらにこのアプローチは、異なるプロパティの別々のモデルをトレーニングする必要を減らし、デプロイメントとメンテナンスコストを削減します。
関連論文リスト
- Boosting Multi-modal Keyphrase Prediction with Dynamic Chain-of-Thought in Vision-Language Models [28.416254061159176]
マルチモーダルキーフレーズ予測(MMKP)は、テキストのみの手法を超えて進歩することを目的としている。
従来のマルチモーダルアプローチは、困難な不在と目に見えないシナリオを扱う上で、重大な制限があることが証明されている。
MMKPタスクに視覚言語モデル(VLM)を活用することを提案する。
論文 参考訳(メタデータ) (2025-10-10T13:13:07Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - MultiDelete for Multimodal Machine Unlearning [14.755831733659699]
MultiDeleteは、アンラーニング中の非モーダルデータポイント間の関連を分離するように設計されている。
アンラーニング後のオリジナルのモデルのマルチモーダルとユニモーダルの知識を維持できる。
敵の攻撃に対して、未学習のデータに対するより優れた保護を提供することができる。
論文 参考訳(メタデータ) (2023-11-18T08:30:38Z) - Improving Discriminative Multi-Modal Learning with Large-Scale
Pre-Trained Models [51.5543321122664]
本稿では,大規模な事前学習型ユニモーダルモデルを用いて,識別型マルチモーダル学習を向上する方法について検討する。
MMLoRA(Multi-Modal Low-Rank Adaptation Learning)を導入する。
論文 参考訳(メタデータ) (2023-10-08T15:01:54Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - MinT: Boosting Generalization in Mathematical Reasoning via Multi-View
Fine-Tuning [53.90744622542961]
数学領域における推論は、小言語モデル(LM)にとって重要な課題である。
多様なアノテーションスタイルで既存の数学的問題データセットを利用する新しい手法を提案する。
実験結果から,LLaMA-7Bモデルが先行手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-07-16T05:41:53Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。