論文の概要: Multimodal Prompt Optimization: Why Not Leverage Multiple Modalities for MLLMs
- arxiv url: http://arxiv.org/abs/2510.09201v1
- Date: Fri, 10 Oct 2025 09:41:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:48.60783
- Title: Multimodal Prompt Optimization: Why Not Leverage Multiple Modalities for MLLMs
- Title(参考訳): マルチモーダル・プロンプト最適化:MLLMのマルチモーダルを活用できない理由
- Authors: Yumin Choi, Dongki Kim, Jinheon Baek, Sung Ju Hwang,
- Abstract要約: そこで本研究では,非テクスチャプロンプトのペアによって定義されるマルチモーダル空間にプロンプトの事前定義を拡張した,マルチモーダルプロンプト最適化の新たな問題を提案する。
MLLMの潜在的な可能性を実現するための重要なステップとして,マルチモーダルプロンプト最適化を確立する。
- 参考スコア(独自算出の注目度): 65.46953412737419
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have shown remarkable success, and their multimodal expansions (MLLMs) further unlock capabilities spanning images, videos, and other modalities beyond text. However, despite this shift, prompt optimization approaches, designed to reduce the burden of manual prompt crafting while maximizing performance, remain confined to text, ultimately limiting the full potential of MLLMs. Motivated by this gap, we introduce the new problem of multimodal prompt optimization, which expands the prior definition of prompt optimization to the multimodal space defined by the pairs of textual and non-textual prompts. To tackle this problem, we then propose the Multimodal Prompt Optimizer (MPO), a unified framework that not only performs the joint optimization of multimodal prompts through alignment-preserving updates but also guides the selection process of candidate prompts by leveraging earlier evaluations as priors in a Bayesian-based selection strategy. Through extensive experiments across diverse modalities that go beyond text, such as images, videos, and even molecules, we demonstrate that MPO outperforms leading text-only optimization methods, establishing multimodal prompt optimization as a crucial step to realizing the potential of MLLMs.
- Abstract(参考訳): 大きな言語モデル(LLM)は目覚ましい成功を収め、そのマルチモーダル拡張(MLLM)は、画像、ビデオ、その他テキスト以外のモダリティにまたがるさらなるアンロック機能を備えている。
しかし、このシフトにもかかわらず、プロンプト最適化アプローチは、パフォーマンスを最大化しながら手動のプロンプト製作の負担を軽減するために設計され、テキストに限られ、最終的にMLLMの潜在能力を制限した。
このギャップに起因して、テキストと非テキストのプロンプトのペアによって定義されるマルチモーダル空間へのプロンプト最適化の事前定義を拡大する、マルチモーダルプロンプト最適化の新たな問題を導入する。
この問題に対処するために,複数モーダルプロンプト最適化手法 (MPO) を提案する。これは,アライメント保存更新によるマルチモーダルプロンプトの協調最適化を行うだけでなく,ベイズ方式の選択戦略において,事前評価を先行として活用することで,候補プロンプトの選択プロセスを導く統合フレームワークである。
画像やビデオ,さらには分子など,テキストを超えるさまざまなモダリティに対する広範な実験を通じて,MPOはテキストのみの最適化手法よりも優れており,MLLMの可能性を実現するための重要なステップとして,マルチモーダルプロンプト最適化が確立されていることを実証する。
関連論文リスト
- UniAPO: Unified Multimodal Automated Prompt Optimization [37.74430773789572]
提案するUniAPO: Unified Multimodal Automated Prompt Optimizationは,マルチモーダルAPOに適した最初のフレームワークである。
UniAPOはテキスト、画像、ビデオベンチマーク間の一貫性のあるゲインを緩和し、効率的かつ転送可能なプロンプト最適化のための統一されたフレームワークを確立する。
論文 参考訳(メタデータ) (2025-08-25T10:56:39Z) - M$^2$PT: Multimodal Prompt Tuning for Zero-shot Instruction Learning [90.75075886543404]
MLLM(Multimodal Large Language Models)は、幅広い領域にわたる顕著なパフォーマンスを示す。
本研究では,MLLMの効率的な命令チューニングのための新しいMultimodal Prompt Tuning (M$2$PT) 手法を提案する。
論文 参考訳(メタデータ) (2024-09-24T01:40:24Z) - QPO: Query-dependent Prompt Optimization via Multi-Loop Offline Reinforcement Learning [58.767866109043055]
クエリ依存型プロンプト最適化(QPO)を導入し、入力クエリに合わせて最適なプロンプトを生成するために、小さな事前訓練された言語モデルを反復的に微調整する。
我々は、オープンソースのタスクに様々なプロンプトをベンチマークする副産物として、すでに大量に存在するオフラインのプロンプトデータから洞察を得る。
様々なLLMスケールと多様なNLPおよび数学タスクの実験は、ゼロショットと少数ショットの両方のシナリオにおいて、我々の手法の有効性とコスト効率を実証している。
論文 参考訳(メタデータ) (2024-08-20T03:06:48Z) - Fine-tuning Multimodal Large Language Models for Product Bundling [53.01642741096356]
Bundle-MLLMは,大規模言語モデル(LLM)をハイブリットアイテムトークン化アプローチにより微調整する新しいフレームワークである。
具体的には、テキスト、メディア、およびリレーショナルデータを統一トークン化に統合し、テキストトークンと非テキストトークンを区別するソフトな分離トークンを導入する。
1)バンドルパターンを学習し,2)製品バンドル固有のマルチモーダルセマンティック理解の強化を行う。
論文 参考訳(メタデータ) (2024-07-16T13:30:14Z) - MAPO: Boosting Large Language Model Performance with Model-Adaptive Prompt Optimization [73.7779735046424]
異なるプロンプトを異なるLarge Language Models (LLM) に適応させることで,NLP の様々な下流タスクにまたがる機能の向上が期待できる。
次に、下流タスクにおける各LLMに対して、元のプロンプトを最適化するモデル適応プロンプト(MAPO)手法を提案する。
論文 参考訳(メタデータ) (2024-07-04T18:39:59Z) - How Multimodal Integration Boost the Performance of LLM for
Optimization: Case Study on Capacitated Vehicle Routing Problems [33.33996058215666]
大規模言語モデル(LLM)は、複雑な最適化課題に対処するための有能なツールとして自らを位置づけている。
テキストと視覚の両方のプロンプトを処理可能なマルチモーダルLLMを用いて最適化性能を向上させることを提案する。
論文 参考訳(メタデータ) (2024-03-04T06:24:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。