論文の概要: The Future of MLLM Prompting is Adaptive: A Comprehensive Experimental Evaluation of Prompt Engineering Methods for Robust Multimodal Performance
- arxiv url: http://arxiv.org/abs/2504.10179v1
- Date: Mon, 14 Apr 2025 12:31:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:54:43.797740
- Title: The Future of MLLM Prompting is Adaptive: A Comprehensive Experimental Evaluation of Prompt Engineering Methods for Robust Multimodal Performance
- Title(参考訳): MLLMのプロンプトの未来は適応的である:ロバストなマルチモーダル性能のためのプロンプト工学手法の総合的実験評価
- Authors: Anwesha Mohanty, Venkatesh Balavadhani Parthasarathy, Arsalan Shahid,
- Abstract要約: MLLM(Multimodal Large Language Models)は、機械がどのように処理し、人間のような応答を生成するかを変換するために設定される。
本研究は,オープンソースMLLM13に対して,24タスクで適用した7つのプロンプトエンジニアリング手法の総合的実験評価である。
- 参考スコア(独自算出の注目度): 0.393259574660092
- License:
- Abstract: Multimodal Large Language Models (MLLMs) are set to transform how machines process and generate human-like responses by integrating diverse modalities such as text, images, and code. Yet, effectively harnessing their capabilities hinges on optimal prompt engineering. We present a comprehensive experimental evaluation of seven prompt engineering methods applied to 13 open-source MLLMs over 24 tasks spanning Reasoning and Compositionality, Multimodal Understanding and Alignment, Complex Code Generation and Execution, and Knowledge Retrieval and Integration. Our approach stratifies models by parameter count into Small (<4B), Medium (4B-10B), and Large (>10B) categories and compares prompting techniques including Zero-Shot, One-Shot, Few-Shot, Chain-of-Thought, Analogical, Generated Knowledge, and Tree-of-Thought. While Large MLLMs excel in structured tasks such as code generation, achieving accuracies up to 96.88% under Few-Shot prompting, all models struggle with complex reasoning and abstract understanding, often yielding accuracies below 60% and high hallucination rates. Structured reasoning prompts frequently increased hallucination up to 75% in small models and led to longer response times (over 20 seconds in Large MLLMs), while simpler prompting methods provided more concise and efficient outputs. No single prompting method uniformly optimises all task types. Instead, adaptive strategies combining example-based guidance with selective structured reasoning are essential to enhance robustness, efficiency, and factual accuracy. Our findings offer practical recommendations for prompt engineering and support more reliable deployment of MLLMs across applications including AI-assisted coding, knowledge retrieval, and multimodal content understanding.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、テキスト、画像、コードなどの多種多様なモダリティを統合することで、機械がどのように処理し、人間のような応答を生成するかを変換する。
しかし、その能力を効果的に活用することは、最適なプロンプトエンジニアリングに依存している。
本稿では、推論と構成性、マルチモーダル理解とアライメント、複雑なコード生成と実行、知識検索と統合にまたがる24のタスクに対して、13のオープンソースMLLMに適用した7つの迅速なエンジニアリング手法の総合的な実験評価を行う。
提案手法は, パラメータカウントを小 (<4B), 中 (4B-10B), 大 (>10B) カテゴリに分類し, ゼロショット, ワンショット, フューショット, チェーン・オブ・ソート, アナロジカル, 生成知識, トリー・オブ・ソートなどのプロンプト技術と比較する。
大規模なMLLMはコード生成のような構造化されたタスクに優れており、Few-Shotのプロンプトにより96.88%の精度を達成するが、全てのモデルは複雑な推論と抽象的な理解に苦しむため、60%未満の精度と高い幻覚率が得られる。
構造的推論は、小さなモデルでは75%までの幻覚を頻繁に増加させ、より簡潔で効率的な出力を提供するのに対して、より長い応答時間(大MLLMでは20秒以上)をもたらした。
単一のプロンプトメソッドがすべてのタスクタイプを均一に最適化することはない。
代わりに、サンプルベースのガイダンスと選択的構造化推論を組み合わせる適応戦略は、堅牢性、効率、事実的正確性を高めるために不可欠である。
我々の発見は、AI支援コーディング、知識検索、マルチモーダルコンテンツ理解などを含むアプリケーション間のMLLMのより信頼性の高いデプロイを支援するために、実践的な推奨を提供する。
関連論文リスト
- A Sequential Optimal Learning Approach to Automated Prompt Engineering in Large Language Models [14.483240353801074]
本稿では,自動プロンプトエンジニアリングのための最適学習フレームワークを提案する。
限られた評価予算を効率的に割り当てつつ、効果的なプロンプト機能を逐次識別するように設計されている。
私たちのフレームワークは、より広い範囲のアプリケーションに自動プロンプトエンジニアリングをデプロイするためのソリューションを提供します。
論文 参考訳(メタデータ) (2025-01-07T03:51:10Z) - Progressive Multimodal Reasoning via Active Retrieval [64.74746997923967]
多段階多モーダル推論タスクは、大規模言語モデル(MLLM)に重大な課題をもたらす
本稿では,MLLMの推論能力の向上を目的とした汎用フレームワークAR-MCTSを提案する。
我々は,AR-MCTSがサンプリングの多様性と精度を最適化し,信頼性の高いマルチモーダル推論を実現することを示す。
論文 参考訳(メタデータ) (2024-12-19T13:25:39Z) - GRL-Prompt: Towards Knowledge Graph based Prompt Optimization via Reinforcement Learning [8.307785339429863]
大規模言語モデル(LLM)の迅速な最適化のための新しいフレームワークを提案する。
GRL-Promptは、強化学習(RL)を通じて、エンドツーエンドで最適なプロンプトを自動構築することを目的としている。
GRL-Promptは最近の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-11-19T10:52:25Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - QPO: Query-dependent Prompt Optimization via Multi-Loop Offline Reinforcement Learning [58.767866109043055]
クエリ依存型プロンプト最適化(QPO)を導入し、入力クエリに合わせて最適なプロンプトを生成するために、小さな事前訓練された言語モデルを反復的に微調整する。
我々は、オープンソースのタスクに様々なプロンプトをベンチマークする副産物として、すでに大量に存在するオフラインのプロンプトデータから洞察を得る。
様々なLLMスケールと多様なNLPおよび数学タスクの実験は、ゼロショットと少数ショットの両方のシナリオにおいて、我々の手法の有効性とコスト効率を実証している。
論文 参考訳(メタデータ) (2024-08-20T03:06:48Z) - Fine-tuning Multimodal Large Language Models for Product Bundling [53.01642741096356]
Bundle-MLLMは,大規模言語モデル(LLM)をハイブリットアイテムトークン化アプローチにより微調整する新しいフレームワークである。
具体的には、テキスト、メディア、およびリレーショナルデータを統一トークン化に統合し、テキストトークンと非テキストトークンを区別するソフトな分離トークンを導入する。
1)バンドルパターンを学習し,2)製品バンドル固有のマルチモーダルセマンティック理解の強化を行う。
論文 参考訳(メタデータ) (2024-07-16T13:30:14Z) - Towards Generalist Prompting for Large Language Models by Mental Models [105.03747314550591]
大規模言語モデル(LLM)は多くのタスクにおいて素晴らしいパフォーマンスを示している。
最適な性能を達成するには、特別に設計されたプロンプト法が必要である。
本稿では,最適あるいは準最適性能を実現する設計原理に基づくジェネラリストプロンプトの概念を紹介する。
論文 参考訳(メタデータ) (2024-02-28T11:29:09Z) - Intent-based Prompt Calibration: Enhancing prompt optimization with
synthetic boundary cases [2.6159111710501506]
本稿では,ユーザ意図に対するプロンプトを反復的に洗練するキャリブレーションプロセスを用いて,自動プロンプトエンジニアリングの新しい手法を提案する。
我々は,モデレーションや生成といった現実的なタスクにおいて,強力なプロプライエタリなモデルに対して,本手法の有効性を示す。
論文 参考訳(メタデータ) (2024-02-05T15:28:43Z) - RLPrompt: Optimizing Discrete Text Prompts With Reinforcement Learning [84.75064077323098]
本稿では、強化学習(RL)を用いた離散的高速最適化手法RLPromptを提案する。
RLPromptは、マスク付きジベリッシュ(例:grammaBERT)や左から右へのモデル(例:GPT)など、様々な種類のLMに柔軟に適用可能である。
少数ショット分類と教師なしテキストスタイル転送の実験は、既存のファインタニングやプロンプト手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-05-25T07:50:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。