論文の概要: Promptception: How Sensitive Are Large Multimodal Models to Prompts?
- arxiv url: http://arxiv.org/abs/2509.03986v1
- Date: Thu, 04 Sep 2025 08:13:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:10.097103
- Title: Promptception: How Sensitive Are Large Multimodal Models to Prompts?
- Title(参考訳): Promptception: 大規模なマルチモーダルモデルがプロンプトにどれくらい敏感か?
- Authors: Mohamed Insaf Ismithdeen, Muhammad Uzair Khattak, Salman Khan,
- Abstract要約: プロンプトのフレーズや構造が微妙に変化しても、最大15%の精度のずれにつながる可能性がある。
本稿では,LMMの迅速な感度評価のための体系的フレームワークであるPromptceptionを紹介する。
この結果から,プロプライエタリなモデルの方が高速な表現に敏感であり,オープンソースモデルはより安定しているが,ニュアンスや複雑な表現に苦慮していることが明らかとなった。
- 参考スコア(独自算出の注目度): 18.456808203208425
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the success of Large Multimodal Models (LMMs) in recent years, prompt design for LMMs in Multiple-Choice Question Answering (MCQA) remains poorly understood. We show that even minor variations in prompt phrasing and structure can lead to accuracy deviations of up to 15% for certain prompts and models. This variability poses a challenge for transparent and fair LMM evaluation, as models often report their best-case performance using carefully selected prompts. To address this, we introduce Promptception, a systematic framework for evaluating prompt sensitivity in LMMs. It consists of 61 prompt types, spanning 15 categories and 6 supercategories, each targeting specific aspects of prompt formulation, and is used to evaluate 10 LMMs ranging from lightweight open-source models to GPT-4o and Gemini 1.5 Pro, across 3 MCQA benchmarks: MMStar, MMMU-Pro, MVBench. Our findings reveal that proprietary models exhibit greater sensitivity to prompt phrasing, reflecting tighter alignment with instruction semantics, while open-source models are steadier but struggle with nuanced and complex phrasing. Based on this analysis, we propose Prompting Principles tailored to proprietary and open-source LMMs, enabling more robust and fair model evaluation.
- Abstract(参考訳): 近年、LMM(Large Multimodal Models)の成功にもかかわらず、MCQA(Multiple-Choice Question Answering)におけるLMMの迅速な設計はいまだに理解されていない。
命令文や構造が微妙に変化しても,特定のプロンプトやモデルに対して,最大15%の精度偏差が生じる可能性があることを示す。
この変動は、モデルが慎重に選択されたプロンプトを使用してベストケースのパフォーマンスを報告するので、透明で公平なLMM評価の課題となる。
そこで本稿では,LMMの迅速な感度評価のための体系的フレームワークであるPromptceptionを紹介する。
61のプロンプトタイプで構成され、それぞれ15のカテゴリと6のスーパーカテゴリで構成され、それぞれがプロンプト定式化の特定の側面をターゲットにしており、軽量なオープンソースモデルからGPT-4oやGemini 1.5 Proまで、MMStar、MMMU-Pro、MVBenchという3つのMCQAベンチマークで10のLMMを評価するために使用される。
この結果から,プロプライエタリなモデルでは,命令セマンティクスとの密接な整合性を反映し,より高感度で複雑な表現に苦慮していることが明らかとなった。
この分析に基づいて,プロプライエタリかつオープンソースなLMMに適したプロンプト原理を提案し,より堅牢で公平なモデル評価を可能にした。
関連論文リスト
- MMR: Evaluating Reading Ability of Large Multimodal Models [52.953316772123586]
大規模マルチモーダルモデル (LMM) は、テキストリッチな画像を含む様々な種類の画像を理解する能力を示す。
現在のベンチマークでは、異なるモデルのパフォーマンスを正確に反映することができない。
テキストリッチ画像理解のためのLMMを評価するために,11種類のタスクでMulti-Modal Reading (MMR)ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-08-26T19:26:50Z) - How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts [54.07541591018305]
提案するMAD-Benchは,既存のオブジェクト,オブジェクト数,空間関係などの5つのカテゴリに分割した1000の試験サンプルを含むベンチマークである。
我々は,GPT-4v,Reka,Gemini-Proから,LLaVA-NeXTやMiniCPM-Llama3といったオープンソースモデルに至るまで,一般的なMLLMを包括的に分析する。
GPT-4oはMAD-Bench上で82.82%の精度を達成するが、実験中の他のモデルの精度は9%から50%である。
論文 参考訳(メタデータ) (2024-02-20T18:31:27Z) - VRPTEST: Evaluating Visual Referring Prompting in Large Multimodal
Models [19.32035955420203]
我々は,様々な視覚的参照促進戦略を用いて,LMM(Large Multimodal Models)の最初の包括的解析を行う。
人間の介入や手動ラベリングを必要とせずにLMMの精度を評価するための自動評価フレームワークを開発した。
現在のプロプライエタリモデルは一般的にオープンソースモデルよりも優れており、平均精度は22.70%向上している。
論文 参考訳(メタデータ) (2023-12-07T06:53:55Z) - MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities [153.37868034779385]
複雑なマルチモーダルタスクにおける大規模マルチモーダルモデル(LMM)を評価する評価ベンチマークであるMM-Vetを提案する。
近年のLMMは、黒板に書かれた数学の問題を解くこと、ニュース画像の出来事や有名人を推論すること、視覚的ジョークを説明することなど、様々な興味深い能力を示している。
論文 参考訳(メタデータ) (2023-08-04T17:59:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。