論文の概要: Promptception: How Sensitive Are Large Multimodal Models to Prompts?
- arxiv url: http://arxiv.org/abs/2509.03986v1
- Date: Thu, 04 Sep 2025 08:13:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:10.097103
- Title: Promptception: How Sensitive Are Large Multimodal Models to Prompts?
- Title(参考訳): Promptception: 大規模なマルチモーダルモデルがプロンプトにどれくらい敏感か?
- Authors: Mohamed Insaf Ismithdeen, Muhammad Uzair Khattak, Salman Khan,
- Abstract要約: プロンプトのフレーズや構造が微妙に変化しても、最大15%の精度のずれにつながる可能性がある。
本稿では,LMMの迅速な感度評価のための体系的フレームワークであるPromptceptionを紹介する。
この結果から,プロプライエタリなモデルの方が高速な表現に敏感であり,オープンソースモデルはより安定しているが,ニュアンスや複雑な表現に苦慮していることが明らかとなった。
- 参考スコア(独自算出の注目度): 18.456808203208425
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the success of Large Multimodal Models (LMMs) in recent years, prompt design for LMMs in Multiple-Choice Question Answering (MCQA) remains poorly understood. We show that even minor variations in prompt phrasing and structure can lead to accuracy deviations of up to 15% for certain prompts and models. This variability poses a challenge for transparent and fair LMM evaluation, as models often report their best-case performance using carefully selected prompts. To address this, we introduce Promptception, a systematic framework for evaluating prompt sensitivity in LMMs. It consists of 61 prompt types, spanning 15 categories and 6 supercategories, each targeting specific aspects of prompt formulation, and is used to evaluate 10 LMMs ranging from lightweight open-source models to GPT-4o and Gemini 1.5 Pro, across 3 MCQA benchmarks: MMStar, MMMU-Pro, MVBench. Our findings reveal that proprietary models exhibit greater sensitivity to prompt phrasing, reflecting tighter alignment with instruction semantics, while open-source models are steadier but struggle with nuanced and complex phrasing. Based on this analysis, we propose Prompting Principles tailored to proprietary and open-source LMMs, enabling more robust and fair model evaluation.
- Abstract(参考訳): 近年、LMM(Large Multimodal Models)の成功にもかかわらず、MCQA(Multiple-Choice Question Answering)におけるLMMの迅速な設計はいまだに理解されていない。
命令文や構造が微妙に変化しても,特定のプロンプトやモデルに対して,最大15%の精度偏差が生じる可能性があることを示す。
この変動は、モデルが慎重に選択されたプロンプトを使用してベストケースのパフォーマンスを報告するので、透明で公平なLMM評価の課題となる。
そこで本稿では,LMMの迅速な感度評価のための体系的フレームワークであるPromptceptionを紹介する。
61のプロンプトタイプで構成され、それぞれ15のカテゴリと6のスーパーカテゴリで構成され、それぞれがプロンプト定式化の特定の側面をターゲットにしており、軽量なオープンソースモデルからGPT-4oやGemini 1.5 Proまで、MMStar、MMMU-Pro、MVBenchという3つのMCQAベンチマークで10のLMMを評価するために使用される。
この結果から,プロプライエタリなモデルでは,命令セマンティクスとの密接な整合性を反映し,より高感度で複雑な表現に苦慮していることが明らかとなった。
この分析に基づいて,プロプライエタリかつオープンソースなLMMに適したプロンプト原理を提案し,より堅牢で公平なモデル評価を可能にした。
関連論文リスト
- Large Multimodal Models as General In-Context Classifiers [73.11242790834383]
本稿では,この回答がLMMの重要な能力,すなわちコンテキスト内学習を見落としていることを論じる。
我々は、クローズドワールド分類のための多様なデータセットに関する最先端のLMMをベンチマークし、そのゼロショット性能はCLIPよりも低いが、いくつかのインコンテキスト例を持つLMMは、キャッシュベースのアダプタと対照的なVLMをマッチまたは超える可能性があることを発見した。
この分析をオープンワールド設定に拡張し,LMMの生成特性をタスクに適したものにする。
論文 参考訳(メタデータ) (2026-02-26T17:08:18Z) - Uncertainty-Aware Answer Selection for Improved Reasoning in Multi-LLM Systems [55.6590601898194]
大規模言語モデル(LLM)は例外的な機能を示しているが、複数のLLMから最も信頼性の高い応答を選択することは依然として困難である。
既存のアプローチは、しばしばコストのかかる外部検証器、人間の評価器、または単一のモデルから複数のサンプルを必要とする自己整合技術に依存している。
校正されたログ類似度スコアを用いて,複数のLLMから最適な応答を選択するための,原理的,斬新で,計算的に効率的な手法を提案する。
論文 参考訳(メタデータ) (2025-09-30T01:25:19Z) - CAMEL-Bench: A Comprehensive Arabic LMM Benchmark [10.20074702234283]
我々は,4億人以上の話者を対象とするアラビア語の総合的LMM評価ベンチマークを開発した。
提案するベンチマークは,マルチイメージ理解,複雑な視覚知覚,手書き文書理解,ビデオ理解,医用画像,植物病,リモートセンシングによる土地利用理解を含む8つのサブドメインと38のサブドメインから構成される。
論文 参考訳(メタデータ) (2024-10-24T17:59:38Z) - MMR: Evaluating Reading Ability of Large Multimodal Models [52.953316772123586]
大規模マルチモーダルモデル (LMM) は、テキストリッチな画像を含む様々な種類の画像を理解する能力を示す。
現在のベンチマークでは、異なるモデルのパフォーマンスを正確に反映することができない。
テキストリッチ画像理解のためのLMMを評価するために,11種類のタスクでMulti-Modal Reading (MMR)ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-08-26T19:26:50Z) - How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts [54.07541591018305]
提案するMAD-Benchは,既存のオブジェクト,オブジェクト数,空間関係などの5つのカテゴリに分割した1000の試験サンプルを含むベンチマークである。
我々は,GPT-4v,Reka,Gemini-Proから,LLaVA-NeXTやMiniCPM-Llama3といったオープンソースモデルに至るまで,一般的なMLLMを包括的に分析する。
GPT-4oはMAD-Bench上で82.82%の精度を達成するが、実験中の他のモデルの精度は9%から50%である。
論文 参考訳(メタデータ) (2024-02-20T18:31:27Z) - VRPTEST: Evaluating Visual Referring Prompting in Large Multimodal
Models [19.32035955420203]
我々は,様々な視覚的参照促進戦略を用いて,LMM(Large Multimodal Models)の最初の包括的解析を行う。
人間の介入や手動ラベリングを必要とせずにLMMの精度を評価するための自動評価フレームワークを開発した。
現在のプロプライエタリモデルは一般的にオープンソースモデルよりも優れており、平均精度は22.70%向上している。
論文 参考訳(メタデータ) (2023-12-07T06:53:55Z) - Omni-SMoLA: Boosting Generalist Multimodal Models with Soft Mixture of Low-rank Experts [74.40198929049959]
大規模マルチモーダルモデル (LMM) は多くのタスクにまたがって優れた性能を示す。
ジェネラリストのLMMは、タスクの集合をチューニングする際に、しばしばパフォーマンスの劣化に悩まされる。
我々は,Omni-SMoLAを提案する。Omni-SMoLAはSoft MoEアプローチを用いて,多くのマルチモーダルな低ランクの専門家を混在させるアーキテクチャである。
論文 参考訳(メタデータ) (2023-12-01T23:04:27Z) - MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities [153.37868034779385]
複雑なマルチモーダルタスクにおける大規模マルチモーダルモデル(LMM)を評価する評価ベンチマークであるMM-Vetを提案する。
近年のLMMは、黒板に書かれた数学の問題を解くこと、ニュース画像の出来事や有名人を推論すること、視覚的ジョークを説明することなど、様々な興味深い能力を示している。
論文 参考訳(メタデータ) (2023-08-04T17:59:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。