論文の概要: MM-R$^3$: On (In-)Consistency of Multi-modal Large Language Models (MLLMs)
- arxiv url: http://arxiv.org/abs/2410.04778v1
- Date: Mon, 7 Oct 2024 06:36:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 01:58:01.078563
- Title: MM-R$^3$: On (In-)Consistency of Multi-modal Large Language Models (MLLMs)
- Title(参考訳): MM-R$^3$:マルチモーダル大言語モデル(MLLM)の一貫性について
- Authors: Shih-Han Chou, Shivam Chandhok, James J. Little, Leonid Sigal,
- Abstract要約: 本研究では,MLLMモデルが意味論的に類似したクエリに対して,意味論的に類似あるいは同一の応答を生成する能力について検討する。
本稿では,SoTA MLLMの一貫性と精度の観点から,MM-R$3$ベンチマークを提案する。
我々の分析では、一貫性が必ずしも精度と一致していないことを示し、高い精度のモデルが必ずしも一致しているとは限らないことを示し、その逆も示している。
- 参考スコア(独自算出の注目度): 26.475993408532304
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the advent of Large Language Models (LLMs) and Multimodal (Visio-lingual) LLMs, a flurry of research has emerged, analyzing the performance of such models across a diverse array of tasks. While most studies focus on evaluating the capabilities of state-of-the-art (SoTA) MLLM models through task accuracy (e.g., Visual Question Answering, grounding) across various datasets, our work explores the related but complementary aspect of consistency - the ability of an MLLM model to produce semantically similar or identical responses to semantically similar queries. We note that consistency is a fundamental prerequisite (necessary but not sufficient condition) for robustness and trust in MLLMs. Humans, in particular, are known to be highly consistent (even if not always accurate) in their responses, and consistency is inherently expected from AI systems. Armed with this perspective, we propose the MM-R$^3$ benchmark, which analyses the performance in terms of consistency and accuracy in SoTA MLLMs with three tasks: Question Rephrasing, Image Restyling, and Context Reasoning. Our analysis reveals that consistency does not always align with accuracy, indicating that models with higher accuracy are not necessarily more consistent, and vice versa. Furthermore, we propose a simple yet effective mitigation strategy in the form of an adapter module trained to minimize inconsistency across prompts. With our proposed strategy, we are able to achieve absolute improvements of 5.7% and 12.5%, on average on widely used MLLMs such as BLIP-2 and LLaVa 1.5M in terms of consistency over their existing counterparts.
- Abstract(参考訳): LLM(Large Language Models)とマルチモーダル(Visio-lingual) LLM(Multimodal(Multimodal)(Multimodal) LLM)の出現により、さまざまなタスクでそのようなモデルの性能を解析する研究が盛んになった。
多くの研究は、タスク精度(例えば、視覚的質問回答、グラウンドリング)を通じて、最先端(SoTA)MLLMモデルの能力を評価することに重点を置いているが、我々の研究は、一貫性の関連性と相補的な側面、つまり、意味論的に類似したクエリに対して、MLLMモデルが意味論的に類似または同一の応答を生成する能力について検討している。
整合性はMLLMの堅牢性と信頼性の基本的な前提条件である(必要だが十分でない)ことに留意する。
特に人間は、応答において高度に一貫性(必ずしも正確ではないとしても)があることが知られており、一貫性は本質的にAIシステムから期待されている。
この観点から, MM-R$^3$ベンチマークを提案する。このベンチマークは, SoTA MLLMの一貫性と精度を, 問合せ, 画像復元, コンテキスト推論の3つのタスクで解析する。
我々の分析では、一貫性が必ずしも精度と一致していないことを示し、高い精度のモデルが必ずしも一致しているとは限らないことを示し、その逆も示している。
さらに,命令間の不整合を最小限に抑えるために訓練されたアダプタモジュールの形式で,シンプルながら効果的な緩和戦略を提案する。
提案手法により,BLIP-2 や LLaVa 1.5M などの広く使用されているMLLMにおいて,既存のMLLMに比べて平均5.7% と 12.5% の絶対的な改善が達成できる。
関連論文リスト
- DFPE: A Diverse Fingerprint Ensemble for Enhancing LLM Performance [11.753349115726952]
そこで我々は,新しいアンサンブル法であるDiverse Fingerprint Ensemble (DFPE)を提案する。
提案手法は,(1)応答型"フィンガープリント"パターンに基づくクラスタリングモデル,(2)量子化に基づくフィルタリング機構の適用,(3)残余モデルに適応重みを割り当てることである。
MMLU(Massive Multitask Language Understanding)ベンチマークの実験では、DFPEは、全体的な精度が3%、規律レベルの精度が5%向上し、最高のシングルモデルを上回った。
論文 参考訳(メタデータ) (2025-01-29T08:44:45Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - MM-SpuBench: Towards Better Understanding of Spurious Biases in Multimodal LLMs [38.93090238335506]
非意味な入力属性と予測対象変数の急激な相関を利用する傾向にあるスパースバイアスは、単一のモダリティデータに基づいて訓練されたディープラーニングモデルに深刻な落とし穴があることを明らかにした。
本稿では,9つの異なる相関関係のカテゴリに対するMLLMの信頼度を評価するために,包括的視覚質問応答(VQA)ベンチマークであるMM-SpuBenchを紹介する。
以上の結果から,これらのモデルからの素因相関への依存の持続性を明らかにし,素因バイアスを緩和する新たな手法の必要性を浮き彫りにした。
論文 参考訳(メタデータ) (2024-06-24T20:29:16Z) - MetaGPT: Merging Large Language Models Using Model Exclusive Task Arithmetic [6.46176287368784]
textbfGPTスケールモデルをマージするための textbfModel textbfExclusive textbfTask textbfArithmetic を提案する。
提案するMetaGPTは,データに依存しず,検索処理を回避し,低コストで実装が容易なメタGPTである。
論文 参考訳(メタデータ) (2024-06-17T10:12:45Z) - MMRel: A Relation Understanding Benchmark in the MLLM Era [72.95901753186227]
MMRel(Multi-Modal Relation Understanding)は、オブジェクト間の関係に関する大規模で高品質で多様なデータを特徴付けるベンチマークである。
MMRelは、関係理解に基づくMLLMの評価や、関係理解能力を高めるための微調整MLLMに最適である。
論文 参考訳(メタデータ) (2024-06-13T13:51:59Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - MAML-en-LLM: Model Agnostic Meta-Training of LLMs for Improved In-Context Learning [43.512739869120125]
大規模言語モデル(LLM)のメタトレーニング手法であるMAML-en-LLMを提案する。
MAML-en-LLMは、解離したタスクでうまく機能するだけでなく、目に見えないタスクに適応する真の一般化可能なパラメータを学習することができる。
我々は、MAML-en-LLMが、目に見えないドメインと見えないドメインのトレーニングデータが少ない設定において、ベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-05-19T04:49:42Z) - PPTC-R benchmark: Towards Evaluating the Robustness of Large Language
Models for PowerPoint Task Completion [96.47420221442397]
文,意味,多言語レベルでユーザ命令を攻撃することにより,逆ユーザ命令を構築する。
我々は、ロバストネス設定を組み込んだベンチマークを用いて、3つのクローズドソースと4つのオープンソースLCMをテストする。
GPT-4は我々のベンチマークで最も高い性能と強靭性を示す。
論文 参考訳(メタデータ) (2024-03-06T15:33:32Z) - MM-BigBench: Evaluating Multimodal Models on Multimodal Content
Comprehension Tasks [56.60050181186531]
MM-BigBenchを導入し、様々なモデルや命令のパフォーマンスを広範囲に評価する。
本稿では,6タスクにまたがる14のマルチモーダルデータセット上で,20の言語モデル (14 MLLM) を評価し,各タスクに10の指示を与え,新しい洞察を導き出す。
論文 参考訳(メタデータ) (2023-10-13T11:57:04Z) - Semantic Consistency for Assuring Reliability of Large Language Models [9.876355290198639]
大規模言語モデル(LLM)は、様々な自然言語タスクに対して顕著な流布と能力を示す。
セマンティック一貫性の一般的な尺度を導入し、様々なLLMの性能を評価するために、この指標の複数バージョンを定式化する。
本稿では,Ask-to-Choose (A2C) と呼ばれる新しいプロンプト戦略を提案する。
論文 参考訳(メタデータ) (2023-08-17T18:11:33Z) - Two Failures of Self-Consistency in the Multi-Step Reasoning of LLMs [78.31625291513589]
自己整合性は、解が複数のサブステップに対する解からなるタスクにおいて、有効な多段階推論の重要な基準であると主張する。
仮説的整合性と構成的整合性という,多段階推論において特に重要である2種類の自己整合性を提案する。
GPT-3/4モデルの複数変種は,多種多様なタスクにおける両タイプの整合性に不整合性を示すことを示した。
論文 参考訳(メタデータ) (2023-05-23T17:25:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。