論文の概要: Calibrating Uncertainty Quantification of Multi-Modal LLMs using Grounding
- arxiv url: http://arxiv.org/abs/2505.03788v1
- Date: Wed, 30 Apr 2025 19:19:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-08 19:07:35.80686
- Title: Calibrating Uncertainty Quantification of Multi-Modal LLMs using Grounding
- Title(参考訳): 接地による多モードLDMの不確かさのキャリブレーション
- Authors: Trilok Padhi, Ramneet Kaur, Adam D. Cobb, Manoj Acharya, Anirban Roy, Colin Samplawski, Brian Matejek, Alexander M. Berenbeim, Nathaniel D. Bastian, Susmit Jha,
- Abstract要約: マルチモーダル大言語モデル(LLM)に適した不確実性定量化(UQ)の校正手法を提案する。
マルチモーダルモデルのキャリブレーションを改善するために,自己整合性に加えてクロスモーダル整合性を活用する。
医療質問応答(Slake)や視覚質問応答(VQAv2)といった複数のマルチモーダルタスクに対して,LLaVA-MedやLLaVAといったマルチモーダルモデルを考慮したアプローチを提案する。
- 参考スコア(独自算出の注目度): 48.92310906093414
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a novel approach for calibrating uncertainty quantification (UQ) tailored for multi-modal large language models (LLMs). Existing state-of-the-art UQ methods rely on consistency among multiple responses generated by the LLM on an input query under diverse settings. However, these approaches often report higher confidence in scenarios where the LLM is consistently incorrect. This leads to a poorly calibrated confidence with respect to accuracy. To address this, we leverage cross-modal consistency in addition to self-consistency to improve the calibration of the multi-modal models. Specifically, we ground the textual responses to the visual inputs. The confidence from the grounding model is used to calibrate the overall confidence. Given that using a grounding model adds its own uncertainty in the pipeline, we apply temperature scaling - a widely accepted parametric calibration technique - to calibrate the grounding model's confidence in the accuracy of generated responses. We evaluate the proposed approach across multiple multi-modal tasks, such as medical question answering (Slake) and visual question answering (VQAv2), considering multi-modal models such as LLaVA-Med and LLaVA. The experiments demonstrate that the proposed framework achieves significantly improved calibration on both tasks.
- Abstract(参考訳): 本稿では,マルチモーダル大言語モデル(LLM)に適した不確実量化(UQ)の校正手法を提案する。
既存の最先端のUQ手法は、様々な設定で入力クエリ上でLLMが生成した複数の応答間の一貫性に依存している。
しかしながら、これらのアプローチは LLM が常に正しくないシナリオに対して高い信頼性を報告していることが多い。
これにより正確性に対する信頼性が低下する。
これを解決するために,自己整合性に加えて相互整合性を活用し,マルチモーダルモデルのキャリブレーションを改善する。
具体的には,視覚入力に対するテキスト応答について検討する。
グラウンドモデルからの信頼度は、全体の信頼度を調整するために使用される。
グラウンディングモデルがパイプラインに独自の不確実性をもたらすことを考慮し、温度スケーリング(広く受け入れられているパラメトリックキャリブレーション手法)を適用して、グラウンディングモデルが生成した応答の正確性に対する信頼性を校正する。
医療質問応答(Slake)や視覚質問応答(VQAv2)といった複数のマルチモーダルタスクに対して,LLaVA-MedやLLaVAといったマルチモーダルモデルを考慮したアプローチを提案する。
実験により,提案手法は両タスクの校正精度を大幅に向上することを示した。
関連論文リスト
- Unveiling Uncertainty: A Deep Dive into Calibration and Performance of Multimodal Large Language Models [36.81503322875839]
MLLM(Multimodal large language model)は、画像キャプションや視覚的質問応答といったタスクの視覚的データとテキスト的データを組み合わせたモデルである。
本稿では,MLLMの代表例について,様々なシナリオにおけるキャリブレーションに着目して検討する。
その結果, キャリブレーションの相違は認められなかったが, キャリブレーションの相違は認められなかった。
論文 参考訳(メタデータ) (2024-12-19T09:10:07Z) - DiverseAgentEntropy: Quantifying Black-Box LLM Uncertainty through Diverse Perspectives and Multi-Agent Interaction [53.803276766404494]
モデルの不確実性を評価する既存の手法は、元のクエリに対する自己整合性を評価することで、必ずしも真の不確実性を把握するわけではない。
マルチエージェントインタラクションを用いたモデルの不確実性評価のための新しい手法であるDiverseAgentEntropyを提案する。
提案手法は,モデルの信頼性をより正確に予測し,さらに幻覚を検知し,他の自己整合性に基づく手法よりも優れる。
論文 参考訳(メタデータ) (2024-12-12T18:52:40Z) - Calibrating Large Language Models with Sample Consistency [76.23956851098598]
本稿では,複数サンプルモデル生成系の分布から信頼度を導出する可能性について,一貫性の3つの尺度を用いて検討する。
その結果、一貫性に基づくキャリブレーション手法は、既存のポストホック手法よりも優れていることがわかった。
種々のLMの特性に合わせて,キャリブレーションに適した整合性指標を選択するための実用的なガイダンスを提供する。
論文 参考訳(メタデータ) (2024-02-21T16:15:20Z) - Calibrating Long-form Generations from Large Language Models [34.72041258464477]
大きな言語モデル(LLM)の信頼性スコアは、その応答が正しいという実際の可能性と一致すべきである。
現在の信頼性評価手法とキャリブレーション基準は、応答の正しさを2値の真/偽評価に頼っている。
本稿では,LLMの応答の正しさと関連する信頼度の両方を,様々なスコアの分布として扱う統一校正フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-09T17:00:32Z) - Calibrating Multimodal Learning [94.65232214643436]
本稿では,従来の手法の予測信頼性を校正するために,新たな正規化手法であるCML(Callibrating Multimodal Learning)正則化を提案する。
この技術は、既存のモデルによって柔軟に装備され、信頼性校正、分類精度、モデルロバスト性の観点から性能を向上させることができる。
論文 参考訳(メタデータ) (2023-06-02T04:29:57Z) - A Close Look into the Calibration of Pre-trained Language Models [56.998539510508515]
事前訓練された言語モデル(PLM)は、予測の不確かさを確実に見積もることに失敗する可能性がある。
トレーニングにおけるPLMの校正性能の動的変化について検討する。
最近提案された2つの学習可能な手法を拡張して、モデルを直接収集し、合理的な信頼度を推定する。
論文 参考訳(メタデータ) (2022-10-31T21:31:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。