論文の概要: FESTA: Functionally Equivalent Sampling for Trust Assessment of Multimodal LLMs
- arxiv url: http://arxiv.org/abs/2509.16648v1
- Date: Sat, 20 Sep 2025 11:50:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:15.904582
- Title: FESTA: Functionally Equivalent Sampling for Trust Assessment of Multimodal LLMs
- Title(参考訳): FESTA:マルチモーダルLCMの信頼度評価のための機能的等価サンプリング
- Authors: Debarpan Bhattacharya, Apoorva Kulkarni, Sriram Ganapathy,
- Abstract要約: マルチモーダル大言語モデル(MLLM)の生成した予測は、選択的な予測を可能にし、ユーザの信頼性を向上させることができる。
MLLMのマルチモーダル入力サンプリング技術であるFESTA(Functional Equivalent Smpling for Trust Assessment)を提案する。
FESTAは等価かつ相補的な入力サンプリングに基づいて不確実性尺度を生成する。
- 参考スコア(独自算出の注目度): 20.08099668437471
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The accurate trust assessment of multimodal large language models (MLLMs) generated predictions, which can enable selective prediction and improve user confidence, is challenging due to the diverse multi-modal input paradigms. We propose Functionally Equivalent Sampling for Trust Assessment (FESTA), a multimodal input sampling technique for MLLMs, that generates an uncertainty measure based on the equivalent and complementary input samplings. The proposed task-preserving sampling approach for uncertainty quantification expands the input space to probe the consistency (through equivalent samples) and sensitivity (through complementary samples) of the model. FESTA uses only input-output access of the model (black-box), and does not require ground truth (unsupervised). The experiments are conducted with various off-the-shelf multi-modal LLMs, on both visual and audio reasoning tasks. The proposed FESTA uncertainty estimate achieves significant improvement (33.3% relative improvement for vision-LLMs and 29.6% relative improvement for audio-LLMs) in selective prediction performance, based on area-under-receiver-operating-characteristic curve (AUROC) metric in detecting mispredictions. The code implementation is open-sourced.
- Abstract(参考訳): マルチモーダルな大言語モデル (MLLM) の精度の高い信頼度評価は, 多様なマルチモーダル入力パラダイムにより, 選択的予測とユーザ信頼性の向上を可能にする。
本稿では,MLLMのマルチモーダル入力サンプリング手法であるFESTA(Functional Equivalent Smpling for Trust Assessment)を提案する。
不確実性定量化のためのタスク保存サンプリング手法は、入力空間を拡張し、モデルの一貫性(等価サンプル)と感度(相補サンプル)を探索する。
FESTAはモデル(ブラックボックス)の入力出力アクセスのみを使用し、基礎的な真理(教師なし)を必要としない。
実験は、視覚的および音声的推論タスクにおいて、様々な市販のマルチモーダルLCMを用いて実施される。
提案したFESTA不確実性推定は、予測誤りを検出するためのエリアアンダー・レシーバー・オペレーティング・特性曲線(AUROC)測定に基づいて、選択的予測性能において大幅な改善(ビジョン・LLMの33.3%、オーディオ・LLMの29.6%)を達成する。
コード実装はオープンソースである。
関連論文リスト
- Conformal Sets in Multiple-Choice Question Answering under Black-Box Settings with Provable Coverage Guarantees [5.09580026885155]
ブラックボックス設定下での周波数に基づく不確実性定量化手法を提案する。
提案手法では,各入力に対するモデル出力分布の独立サンプリングを行う。
周波数に基づくPEは、正しい予測と誤予測の区別においてロジットに基づくPEよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-08-07T16:22:49Z) - Simple Yet Effective: An Information-Theoretic Approach to Multi-LLM Uncertainty Quantification [9.397157329808254]
MUSEは、大規模言語モデルのよく校正されたサブセットを特定し、集約するための単純な情報理論手法である。
二分予測タスクの実験では、単一モデルとナイーブアンサンブルベースラインと比較してキャリブレーションと予測性能が改善された。
論文 参考訳(メタデータ) (2025-07-09T19:13:25Z) - Statistical Hypothesis Testing for Auditing Robustness in Language Models [49.1574468325115]
本稿では,摂動解析を頻繁な仮説テスト問題として再検討するフレームワークである分布に基づく摂動解析を紹介する。
モンテカルロサンプリングを用いて低次元意味的類似性空間内に経験的ヌルおよび代替出力分布を構築する。
反応変化の定量化、正/偽の正率の測定、参照モデルとの整合性の評価について述べる。
論文 参考訳(メタデータ) (2025-06-09T17:11:07Z) - Truth in the Few: High-Value Data Selection for Efficient Multi-Modal Reasoning [71.3533541927459]
アクティベーション推論ポテンシャル(RAP)と呼ばれる新しいデータ選択パラダイムを提案する。
RAPは、真のマルチモーダル推論を刺激する各サンプルのポテンシャルを推定することで、認知サンプルを識別する。
我々のRAP法は、トレーニングデータの9.3%しか使用せず、計算コストを43%以上削減しながら、常に優れた性能を実現している。
論文 参考訳(メタデータ) (2025-06-05T08:40:24Z) - Uncertainty Quantification for LLM-Based Survey Simulations [9.303339416902995]
本研究では,大規模言語モデル(LLM)を用いて質問に対する人間の反応をシミュレートする。
提案手法は,不完全なLLMシミュレーション応答を集団パラメータの信頼セットに変換する。
重要な革新は、シミュレーションされたレスポンスの最適な数を決定することである。
論文 参考訳(メタデータ) (2025-02-25T02:07:29Z) - Pretraining Data Detection for Large Language Models: A Divergence-based Calibration Method [108.56493934296687]
本研究では,乱数から発散する概念に触発された偏差に基づくキャリブレーション手法を導入し,プリトレーニングデータ検出のためのトークン確率のキャリブレーションを行う。
我々は,中国語テキスト上でのLLMの検出手法の性能を評価するために,中国語のベンチマークであるPatentMIAを開発した。
論文 参考訳(メタデータ) (2024-09-23T07:55:35Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling [69.83976050879318]
大規模言語モデル(LLM)では、不確実性の原因を特定することが、信頼性、信頼性、解釈可能性を改善するための重要なステップである。
本稿では,LLMのための不確実性分解フレームワークについて述べる。
提案手法は,入力に対する一連の明確化を生成し,それらをLLMに入力し,対応する予測をアンサンブルする。
論文 参考訳(メタデータ) (2023-11-15T05:58:35Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。