論文の概要: Sample then Identify: A General Framework for Risk Control and Assessment in Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2410.08174v2
- Date: Sat, 14 Dec 2024 10:34:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:53:15.394485
- Title: Sample then Identify: A General Framework for Risk Control and Assessment in Multimodal Large Language Models
- Title(参考訳): Sample then Identify: マルチモーダル大規模言語モデルにおけるリスク管理とアセスメントのための一般的なフレームワーク
- Authors: Qingni Wang, Tiantian Geng, Zhiyuan Wang, Teng Wang, Bo Fu, Feng Zheng,
- Abstract要約: リスク管理とアセスメントのための2段階のフレームワークであるTRONを紹介する。
TRONは、2つのユーザ特定リスクレベルに制限された所望のエラー率を達成する。
重複予測セットは適応性を維持しつつ、異なるリスクレベルのリスク評価に対してより効率的で安定である。
- 参考スコア(独自算出の注目度): 46.56041622514975
- License:
- Abstract: Multimodal Large Language Models (MLLMs) exhibit promising advancements across various tasks, yet they still encounter significant trustworthiness issues. Prior studies apply Split Conformal Prediction (SCP) in language modeling to construct prediction sets with statistical guarantees. However, these methods typically rely on internal model logits or are restricted to multiple-choice settings, which hampers their generalizability and adaptability in dynamic, open-ended environments. In this paper, we introduce TRON, a two-step framework for risk control and assessment, applicable to any MLLM that supports sampling in both open-ended and closed-ended scenarios. TRON comprises two main components: (1) a novel conformal score to sample response sets of minimum size, and (2) a nonconformity score to identify high-quality responses based on self-consistency theory, controlling the error rates by two specific risk levels. Furthermore, we investigate semantic redundancy in prediction sets within open-ended contexts for the first time, leading to a promising evaluation metric for MLLMs based on average set size. Our comprehensive experiments across four Video Question-Answering (VideoQA) datasets utilizing eight MLLMs show that TRON achieves desired error rates bounded by two user-specified risk levels. Additionally, deduplicated prediction sets maintain adaptiveness while being more efficient and stable for risk assessment under different risk levels.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は様々なタスクにおいて有望な進歩を見せている。
先行研究は、統計的保証付き予測セットを構築するために、言語モデルにSCP(Split Conformal Prediction)を適用した。
しかしながら、これらの手法は一般的に内部モデルロジットに依存するか、複数選択の設定に制限されるため、動的でオープンな環境において、一般化性と適応性が損なわれる。
本稿では,リスク管理とアセスメントのための2段階のフレームワークであるTRONを紹介し,オープンエンドシナリオとクローズドエンドシナリオの両方でサンプリングをサポートするMLLMに適用する。
TRON は,(1) 最小値のサンプル応答集合に対する新しい共形スコア,(2) 自己整合性理論に基づく高品質応答の同定のための非整合スコア,および2つの特定のリスクレベルによる誤差率の制御である。
さらに,オープンエンドコンテキストにおける予測セットのセマンティック冗長性を初めて検討し,平均セットサイズに基づくMLLMの有望な評価基準を導出した。
8つのMLLMを用いたビデオ質問応答(Video QA)データセットの総合的な実験により、TRONは2つのユーザ特定リスクレベルに制限された所望のエラー率を達成することが示された。
さらに、重複した予測セットは適応性を維持しつつ、異なるリスクレベル下でのリスク評価に対してより効率的で安定である。
関連論文リスト
- SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models [75.67623347512368]
MLLMの安全性評価を行うための総合的なフレームワークであるツールンを提案する。
我々のフレームワークは、包括的な有害なクエリデータセットと自動評価プロトコルで構成されています。
本研究では,広く利用されている15のオープンソースMLLMと6つの商用MLLMの大規模実験を行った。
論文 参考訳(メタデータ) (2024-10-24T17:14:40Z) - Defining and Evaluating Decision and Composite Risk in Language Models Applied to Natural Language Inference [3.422309388045878]
ChatGPTのような大規模言語モデル(LLM)は、重大なリスクをもたらすことが知られている。
モデルが推論に持っている過信または過信から、誤った信頼が生じる。
本稿では,2段階の推論アーキテクチャと,そのようなリスクを測定するための適切な指標からなる実験フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-04T05:24:32Z) - Quantifying Prediction Consistency Under Model Multiplicity in Tabular LLMs [10.494477811252034]
微調整された大きな言語モデルは、同じ入力で矛盾する予測を行うような、テクティファインチューニングの多重性につながる可能性がある。
これにより、Tabular LLMの堅牢性と信頼性に関する重要な懸念が持ち上がる。
本研究は,コストのかかるモデル再訓練を伴わずに個々の予測の堅牢性を定量化する新しい指標を提案する。
論文 参考訳(メタデータ) (2024-07-04T22:22:09Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Two-stage Conformal Risk Control with Application to Ranked Retrieval [1.8481458455172357]
2段階のランク付け検索は、機械学習システムにとって重要な課題である。
両段階の閾値を共同で同定し,各段階のリスクを制御するための統合的アプローチを提案する。
提案アルゴリズムは,全ての可能なしきい値に対して,重み付けされた予測セットサイズの組み合わせをさらに最適化することにより,より効率的な予測セットを実現する。
論文 参考訳(メタデータ) (2024-04-27T03:37:12Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - Conformal Language Modeling [61.94417935386489]
生成言語モデル(LM)の共形予測のための新しい手法を提案する。
標準共形予測は厳密で統計的に保証された予測セットを生成する。
我々は,オープンドメイン質問応答,テキスト要約,ラジオロジーレポート生成において,複数のタスクに対するアプローチの約束を実証する。
論文 参考訳(メタデータ) (2023-06-16T21:55:08Z) - Collaborative Uncertainty Benefits Multi-Agent Multi-Modal Trajectory
Forecasting [39.73793468422024]
この研究はまず、相互作用モジュールから生じる不確実性をモデル化する新しい概念であるコラボレーティブ不確実性(CU)を提案する。
我々は、回帰と不確実性推定の両方を行うために、元の置換同変不確かさ推定器を備えた一般的なCU対応回帰フレームワークを構築した。
提案するフレームワークを,プラグインモジュールとして現在のSOTAマルチエージェント軌道予測システムに適用する。
論文 参考訳(メタデータ) (2022-07-11T21:17:41Z) - Mitigating multiple descents: A model-agnostic framework for risk
monotonization [84.6382406922369]
クロスバリデーションに基づくリスクモノトナイズのための一般的なフレームワークを開発する。
本稿では,データ駆動方式であるゼロステップとワンステップの2つの手法を提案する。
論文 参考訳(メタデータ) (2022-05-25T17:41:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。