Fugu-MT 論文翻訳(概要): Sample then Identify: A General Framework for Risk Control and Assessment in Multimodal Large Language Models

論文の概要: Sample then Identify: A General Framework for Risk Control and Assessment in Multimodal Large Language Models

arxiv url: http://arxiv.org/abs/2410.08174v2
Date: Sat, 14 Dec 2024 10:34:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-17 15:49:59.023905
Title: Sample then Identify: A General Framework for Risk Control and Assessment in Multimodal Large Language Models
Title（参考訳）: Sample then Identify: マルチモーダル大規模言語モデルにおけるリスク管理とアセスメントのための一般的なフレームワーク
Authors: Qingni Wang, Tiantian Geng, Zhiyuan Wang, Teng Wang, Bo Fu, Feng Zheng,
Abstract要約: リスク管理とアセスメントのための2段階のフレームワークであるTRONを紹介する。 TRONは、2つのユーザ特定リスクレベルに制限された所望のエラー率を達成する。重複予測セットは適応性を維持しつつ、異なるリスクレベルのリスク評価に対してより効率的で安定である。
参考スコア（独自算出の注目度）: 46.56041622514975
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multimodal Large Language Models (MLLMs) exhibit promising advancements across various tasks, yet they still encounter significant trustworthiness issues. Prior studies apply Split Conformal Prediction (SCP) in language modeling to construct prediction sets with statistical guarantees. However, these methods typically rely on internal model logits or are restricted to multiple-choice settings, which hampers their generalizability and adaptability in dynamic, open-ended environments. In this paper, we introduce TRON, a two-step framework for risk control and assessment, applicable to any MLLM that supports sampling in both open-ended and closed-ended scenarios. TRON comprises two main components: (1) a novel conformal score to sample response sets of minimum size, and (2) a nonconformity score to identify high-quality responses based on self-consistency theory, controlling the error rates by two specific risk levels. Furthermore, we investigate semantic redundancy in prediction sets within open-ended contexts for the first time, leading to a promising evaluation metric for MLLMs based on average set size. Our comprehensive experiments across four Video Question-Answering (VideoQA) datasets utilizing eight MLLMs show that TRON achieves desired error rates bounded by two user-specified risk levels. Additionally, deduplicated prediction sets maintain adaptiveness while being more efficient and stable for risk assessment under different risk levels.
Abstract（参考訳）: MLLM(Multimodal Large Language Models)は様々なタスクにおいて有望な進歩を見せている。先行研究は、統計的保証付き予測セットを構築するために、言語モデルにSCP(Split Conformal Prediction)を適用した。しかしながら、これらの手法は一般的に内部モデルロジットに依存するか、複数選択の設定に制限されるため、動的でオープンな環境において、一般化性と適応性が損なわれる。本稿では,リスク管理とアセスメントのための2段階のフレームワークであるTRONを紹介し,オープンエンドシナリオとクローズドエンドシナリオの両方でサンプリングをサポートするMLLMに適用する。 TRON は,(1) 最小値のサンプル応答集合に対する新しい共形スコア,(2) 自己整合性理論に基づく高品質応答の同定のための非整合スコア,および2つの特定のリスクレベルによる誤差率の制御である。さらに,オープンエンドコンテキストにおける予測セットのセマンティック冗長性を初めて検討し,平均セットサイズに基づくMLLMの有望な評価基準を導出した。 8つのMLLMを用いたビデオ質問応答(Video QA)データセットの総合的な実験により、TRONは2つのユーザ特定リスクレベルに制限された所望のエラー率を達成することが示された。さらに、重複した予測セットは適応性を維持しつつ、異なるリスクレベル下でのリスク評価に対してより効率的で安定である。

関連論文リスト

Conformal Prediction Beyond the Seen: A Missing Mass Perspective for Uncertainty Quantification in Generative Models [20.810300785340072]
Conformal Prediction with Query Oracle (CPQ)は、これらの目的間の最適な相互作用を特徴付けるフレームワークである。本アルゴリズムは2つの基本原理に基づいて構築されている。一方は最適なクエリポリシーを規定し、他方はクエリされたサンプルから予測セットへの最適マッピングを定義する。
論文参考訳（メタデータ） (2025-06-05T18:26:14Z)
Random-Set Large Language Models [4.308457163593758]
大規模言語モデル(LLM)は、クエリに対する非常に高品質なテストとレスポンスを生成することで知られています。しかし、この生成されたテキストはいくら信用できますか? 本稿では,トークン空間上の有限ランダム集合(関数)を予測するランダムセット大言語モデル(RSLLM)を提案する。
論文参考訳（メタデータ） (2025-04-25T05:25:27Z)
Data-Driven Calibration of Prediction Sets in Large Vision-Language Models Based on Inductive Conformal Prediction [0.0]
動的しきい値キャリブレーションとクロスモーダル整合性検証を統合したモデル非依存不確実性定量化法を提案する。このフレームワークは、様々なキャリブレーションとテストの分割比で安定したパフォーマンスを実現し、医療、自律システム、その他の安全に敏感な領域における現実的な展開の堅牢性を強調している。この研究は、マルチモーダルAIシステムにおける理論的信頼性と実用性の間のギャップを埋め、幻覚検出と不確実性を考慮した意思決定のためのスケーラブルなソリューションを提供する。
論文参考訳（メタデータ） (2025-04-24T15:39:46Z)
SConU: Selective Conformal Uncertainty in Large Language Models [59.25881667640868]
SconU(Selective Conformal Uncertainity)と呼ばれる新しいアプローチを提案する。我々は,特定の管理可能なリスクレベルで設定されたキャリブレーションの不確実性分布から,与えられたサンプルが逸脱するかどうかを決定するのに役立つ2つの共形p値を開発する。我々のアプローチは、単一ドメインと学際的コンテキストの両方にわたる誤発見率の厳密な管理を促進するだけでなく、予測の効率を高める。
論文参考訳（メタデータ） (2025-04-19T03:01:45Z)
Statistical Guarantees of Correctness Coverage for Medical Multiple-Choice Question Answering [0.0]
大規模言語モデル(LLM)は、現実の質問応答(QA)アプリケーションにますます多くデプロイされている。 LLMは幻覚や非現実的な情報を生み出すことが証明されており、高い医療業務における信頼性を損なう。本研究では,CP フレームワークを医療用マルチ選択質問応答 (MCQA) タスクに適用した。
論文参考訳（メタデータ） (2025-03-07T15:22:10Z)
SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models [75.67623347512368]
MLLMの安全性評価を行うための総合的なフレームワークであるツールンを提案する。我々のフレームワークは、包括的な有害なクエリデータセットと自動評価プロトコルで構成されています。本研究では,広く利用されている15のオープンソースMLLMと6つの商用MLLMの大規模実験を行った。
論文参考訳（メタデータ） (2024-10-24T17:14:40Z)
Defining and Evaluating Decision and Composite Risk in Language Models Applied to Natural Language Inference [3.422309388045878]
ChatGPTのような大規模言語モデル(LLM)は、重大なリスクをもたらすことが知られている。モデルが推論に持っている過信または過信から、誤った信頼が生じる。本稿では,2段階の推論アーキテクチャと,そのようなリスクを測定するための適切な指標からなる実験フレームワークを提案する。
論文参考訳（メタデータ） (2024-08-04T05:24:32Z)
Quantifying Prediction Consistency Under Model Multiplicity in Tabular LLMs [10.494477811252034]
微調整された大きな言語モデルは、同じ入力で矛盾する予測を行うような、テクティファインチューニングの多重性につながる可能性がある。これにより、Tabular LLMの堅牢性と信頼性に関する重要な懸念が持ち上がる。本研究は,コストのかかるモデル再訓練を伴わずに個々の予測の堅牢性を定量化する新しい指標を提案する。
論文参考訳（メタデータ） (2024-07-04T22:22:09Z)
Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文参考訳（メタデータ） (2024-06-05T16:35:30Z)
Two-stage Conformal Risk Control with Application to Ranked Retrieval [1.8481458455172357]
2段階のランク付け検索は、機械学習システムにとって重要な課題である。両段階の閾値を共同で同定し,各段階のリスクを制御するための統合的アプローチを提案する。提案アルゴリズムは,全ての可能なしきい値に対して,重み付けされた予測セットサイズの組み合わせをさらに最適化することにより,より効率的な予測セットを実現する。
論文参考訳（メタデータ） (2024-04-27T03:37:12Z)
Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。我々はLSMに答えを自己評価するように指示する。自己評価に基づくスコアリング手法をベンチマークする。
論文参考訳（メタデータ） (2023-12-14T19:09:22Z)
Conformal Language Modeling [61.94417935386489]
生成言語モデル(LM)の共形予測のための新しい手法を提案する。標準共形予測は厳密で統計的に保証された予測セットを生成する。我々は,オープンドメイン質問応答,テキスト要約,ラジオロジーレポート生成において,複数のタスクに対するアプローチの約束を実証する。
論文参考訳（メタデータ） (2023-06-16T21:55:08Z)
Collaborative Uncertainty Benefits Multi-Agent Multi-Modal Trajectory Forecasting [39.73793468422024]
この研究はまず、相互作用モジュールから生じる不確実性をモデル化する新しい概念であるコラボレーティブ不確実性(CU)を提案する。我々は、回帰と不確実性推定の両方を行うために、元の置換同変不確かさ推定器を備えた一般的なCU対応回帰フレームワークを構築した。提案するフレームワークを,プラグインモジュールとして現在のSOTAマルチエージェント軌道予測システムに適用する。
論文参考訳（メタデータ） (2022-07-11T21:17:41Z)
Mitigating multiple descents: A model-agnostic framework for risk monotonization [84.6382406922369]
クロスバリデーションに基づくリスクモノトナイズのための一般的なフレームワークを開発する。本稿では,データ駆動方式であるゼロステップとワンステップの2つの手法を提案する。
論文参考訳（メタデータ） (2022-05-25T17:41:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。