論文の概要: Unified Multimodal Uncertain Inference
- arxiv url: http://arxiv.org/abs/2604.08701v1
- Date: Thu, 09 Apr 2026 18:46:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.538137
- Title: Unified Multimodal Uncertain Inference
- Title(参考訳): 統一マルチモーダル不確かさ推論
- Authors: Dengjia Zhang, Alexander Martin, William Jurayj, Kenton Murray, Benjamin Van Durme, Reno Kriz,
- Abstract要約: Unified Multimodal Uncertain Inference (UMUI)は、テキスト、オーディオ、ビデオにまたがるタスクである。
自己整合型教師校正と分布に基づく校正型自信探索を併用して予測を行うCLUE(Calibrated Latent Uncertainty Estimation)を提案する。
- 参考スコア(独自算出の注目度): 81.64340342055327
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Unified Multimodal Uncertain Inference (UMUI), a multimodal inference task spanning text, audio, and video, where models must produce calibrated probability estimates of hypotheses conditioned on a premise in any modality or combination. While uncertain inference has been explored in text, extension to other modalities has been limited to single-modality binary entailment judgments, leaving no framework for fine-grained probabilistic reasoning in or across other modalities. To address this, we curate a human-annotated evaluation set with scalar probability judgments across audio, visual, and audiovisual settings, and additionally evaluate on existing text and audio benchmarks. We introduce CLUE (Calibrated Latent Uncertainty Estimation), which combines self-consistent teacher calibration and distribution-based confidence probing to produce calibrated predictions. We demonstrate that our 3B-parameter model achieves equivalent or stronger performance than baselines up to 32B parameters across all modalities.
- Abstract(参考訳): 我々は,テキスト,音声,ビデオにまたがるマルチモーダル推論タスクであるUnified Multimodal Uncertain Inference (UMUI)を導入する。
文中では不確実な推論が検討されているが、他のモダリティへの拡張は単一のモダリティのバイナリ・エンテーメントの判断に限られており、他のモダリティ内あるいは他のモダリティ間のきめ細かい確率的推論のための枠組みは残っていない。
そこで本研究では,音声,視覚,聴覚設定のスカラー確率を判定し,既存のテキストと音声のベンチマークで評価する。
自己整合型教師キャリブレーションと分布型自信探索を組み合わせて校正予測を行うCLUE(Calibrated Latent Uncertainty Estimation)を提案する。
我々の3Bパラメータモデルは、全てのモードで32Bパラメータまでのベースラインよりも同等または強い性能を達成できることを実証する。
関連論文リスト
- On Calibration of Large Language Models: From Response To Capability [66.59139960234326]
大規模言語モデル(LLM)は汎用的な問題解決手段として広くデプロイされている。
本稿では,クエリ上でモデルが期待する精度を目標とするキャリブレーションを提案する。
我々の結果は、キャパシティ校正された信頼度がpass@$k$予測と推論予算割り当てを改善することを示している。
論文 参考訳(メタデータ) (2026-02-14T01:07:45Z) - Heterogeneous Uncertainty-Guided Composed Image Retrieval with Fine-Grained Probabilistic Learning [49.28548464288051]
Composed Image Retrieval (CIR)は、参照画像と修正テキストを組み合わせることで、画像検索を可能にする。
CIR三重項の内在ノイズは内在的不確実性を引き起こし、モデルの堅牢性を脅かす。
本稿では,これらの制約を克服するための不確実性誘導(HUG)パラダイムを提案する。
論文 参考訳(メタデータ) (2026-01-16T16:05:49Z) - Confidence in Large Language Model Evaluation: A Bayesian Approach to Limited-Sample Challenges [13.526258635654882]
本研究では,大規模言語モデル(LLM)能力評価のためのベイズ的アプローチを提案する。
モデル機能を潜時変数として扱い、キュレートされたクエリセットを利用して識別応答を誘導する。
GPTシリーズモデルを用いた実験により,提案手法は従来の評価手法よりも優れた識別性が得られることが示された。
論文 参考訳(メタデータ) (2025-04-30T04:24:50Z) - Confidence Estimation via Sequential Likelihood Mixing [46.69347918899963]
逐次近似混合に基づく信頼セット構築のための普遍的枠組みを提案する。
オンライン推定による逐次混合,ベイズ推定,後悔の不平等の基本的な関係を確立する。
古典的な設定に対して、より厳密な信頼シーケンスを導出することで、フレームワークのパワーを説明する。
論文 参考訳(メタデータ) (2025-02-20T16:16:34Z) - Prediction-Powered E-Values [0.66567375919026]
予測型推論のアイデアをe-valueに適用する。
e-values でフレーム化できるすべての推論手順には予測機能があることを示す。
私たちのアプローチはモジュール化されており、既存のアルゴリズムに簡単に統合できます。
論文 参考訳(メタデータ) (2025-02-06T18:36:01Z) - Trusted Multi-View Classification with Dynamic Evidential Fusion [73.35990456162745]
信頼型マルチビュー分類(TMC)と呼ばれる新しいマルチビュー分類アルゴリズムを提案する。
TMCは、様々な視点をエビデンスレベルで動的に統合することで、マルチビュー学習のための新しいパラダイムを提供する。
理論的および実験的結果は、精度、堅牢性、信頼性において提案されたモデルの有効性を検証した。
論文 参考訳(メタデータ) (2022-04-25T03:48:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。