論文の概要: How Confident are Video Models? Empowering Video Models to Express their Uncertainty
- arxiv url: http://arxiv.org/abs/2510.02571v1
- Date: Thu, 02 Oct 2025 21:20:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.183997
- Title: How Confident are Video Models? Empowering Video Models to Express their Uncertainty
- Title(参考訳): ビデオモデルとは何か? ビデオモデルに不確かさを表現させる
- Authors: Zhiting Mei, Ola Shorinwa, Anirudha Majumdar,
- Abstract要約: 生成ビデオモデルは印象的なテキスト・ビデオ機能を示し、多くの現実世界のアプリケーションで広く採用されている。
しかし、大きな言語モデル(LLM)のように、ビデオ生成モデルは幻覚を生じさせがちで、実際に間違っている場合でも、もっともらしいビデオを生成する。
本稿では,ビデオモデルの不確かさの定量化に向けた最初の研究について述べる。
- 参考スコア(独自算出の注目度): 11.251320289181338
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative video models demonstrate impressive text-to-video capabilities, spurring widespread adoption in many real-world applications. However, like large language models (LLMs), video generation models tend to hallucinate, producing plausible videos even when they are factually wrong. Although uncertainty quantification (UQ) of LLMs has been extensively studied in prior work, no UQ method for video models exists, raising critical safety concerns. To our knowledge, this paper represents the first work towards quantifying the uncertainty of video models. We present a framework for uncertainty quantification of generative video models, consisting of: (i) a metric for evaluating the calibration of video models based on robust rank correlation estimation with no stringent modeling assumptions; (ii) a black-box UQ method for video models (termed S-QUBED), which leverages latent modeling to rigorously decompose predictive uncertainty into its aleatoric and epistemic components; and (iii) a UQ dataset to facilitate benchmarking calibration in video models. By conditioning the generation task in the latent space, we disentangle uncertainty arising due to vague task specifications from that arising from lack of knowledge. Through extensive experiments on benchmark video datasets, we demonstrate that S-QUBED computes calibrated total uncertainty estimates that are negatively correlated with the task accuracy and effectively computes the aleatoric and epistemic constituents.
- Abstract(参考訳): 生成ビデオモデルは印象的なテキスト・ビデオ機能を示し、多くの現実世界のアプリケーションで広く採用されている。
しかし、大きな言語モデル(LLM)のように、ビデオ生成モデルは幻覚を生じさせがちで、実際に間違っている場合でも、もっともらしいビデオを生成する。
LLMの不確実性定量化(UQ)は、これまで広く研究されてきたが、ビデオモデルに対するUQ法は存在せず、重大な安全性を懸念している。
本稿では,ビデオモデルの不確かさの定量化に向けた最初の研究について述べる。
生成ビデオモデルの不確実性定量化のための枠組みについて述べる。
一 厳密なモデリング仮定のないロバストなランク相関推定に基づく映像モデルの校正評価指標
(II)映像モデル(S-QUBED)のブラックボックスUQ手法(S-QUBED)
3)ビデオモデルのキャリブレーションのベンチマークを容易にするためのUQデータセット。
潜在空間における生成タスクを条件付けすることにより、曖昧なタスク仕様に起因する不確実性と知識不足に起因する不確実性を解消する。
本研究では,S-QUBEDがタスクの精度と負の相関関係を持つ全不確実性推定値の校正を計算し,アレタリック成分とてんかん成分を効果的に計算することを示した。
関連論文リスト
- VANE-Bench: Video Anomaly Evaluation Benchmark for Conversational LMMs [64.60035916955837]
VANE-Benchはビデオの異常や矛盾を検出するためのビデオLMMの熟練度を評価するために設計されたベンチマークである。
我々のデータセットは、既存の最先端のテキスト・ビデオ生成モデルを用いて合成された一連のビデオから構成される。
我々は、このベンチマークタスクにおいて、オープンソースとクローズドソースの両方で既存の9つのビデオLMMを評価し、ほとんどのモデルが微妙な異常を効果的に識別するのに困難に直面することを発見した。
論文 参考訳(メタデータ) (2024-06-14T17:59:01Z) - Answering from Sure to Uncertain: Uncertainty-Aware Curriculum Learning
for Video Question Answering [63.12469700986452]
不確実性を考慮したカリキュラム学習(CL)の概念を導入する。
ここで不確実性は、困難を動的に調整するための指針となる。
実際に、我々は、ビデオQAモデルを我々のフレームワークにシームレスに統合し、包括的な実験を行う。
論文 参考訳(メタデータ) (2024-01-03T02:29:34Z) - Uncertainty-aware Language Modeling for Selective Question Answering [107.47864420630923]
本稿では,不確実性を考慮したLLMを生成するLLM変換手法を提案する。
我々のアプローチはモデルとデータに依存しず、計算効率が高く、外部モデルやシステムに依存しない。
論文 参考訳(メタデータ) (2023-11-26T22:47:54Z) - A Lightweight Video Anomaly Detection Model with Weak Supervision and Adaptive Instance Selection [14.089888316857426]
本稿では,弱教師付きビデオ異常検出に焦点をあてる。
我々は,軽量なビデオ異常検出モデルを開発した。
我々のモデルは、最先端の手法と比較して、AUCのスコアに匹敵するか、さらに優れていることを示す。
論文 参考訳(メタデータ) (2023-10-09T01:23:08Z) - CONVIQT: Contrastive Video Quality Estimator [63.749184706461826]
知覚ビデオ品質評価(VQA)は、多くのストリーミングおよびビデオ共有プラットフォームにおいて不可欠な要素である。
本稿では,視覚的に関連のある映像品質表現を自己指導的に学習する問題について考察する。
本研究は, 自己教師型学習を用いて, 知覚力による説得力のある表現が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T15:22:01Z) - MDN-VO: Estimating Visual Odometry with Confidence [34.8860186009308]
視覚オドメトリー(VO)は、ロボット工学や自律システムを含む多くのアプリケーションで使われている。
本研究では、6-DoFのポーズを推定する深層学習に基づくVOモデルと、これらの推定に対する信頼度モデルを提案する。
本実験は,本モデルが故障事例の検出に加えて,最先端の性能を上回ることを示す。
論文 参考訳(メタデータ) (2021-12-23T19:26:04Z) - A Hierarchical Variational Neural Uncertainty Model for Stochastic Video
Prediction [45.6432265855424]
本稿では,モデルの予測不確かさの原理的定量化であるニューラル不確実性量化器(NUQ)を紹介する。
提案するフレームワークは,最先端モデルと比較して効果的に訓練する。
論文 参考訳(メタデータ) (2021-10-06T00:25:22Z) - FitVid: Overfitting in Pixel-Level Video Prediction [117.59339756506142]
われわれはFitVidという新しいアーキテクチャを導入し、一般的なベンチマークに厳しいオーバーフィッティングを行えるようにした。
FitVidは、4つの異なるメトリクスで4つの異なるビデオ予測ベンチマークで現在の最先端モデルを上回っている。
論文 参考訳(メタデータ) (2021-06-24T17:20:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。