論文の概要: World Models That Know When They Don't Know: Controllable Video Generation with Calibrated Uncertainty
- arxiv url: http://arxiv.org/abs/2512.05927v1
- Date: Fri, 05 Dec 2025 18:06:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:57.127494
- Title: World Models That Know When They Don't Know: Controllable Video Generation with Calibrated Uncertainty
- Title(参考訳): 知らないときを知る世界モデル:キャリブレーションされた不確かさによる制御可能なビデオ生成
- Authors: Zhiting Mei, Tenny Yin, Micah Baker, Ola Shorinwa, Anirudha Majumdar,
- Abstract要約: 制御可能なビデオモデルは、しばしば幻覚を与え、将来のビデオフレームを生成します。
本稿では,高信頼度推定のための連続スケールキャリブレーションビデオモデルのトレーニングのための不確実性定量化(UQ)手法であるC3を提案する。
- 参考スコア(独自算出の注目度): 9.69325079034745
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in generative video models have led to significant breakthroughs in high-fidelity video synthesis, specifically in controllable video generation where the generated video is conditioned on text and action inputs, e.g., in instruction-guided video editing and world modeling in robotics. Despite these exceptional capabilities, controllable video models often hallucinate - generating future video frames that are misaligned with physical reality - which raises serious concerns in many tasks such as robot policy evaluation and planning. However, state-of-the-art video models lack the ability to assess and express their confidence, impeding hallucination mitigation. To rigorously address this challenge, we propose C3, an uncertainty quantification (UQ) method for training continuous-scale calibrated controllable video models for dense confidence estimation at the subpatch level, precisely localizing the uncertainty in each generated video frame. Our UQ method introduces three core innovations to empower video models to estimate their uncertainty. First, our method develops a novel framework that trains video models for correctness and calibration via strictly proper scoring rules. Second, we estimate the video model's uncertainty in latent space, avoiding training instability and prohibitive training costs associated with pixel-space approaches. Third, we map the dense latent-space uncertainty to interpretable pixel-level uncertainty in the RGB space for intuitive visualization, providing high-resolution uncertainty heatmaps that identify untrustworthy regions. Through extensive experiments on large-scale robot learning datasets (Bridge and DROID) and real-world evaluations, we demonstrate that our method not only provides calibrated uncertainty estimates within the training distribution, but also enables effective out-of-distribution detection.
- Abstract(参考訳): 生成ビデオモデルの最近の進歩は、高忠実度ビデオ合成において大きなブレークスルーをもたらしており、特にロボット工学における指導誘導ビデオ編集や世界モデリングにおいて、生成したビデオがテキストおよびアクション入力に条件付けされている制御可能なビデオ生成において顕著である。
このような例外的な機能にもかかわらず、制御可能なビデオモデルは、しばしば幻覚(物理的な現実と一致しない将来のビデオフレームを生成する)し、ロボットポリシーの評価や計画といった多くのタスクにおいて深刻な懸念を引き起こす。
しかし、最先端のビデオモデルには、彼らの自信を評価し、表現する能力が欠けており、幻覚の緩和を妨げる。
この課題に厳密に対処するために、我々は、サブパッチレベルで密度信頼度を推定し、生成された各ビデオフレーム内の不確かさを正確に局所化するための、連続スケールのキャリブレーション可能な制御可能なビデオモデルをトレーニングするための不確実性定量化(UQ)手法であるC3を提案する。
当社のUQ手法は,ビデオモデルに不確実性を推定するための3つのコアイノベーションを導入している。
まず,厳密なスコアリングルールを用いて,映像モデルの正しさと校正性を訓練する新しいフレームワークを開発する。
第2に,静止空間における映像モデルの不確かさを推定し,画素空間アプローチに伴うトレーニング不安定性や禁止的トレーニングコストを回避した。
第三に,RGB空間における高密度潜時空間の不確かさを,直感的な可視化のために解釈可能な画素レベルの不確かさにマップし,信頼できない領域を識別する高分解能不確かさヒートマップを提供する。
大規模ロボット学習データセット(Bridge, DROID)と実世界評価の広範な実験を通じて,本手法はトレーニング分布内の不確実性推定を校正するだけでなく,効果的なアウト・オブ・ディストリビューション検出を可能にすることを実証した。
関連論文リスト
- VDOT: Efficient Unified Video Creation via Optimal Transport Distillation [70.02065520468726]
本稿では,VDOT という名前の効率的な統合ビデオ生成モデルを提案する。
我々は,実測値分布と偽測値分布の差分を最適化するために,新しい計算最適輸送(OT)技術を用いる。
統合ビデオ生成モデルの訓練を支援するため,ビデオデータアノテーションとフィルタリングのための完全自動パイプラインを提案する。
論文 参考訳(メタデータ) (2025-12-07T11:31:00Z) - How Confident are Video Models? Empowering Video Models to Express their Uncertainty [11.251320289181338]
生成ビデオモデルは印象的なテキスト・ビデオ機能を示し、多くの現実世界のアプリケーションで広く採用されている。
しかし、大きな言語モデル(LLM)のように、ビデオ生成モデルは幻覚を生じさせがちで、実際に間違っている場合でも、もっともらしいビデオを生成する。
本稿では,ビデオモデルの不確かさの定量化に向けた最初の研究について述べる。
論文 参考訳(メタデータ) (2025-10-02T21:20:41Z) - T2VShield: Model-Agnostic Jailbreak Defense for Text-to-Video Models [88.63040835652902]
テキストからビデオモデルへの攻撃はジェイルブレイク攻撃に弱いため、特別な方法で安全メカニズムをバイパスし、有害または安全でないコンテンツの生成につながる。
我々は、ジェイルブレイクの脅威からテキストからビデオモデルを守るために設計された包括的でモデルに依存しない防衛フレームワークであるT2VShieldを提案する。
本手法は,既存の防御の限界を特定するために,入力,モデル,出力の段階を体系的に解析する。
論文 参考訳(メタデータ) (2025-04-22T01:18:42Z) - Calib3D: Calibrating Model Preferences for Reliable 3D Scene Understanding [55.32861154245772]
Calib3Dは3Dシーン理解モデルの信頼性をベンチマークし精査する先駆的な試みである。
10の異なる3Dデータセットにまたがる28の最先端モデルを総合的に評価する。
本稿では,3次元モデルのキャリブレーション向上を目的とした,深度対応のスケーリング手法であるDeptSを紹介する。
論文 参考訳(メタデータ) (2024-03-25T17:59:59Z) - Answering from Sure to Uncertain: Uncertainty-Aware Curriculum Learning
for Video Question Answering [63.12469700986452]
不確実性を考慮したカリキュラム学習(CL)の概念を導入する。
ここで不確実性は、困難を動的に調整するための指針となる。
実際に、我々は、ビデオQAモデルを我々のフレームワークにシームレスに統合し、包括的な実験を行う。
論文 参考訳(メタデータ) (2024-01-03T02:29:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。