論文の概要: ViPro-2: Unsupervised State Estimation via Integrated Dynamics for Guiding Video Prediction
- arxiv url: http://arxiv.org/abs/2508.06335v1
- Date: Fri, 08 Aug 2025 14:10:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:06.249316
- Title: ViPro-2: Unsupervised State Estimation via Integrated Dynamics for Guiding Video Prediction
- Title(参考訳): ViPro-2:映像予測のための統合ダイナミクスによる教師なし状態推定
- Authors: Patrick Takenaka, Johannes Maucher, Marco F. Huber,
- Abstract要約: ViProは、最初から完全な真理状態を提供することなく、観測結果から状態を推測できることを示す。
実際のシナリオとのギャップを埋めるために、オリジナルのOrbitsデータセットを3D変種で拡張します。
- 参考スコア(独自算出の注目度): 5.931665251123055
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Predicting future video frames is a challenging task with many downstream applications. Previous work has shown that procedural knowledge enables deep models for complex dynamical settings, however their model ViPro assumed a given ground truth initial symbolic state. We show that this approach led to the model learning a shortcut that does not actually connect the observed environment with the predicted symbolic state, resulting in the inability to estimate states given an observation if previous states are noisy. In this work, we add several improvements to ViPro that enables the model to correctly infer states from observations without providing a full ground truth state in the beginning. We show that this is possible in an unsupervised manner, and extend the original Orbits dataset with a 3D variant to close the gap to real world scenarios.
- Abstract(参考訳): 将来のビデオフレームの予測は多くのダウンストリームアプリケーションで難しい作業である。
これまでの研究により、手続き的知識は複雑な動的設定のための深いモデルを可能にすることが示されているが、そのモデルViProは与えられた基礎的な真実を初期記号状態と仮定した。
提案手法は,観測された環境と予測されたシンボル状態とを実際に接続しないショートカットを学習し,先行状態がノイズである場合,観測された状態を推定できないことを示す。
そこで本研究では,ViProにいくつかの改良を加えて,まずは完全な真理状態を提供することなく,観測結果から状態を正しく推測する。
これは教師なしの方法で実現可能であることを示し、実際のシナリオとのギャップを埋めるために、元のOrbitsデータセットを3D変種で拡張する。
関連論文リスト
- Perpetua: Multi-Hypothesis Persistence Modeling for Semi-Static Environments [14.727014155729826]
本稿では,半静的特徴の力学をモデル化するPerpetuaを紹介する。
我々は「パーシステンス」と「エマージェンス」のフィルターの混合物をチェーンし、特徴が消失または再出現する確率をモデル化する。
Perpetuaは、類似のアプローチよりも正確でありながら、オンライン適応性があり、観察の欠如に対して堅牢であることに気付きました。
論文 参考訳(メタデータ) (2025-07-24T21:11:23Z) - COME: Adding Scene-Centric Forecasting Control to Occupancy World Model [18.815436110557112]
世界モデルは、環境力学をシミュレートし、合成データを生成する自律運転にとって重要である。
既存の方法では、エゴ車の動きを乱すのに苦労している(シーンの進化から振り返る)
本研究では,シーン中心の座標系を利用して環境変化をエゴ運動から分離することを提案する。
論文 参考訳(メタデータ) (2025-06-16T09:01:09Z) - GaussianWorld: Gaussian World Model for Streaming 3D Occupancy Prediction [67.81475355852997]
3次元占有予測は、周囲の包括的認識のため、自動運転にとって重要である。
本研究では、シーンの進化を知覚に利用するための世界モデルに基づくフレームワークを提案する。
我々のフレームワークは、追加の計算を導入することなく、mIoUの単一フレームの性能を2%以上向上させる。
論文 参考訳(メタデータ) (2024-12-13T18:59:54Z) - OPUS: Occupancy Prediction Using a Sparse Set [64.60854562502523]
学習可能なクエリの集合を用いて、占有された場所とクラスを同時に予測するフレームワークを提案する。
OPUSには、モデルパフォーマンスを高めるための非自明な戦略が組み込まれている。
最も軽量なモデルではOcc3D-nuScenesデータセットの2倍 FPS に優れたRayIoUが得られる一方、最も重いモデルは6.1 RayIoUを上回ります。
論文 参考訳(メタデータ) (2024-09-14T07:44:22Z) - Vectorized Representation Dreamer (VRD): Dreaming-Assisted Multi-Agent Motion-Forecasting [2.2020053359163305]
マルチエージェント動作予測問題に対するベクトル化された世界モデルに基づくアプローチであるVRDを紹介する。
本手法では,従来のオープンループトレーニングシステムと,新しい夢のクローズループトレーニングパイプラインを組み合わせる。
本モデルでは,1つの予測ミスレート測定値に対して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-06-20T15:34:17Z) - GaussianPrediction: Dynamic 3D Gaussian Prediction for Motion Extrapolation and Free View Synthesis [71.24791230358065]
動的シーンモデリングと将来のシナリオ合成により,3次元ガウス表現を実現する新しいフレームワークを提案する。
GaussianPredictionは、ダイナミックなシーンのビデオ観察を使用して、あらゆる視点から将来の状態を予測できる。
本フレームワークは,合成データセットと実世界のデータセットの両方で優れた性能を示し,将来の環境の予測とレンダリングの有効性を示す。
論文 参考訳(メタデータ) (2024-05-30T06:47:55Z) - Simple Video Generation using Neural ODEs [9.303957136142293]
我々は、潜在空間の将来を予測する潜在変数モデルを学び、ピクセルに投影する。
1桁と2桁の移動MNISTデータセットにおける将来のフレーム予測のタスクにおいて,提案手法が有望な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2021-09-07T19:03:33Z) - FitVid: Overfitting in Pixel-Level Video Prediction [117.59339756506142]
われわれはFitVidという新しいアーキテクチャを導入し、一般的なベンチマークに厳しいオーバーフィッティングを行えるようにした。
FitVidは、4つの異なるメトリクスで4つの異なるビデオ予測ベンチマークで現在の最先端モデルを上回っている。
論文 参考訳(メタデータ) (2021-06-24T17:20:21Z) - VAE^2: Preventing Posterior Collapse of Variational Video Predictions in
the Wild [131.58069944312248]
本稿では,VAE-in-VAEまたはVAE$2の新規なVAE構造を提案する。
我々は、観察されたビデオシーケンスの一部を、その過去と未来を橋渡しするランダムな遷移状態として扱い、あらゆる可能な遷移状態の下で、ビデオシーケンス上のマルコフ連鎖の可能性を最大化する。
VAE$2$は、未来と観測の間の直接的な依存を断ち切るため、後方崩壊問題を広範囲に緩和することができ、トレーニングデータによって提供される決定的な未来を直接遅らせることはない。
論文 参考訳(メタデータ) (2021-01-28T15:06:08Z) - Future Urban Scenes Generation Through Vehicles Synthesis [90.1731992199415]
本研究では,都市景観の視覚的外観を予測するためのディープラーニングパイプラインを提案する。
ループには解釈可能な情報が含まれ、各アクターは独立してモデル化される。
従来のCityFlowのシーン生成手法に比べて,このアプローチが優れていることを示す。
論文 参考訳(メタデータ) (2020-07-01T08:40:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。