Fugu-MT 論文翻訳(概要): Representations Before Pixels: Semantics-Guided Hierarchical Video Prediction

論文の概要: Representations Before Pixels: Semantics-Guided Hierarchical Video Prediction

arxiv url: http://arxiv.org/abs/2604.11707v1
Date: Mon, 13 Apr 2026 16:42:46 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-14 20:13:16.691729
Title: Representations Before Pixels: Semantics-Guided Hierarchical Video Prediction
Title（参考訳）: ピクセル以前の表現:セマンティックガイドによる階層的ビデオ予測
Authors: Efstathios Karypidis, Spyros Gidaris, Nikos Komodakis,
Abstract要約: 本稿では,階層型ビデオ予測フレームワークRe2Pixを紹介する。予測は意味表現予測と表現誘導視覚合成の2つの段階に分けられる。重要な課題は、トレーニング中に利用できる地道表現と推論で使用される予測表現との間の列車テストのミスマッチから生じる。
参考スコア（独自算出の注目度）: 12.661995278049764
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Accurate future video prediction requires both high visual fidelity and consistent scene semantics, particularly in complex dynamic environments such as autonomous driving. We present Re2Pix, a hierarchical video prediction framework that decomposes forecasting into two stages: semantic representation prediction and representation-guided visual synthesis. Instead of directly predicting future RGB frames, our approach first forecasts future scene structure in the feature space of a frozen vision foundation model, and then conditions a latent diffusion model on these predicted representations to render photorealistic frames. This decomposition enables the model to focus first on scene dynamics and then on appearance generation. A key challenge arises from the train-test mismatch between ground-truth representations available during training and predicted ones used at inference. To address this, we introduce two conditioning strategies, nested dropout and mixed supervision, that improve robustness to imperfect autoregressive predictions. Experiments on challenging driving benchmarks demonstrate that the proposed semantics-first design significantly improves temporal semantic consistency, perceptual quality, and training efficiency compared to strong diffusion baselines. We provide the implementation code at https://github.com/Sta8is/Re2Pix
Abstract（参考訳）: 正確な将来のビデオ予測には、特に自律運転のような複雑な動的環境において、高い視覚的忠実度と一貫したシーンセマンティクスの両方が必要である。本稿では、予測を意味表現予測と表現誘導視覚合成の2段階に分解する階層型ビデオ予測フレームワークRe2Pixを提案する。今後のRGBフレームを直接予測するのではなく,凍結した視覚基盤モデルの特徴空間における将来のシーン構造を予測し,これらの予測された表現に潜時拡散モデルを適用し,フォトリアリスティックなフレームを描画する。この分解により、モデルはまずシーンダイナミクスにフォーカスし、次に外観生成にフォーカスすることができる。重要な課題は、トレーニング中に利用できる地道表現と推論で使用される予測表現との間の列車テストのミスマッチから生じる。これを解決するために,ネストドドロップアウトと混合監視という2つの条件付け手法を導入し,不完全な自己回帰予測に対する堅牢性を改善する。試行錯誤試験により,提案したセマンティクスファーストの設計は,強い拡散ベースラインに比べて時間的意味的一貫性,知覚的品質,トレーニング効率を著しく向上することが示された。実装コードはhttps://github.com/Sta8is/Re2Pixで提供します。

関連論文リスト

ForecastOcc: Vision-based Semantic Occupancy Forecasting [16.699381591572163]
ForecastOccは視覚に基づくセマンティック占有予測のための最初のフレームワークであり、将来の占有状況とセマンティックカテゴリーを予測する。本フレームワークは,過去のカメラ画像から直接,外部推定地図に頼らずに,複数の地平線に対するセマンティック占有率の予測を行う。
論文参考訳（メタデータ） (2026-02-08T15:16:06Z)
Learning from Next-Frame Prediction: Autoregressive Video Modeling Encodes Effective Representations [53.91818843831925]
NExT-Vidは,新しい自己回帰型視覚生成事前学習フレームワークである。本研究では,文脈分離型自己回帰予測器を導入し,セマンティック表現をターゲットデコーディングから切り離す。文脈分離型フローマッチング事前学習により,本手法は強い表現を実現する。
論文参考訳（メタデータ） (2025-12-24T07:07:08Z)
GaussianPrediction: Dynamic 3D Gaussian Prediction for Motion Extrapolation and Free View Synthesis [71.24791230358065]
動的シーンモデリングと将来のシナリオ合成により,3次元ガウス表現を実現する新しいフレームワークを提案する。 GaussianPredictionは、ダイナミックなシーンのビデオ観察を使用して、あらゆる視点から将来の状態を予測できる。本フレームワークは,合成データセットと実世界のデータセットの両方で優れた性能を示し,将来の環境の予測とレンダリングの有効性を示す。
論文参考訳（メタデータ） (2024-05-30T06:47:55Z)
State-space Decomposition Model for Video Prediction Considering Long-term Motion Trend [3.910356300831074]
本稿では,全体の映像フレーム生成を決定論的外観予測と動き予測に分解する状態空間分解ビデオ予測モデルを提案する。条件付きフレームから長期動作傾向を推定し,条件付きフレームとの高整合性を示す将来のフレームの生成を導く。
論文参考訳（メタデータ） (2024-04-17T17:19:48Z)
Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文参考訳（メタデータ） (2024-04-17T16:56:31Z)
LOPR: Latent Occupancy PRediction using Generative Models [28.49346874213506]
LiDARの生成した占有グリッドマップ(L-OGM)は、頑丈な鳥の視線シーンを表現している。本稿では,学習空間内での表現学習と予測という,占有率予測を分離する枠組みを提案する。
論文参考訳（メタデータ） (2022-10-03T22:04:00Z)
Fourier-based Video Prediction through Relational Object Motion [28.502280038100167]
ビデオ予測のタスクには, 深い再帰的アーキテクチャが適用されている。本稿では、周波数領域のアプローチをビデオ予測に用い、異なるアプローチを提案する。結果の予測は、シーンの観察されたダイナミクスと一致しており、ぼやけに苦しむことはない。
論文参考訳（メタデータ） (2021-10-12T10:43:05Z)
Learning Semantic-Aware Dynamics for Video Prediction [68.04359321855702]
非閉塞を明示的にモデル化して,映像フレームを予測するためのアーキテクチャとトレーニング方式を提案する。シーンの外観は、コ・ヴィジュアブル領域の予測された動きを用いて過去のフレームから歪められる。
論文参考訳（メタデータ） (2021-04-20T05:00:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。