論文の概要: DDLP: Unsupervised Object-Centric Video Prediction with Deep Dynamic
Latent Particles
- arxiv url: http://arxiv.org/abs/2306.05957v2
- Date: Thu, 8 Feb 2024 14:54:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 19:34:37.932838
- Title: DDLP: Unsupervised Object-Centric Video Prediction with Deep Dynamic
Latent Particles
- Title(参考訳): DDLP:深部動的潜伏粒子を用いた教師なし物体中心映像予測
- Authors: Tal Daniel, Aviv Tamar
- Abstract要約: 本稿では,深部潜伏粒子表現に基づくオブジェクト中心のビデオ予測アルゴリズムを提案する。
提案手法は,いくつかの課題のあるデータセットに対して,最先端のオブジェクト中心のビデオ予測結果を生成する。
- 参考スコア(独自算出の注目度): 29.349342719178306
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a new object-centric video prediction algorithm based on the deep
latent particle (DLP) representation. In comparison to existing slot- or
patch-based representations, DLPs model the scene using a set of keypoints with
learned parameters for properties such as position and size, and are both
efficient and interpretable. Our method, deep dynamic latent particles (DDLP),
yields state-of-the-art object-centric video prediction results on several
challenging datasets. The interpretable nature of DDLP allows us to perform
``what-if'' generation -- predict the consequence of changing properties of
objects in the initial frames, and DLP's compact structure enables efficient
diffusion-based unconditional video generation. Videos, code and pre-trained
models are available: https://taldatech.github.io/ddlp-web
- Abstract(参考訳): 本稿では,DLP(Deep Latent Particle)表現に基づくオブジェクト中心のビデオ予測アルゴリズムを提案する。
既存のスロットやパッチベースの表現と比較して、DLPは、位置やサイズなどの特性の学習パラメータを持つキーポイントのセットを使用してシーンをモデル化する。
提案手法であるdeep dynamic latent particles (ddlp) は,いくつかの難解なデータセットに対して最先端のオブジェクト中心ビデオ予測結果を生成する。
DDLPの解釈可能な性質により,初期フレームにおけるオブジェクトの特性変化の結果を予測する「What-if'」生成が可能となり,DLPのコンパクト構造は効率よく拡散ベースの非条件ビデオ生成を可能にする。
ビデオ、コード、事前訓練されたモデルが利用可能である。
関連論文リスト
- CapST: An Enhanced and Lightweight Model Attribution Approach for
Synthetic Videos [9.209808258321559]
本稿では、最近提案されたデータセット、DFDM(Deepfakes from Different Models)からのDeepfakeビデオのモデル属性問題について検討する。
データセットは、エンコーダ、デコーダ、中間層、入力解像度、圧縮比の5つの異なるモデルによって生成された6,450のDeepfakeビデオからなる。
ディープフェイク・ベンチマーク・データセット(DFDM)による実験結果から提案手法の有効性が示され、ディープフェイク・ビデオの正確な分類において最大4%の改善が達成された。
論文 参考訳(メタデータ) (2023-11-07T08:05:09Z) - Helping Hands: An Object-Aware Ego-Centric Video Recognition Model [60.350851196619296]
オブジェクト認識デコーダを導入し、エゴ中心の動画におけるエゴ中心の表現の性能を向上させる。
このモデルは,エゴ認識ビデオモデルの代替として機能し,視覚テキストのグラウンド化による性能向上を図っている。
論文 参考訳(メタデータ) (2023-08-15T17:58:11Z) - Neural Video Depth Stabilizer [74.04508918791637]
ビデオ深度推定は時間的に一貫した深度を推定することを目的としている。
いくつかの方法は、幾何学的制約と再射影制約を用いて、テスト時間中に単一画像深度モデルを微調整することで、時間的整合性を達成する。
本稿では,不整合深度推定を安定化し,余分な労力を伴わずに異なる単一画像深度モデルに適用可能なプラグアンドプレイフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-17T17:57:01Z) - STDepthFormer: Predicting Spatio-temporal Depth from Video with a
Self-supervised Transformer Model [0.0]
ビデオ入力と空間的時間的注意ネットワークから,映像のフレーム列を同時に予測する自己教師型モデルを提案する。
提案モデルでは,物体形状やテクスチャなどの事前のシーン知識を,単一画像深度推定法に類似した手法で活用する。
マルチオブジェクト検出、セグメンテーション、トラッキングを含む複雑なモデルを必要とするのではなく、暗黙的にシーン内のオブジェクトの動きを予測することができる。
論文 参考訳(メタデータ) (2023-03-02T12:22:51Z) - Object-Centric Video Prediction via Decoupling of Object Dynamics and
Interactions [27.112210225969733]
本稿では,映像系列の構造を抽出し,オブジェクトのダイナミックスやインタラクションを視覚的観察からモデル化する,オブジェクト中心のビデオ予測タスクのための新しいフレームワークを提案する。
そこで本研究では,時間的ダイナミクスとオブジェクトの相互作用の処理を分離した2つのオブジェクト中心ビデオ予測器(OCVP)トランスフォーマモジュールを提案する。
実験では、OCVP予測器を用いたオブジェクト中心の予測フレームワークが、2つの異なるデータセットにおけるオブジェクト非依存のビデオ予測モデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-23T08:29:26Z) - Position-guided Text Prompt for Vision-Language Pre-training [121.15494549650548]
本研究では,ビジョンランゲージ・プレトレーニングで訓練したクロスモーダルモデルの視覚的グラウンド化能力を高めるために,位置誘導型テキストプロンプト(PTP)パラダイムを提案する。
PTPは、与えられたブロック内のオブジェクトを予測したり、与えられたオブジェクトのブロックを後退させたりすることで、PTPが与えられた視覚的グラウンドタスクを補充するブランク問題に再構成する。
PTPはオブジェクト検出をベースとした手法で同等の結果を得るが、PTPがオブジェクト検出を破棄し、後続では不可能になるため、推論速度ははるかに速い。
論文 参考訳(メタデータ) (2022-12-19T18:55:43Z) - Patch-based Object-centric Transformers for Efficient Video Generation [71.55412580325743]
本稿では,新しい領域ベースビデオ生成アーキテクチャであるPatch-based Object-centric Video Transformer(POVT)を提案する。
圧縮ビデオの離散遅延空間上の自己回帰変換器を用いて、ビデオ予測における先行作業を構築した。
オブジェクト中心表現の圧縮性の向上により、より長い水平時間情報に対してオブジェクト情報のみにアクセスできるようにすることで、トレーニング効率を向上させることができる。
論文 参考訳(メタデータ) (2022-06-08T16:29:59Z) - Unsupervised Image Representation Learning with Deep Latent Particles [27.256381759225896]
物体の位置を外見から切り離す視覚データの表現を提案する。
我々の手法はディープ潜時粒子 (DLP) と呼ばれ、低次元潜時粒子への視覚的入力を分解する。
論文 参考訳(メタデータ) (2022-05-31T14:23:37Z) - ZebraPose: Coarse to Fine Surface Encoding for 6DoF Object Pose
Estimation [76.31125154523056]
物体表面を高密度に表現できる離散ディスクリプタを提案する。
また,微粒化対応予測が可能な微粒化学習戦略を提案する。
論文 参考訳(メタデータ) (2022-03-17T16:16:24Z) - Objects are Different: Flexible Monocular 3D Object Detection [87.82253067302561]
そこで本研究では,乱れたオブジェクトを明示的に分離し,オブジェクト深度推定のための複数のアプローチを適応的に組み合わせたモノクル3次元オブジェクト検出のためのフレキシブルなフレームワークを提案する。
実験の結果,本手法はkittiベンチマークテストセットにおいて,中等度レベルが27%,硬度が30%と,最先端法を27%上回った。
論文 参考訳(メタデータ) (2021-04-06T07:01:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。