論文の概要: Patch-based Object-centric Transformers for Efficient Video Generation
- arxiv url: http://arxiv.org/abs/2206.04003v1
- Date: Wed, 8 Jun 2022 16:29:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-09 15:28:10.248195
- Title: Patch-based Object-centric Transformers for Efficient Video Generation
- Title(参考訳): 効率的な映像生成のためのパッチ型オブジェクト中心変換器
- Authors: Wilson Yan, Ryo Okumura, Stephen James, Pieter Abbeel
- Abstract要約: 本稿では,新しい領域ベースビデオ生成アーキテクチャであるPatch-based Object-centric Video Transformer(POVT)を提案する。
圧縮ビデオの離散遅延空間上の自己回帰変換器を用いて、ビデオ予測における先行作業を構築した。
オブジェクト中心表現の圧縮性の向上により、より長い水平時間情報に対してオブジェクト情報のみにアクセスできるようにすることで、トレーニング効率を向上させることができる。
- 参考スコア(独自算出の注目度): 71.55412580325743
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we present Patch-based Object-centric Video Transformer (POVT),
a novel region-based video generation architecture that leverages
object-centric information to efficiently model temporal dynamics in videos. We
build upon prior work in video prediction via an autoregressive transformer
over the discrete latent space of compressed videos, with an added modification
to model object-centric information via bounding boxes. Due to better
compressibility of object-centric representations, we can improve training
efficiency by allowing the model to only access object information for longer
horizon temporal information. When evaluated on various difficult
object-centric datasets, our method achieves better or equal performance to
other video generation models, while remaining computationally more efficient
and scalable. In addition, we show that our method is able to perform
object-centric controllability through bounding box manipulation, which may aid
downstream tasks such as video editing, or visual planning. Samples are
available at
https://sites.google.com/view/povt-public}{https://sites.google.com/view/povt-public
- Abstract(参考訳): 本研究では,映像の時間的ダイナミクスを効率的にモデル化するために,物体中心情報を利用する新しい領域ベースの映像生成アーキテクチャであるpatch-based object-centric video transformer (povt)を提案する。
我々は,圧縮ビデオの離散的潜在空間上の自己回帰トランスフォーマによる映像予測の先行研究と,バウンディングボックスによるオブジェクト中心の情報モデルの修正を行った。
オブジェクト中心表現の圧縮性が向上するため,モデルが対象情報へのアクセスのみを許可することで,トレーニング効率を向上させることができる。
様々な難解なオブジェクト中心データセットで評価すると、計算効率と拡張性は保たれながら、他のビデオ生成モデルと同等の性能が得られる。
さらに,本手法は,映像編集や視覚計画などの下流作業を支援するバウンディングボックス操作により,オブジェクト中心の制御性を実現することができることを示す。
サンプルはhttps://sites.google.com/view/povt-public}{https://sites.google.com/view/povt-publicで入手できる。
関連論文リスト
- Rethinking Image-to-Video Adaptation: An Object-centric Perspective [61.833533295978484]
本稿では,オブジェクト中心の視点から,画像から映像への適応戦略を提案する。
人間の知覚に触発されて、物体発見のプロキシタスクを画像-映像間移動学習に統合する。
論文 参考訳(メタデータ) (2024-07-09T13:58:10Z) - Self-supervised Video Object Segmentation with Distillation Learning of Deformable Attention [29.62044843067169]
ビデオオブジェクトセグメンテーションはコンピュータビジョンの基本的な研究課題である。
変形性注意の蒸留学習に基づく自己教師型ビデオオブジェクトセグメンテーション法を提案する。
論文 参考訳(メタデータ) (2024-01-25T04:39:48Z) - VASE: Object-Centric Appearance and Shape Manipulation of Real Videos [108.60416277357712]
本研究では,オブジェクトの外観と,特にオブジェクトの精密かつ明示的な構造的変更を実行するために設計された,オブジェクト中心のフレームワークを紹介する。
我々は,事前学習した画像条件拡散モデル上にフレームワークを構築し,時間次元を扱うためのレイヤを統合するとともに,形状制御を実現するためのトレーニング戦略とアーキテクチャ修正を提案する。
我々は,画像駆動映像編集タスクにおいて,最先端技術に類似した性能を示し,新しい形状編集機能を示す手法について検討した。
論文 参考訳(メタデータ) (2024-01-04T18:59:24Z) - Video-FocalNets: Spatio-Temporal Focal Modulation for Video Action
Recognition [112.66832145320434]
Video-FocalNetは、ローカルなグローバルなコンテキストの両方をモデル化する、ビデオ認識のための効率的かつ効率的なアーキテクチャである。
Video-FocalNetは、自己注意の相互作用と集約のステップを反転させる時間的焦点変調アーキテクチャに基づいている。
我々は,5つの大規模データセット上での映像認識のための最先端のトランスフォーマーモデルに対して,Video-FocalNetsが好適に動作することを示す。
論文 参考訳(メタデータ) (2023-07-13T17:59:33Z) - Dense Video Object Captioning from Disjoint Supervision [77.47084982558101]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。
このタスクは、ビデオにおける空間的および時間的局所化を統一する。
我々は、この新しいタスクの強力なベースラインにおいて、我々のモデルがどのように改善されているかを示す。
論文 参考訳(メタデータ) (2023-06-20T17:57:23Z) - Learn the Force We Can: Enabling Sparse Motion Control in Multi-Object
Video Generation [26.292052071093945]
単一のフレームとスパース動作入力からビデオを生成する教師なしの手法を提案する。
我々の訓練されたモデルは、目に見えない現実的なオブジェクト間相互作用を生成できる。
ヨダは、制御性と映像品質の両面において、先行するアートビデオ生成の状況と同等かそれ以上であることを示す。
論文 参考訳(メタデータ) (2023-06-06T19:50:02Z) - Video based Object 6D Pose Estimation using Transformers [6.951360830202521]
VideoPoseは、ビデオ内の6Dオブジェクトポスを推定するために、以前のフレームに付随するエンドツーエンドのアテンションベースのモデリングアーキテクチャである。
我々のアーキテクチャは、長距離依存関係を効率的にキャプチャし、推論することができ、ビデオシーケンスを反復的に精錬することができる。
提案手法は最先端の Transformer 手法と同等であり,CNN ベースの手法と比較して大幅に性能が向上する。
論文 参考訳(メタデータ) (2022-10-24T18:45:53Z) - Object-Region Video Transformers [100.23380634952083]
本稿では,オブジェクト表現でトランスフォーマー映像層を拡張するエポbject中心のアプローチであるObject-Region Transformers Video(ORViT)を提案する。
ORViTブロックは2つのオブジェクトレベルのストリームで構成されています。
オブジェクト表現をトランスフォーマーアーキテクチャに組み込んだモデルの価値を実証し、全てのタスクにまたがってパフォーマンスを強く向上させ、検討する。
論文 参考訳(メタデータ) (2021-10-13T17:51:46Z) - Generative Video Transformer: Can Objects be the Words? [22.788711301106765]
本稿では,オブジェクト中心のアプローチを用いてシーンを生成ビデオトランスに適したトークンに分解するオブジェクト中心ビデオトランス (OCVT) を提案する。
映像をオブジェクトに分解することで、完全に教師されていないモデルでは、シーン内の複数のオブジェクトの複雑な時間的ダイナミクスを学習し、ビデオの将来のフレームを生成することができる。
私たちのモデルはピクセルベースモデルよりもメモリ効率が大幅に向上し、48GBのGPUで最大70フレームの動画をトレーニングすることができます。
論文 参考訳(メタデータ) (2021-07-20T03:08:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。