論文の概要: Transframer: Arbitrary Frame Prediction with Generative Models
- arxiv url: http://arxiv.org/abs/2203.09494v1
- Date: Thu, 17 Mar 2022 17:48:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-18 13:42:03.807899
- Title: Transframer: Arbitrary Frame Prediction with Generative Models
- Title(参考訳): transframer: 生成モデルを用いた任意フレーム予測
- Authors: Charlie Nash, Jo\~ao Carreira, Jacob Walker, Iain Barr, Andrew Jaegle,
Mateusz Malinowski, Peter Battaglia
- Abstract要約: 本稿では,確率的フレーム予測に基づく画像モデリングと視覚タスクのための汎用フレームワークを提案する。
このフレームワークをTransframerと呼ぶアーキテクチャと組み合わせて、U-NetとTransformerコンポーネントを使ってアノテーション付きコンテキストフレームを条件付けします。
- 参考スコア(独自算出の注目度): 21.322137081404904
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a general-purpose framework for image modelling and vision tasks
based on probabilistic frame prediction. Our approach unifies a broad range of
tasks, from image segmentation, to novel view synthesis and video
interpolation. We pair this framework with an architecture we term Transframer,
which uses U-Net and Transformer components to condition on annotated context
frames, and outputs sequences of sparse, compressed image features. Transframer
is the state-of-the-art on a variety of video generation benchmarks, is
competitive with the strongest models on few-shot view synthesis, and can
generate coherent 30 second videos from a single image without any explicit
geometric information. A single generalist Transframer simultaneously produces
promising results on 8 tasks, including semantic segmentation, image
classification and optical flow prediction with no task-specific architectural
components, demonstrating that multi-task computer vision can be tackled using
probabilistic image models. Our approach can in principle be applied to a wide
range of applications that require learning the conditional structure of
annotated image-formatted data.
- Abstract(参考訳): 本稿では,確率的フレーム予測に基づく画像モデリングと視覚タスクのための汎用フレームワークを提案する。
提案手法は,画像分割から新しいビュー合成,ビデオ補間に至るまで,幅広いタスクを統一する。
このフレームワークと、u-netとtransformerコンポーネントを使用してアノテーション付きコンテキストフレームを条件付けし、スパースで圧縮された画像特徴のシーケンスを出力するtransframerというアーキテクチャを組み合わせる。
Transframerは様々なビデオ生成ベンチマークの最先端技術であり、数ショットビュー合成において最強のモデルと競合し、明確な幾何学的情報なしで単一の画像からコヒーレントな30秒のビデオを生成することができる。
単一のジェネラリストトランスフレームは、タスク固有のアーキテクチャコンポーネントなしで意味セグメンテーション、画像分類、光フロー予測を含む8つのタスクで有望な結果を同時に生成し、確率的イメージモデルを用いてマルチタスクのコンピュータビジョンに取り組むことができることを実証する。
我々の手法は、注釈付き画像フォーマットデータの条件構造を学習する必要がある広範囲のアプリケーションに原則として適用することができる。
関連論文リスト
- AnySynth: Harnessing the Power of Image Synthetic Data Generation for Generalized Vision-Language Tasks [23.041812897803034]
任意の種類の合成データを生成可能な統合フレームワークであるAny Synthを提案する。
我々は、Few-shot Object Detection、クロスドメインオブジェクト検出、Zero-shot Image Retrieval、Multi-modal Image Perception and Groundingなど、さまざまなタスクでフレームワークの性能を検証する。
論文 参考訳(メタデータ) (2024-11-24T04:49:07Z) - Transforming Static Images Using Generative Models for Video Salient Object Detection [15.701293552584863]
本研究では,画像成分間の文脈的関係を理解しつつ,静止画像の現実的な変換を画像間拡散モデルで生成できることを示す。
この能力により、モデルは、シーン要素の独立な動きを反映しながらセマンティックな整合性を保ちながら、可塑性光フローを生成することができる。
我々のアプローチは、すべての公開ベンチマークデータセットで最先端のパフォーマンスを実現し、既存のアプローチよりも優れています。
論文 参考訳(メタデータ) (2024-11-21T09:41:33Z) - TC-Bench: Benchmarking Temporal Compositionality in Text-to-Video and Image-to-Video Generation [97.96178992465511]
生成したビデオは、新しい概念の出現と、時間経過とともに現実の動画のようにそれらの関係の遷移を取り入れるべきである、と我々は主張する。
ビデオ生成モデルの時間構成性を評価するため,細部まで作り上げたテキストプロンプトのベンチマークであるTC-Benchと,それに対応する地上の真理ビデオ,ロバストな評価指標を提案する。
論文 参考訳(メタデータ) (2024-06-12T21:41:32Z) - Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation [93.18163456287164]
本稿では,動画に画像モデルを適用するための新しいテキスト誘導型動画翻訳フレームワークを提案する。
我々のフレームワークは,グローバルなスタイルと局所的なテクスチャの時間的一貫性を低コストで実現している。
論文 参考訳(メタデータ) (2023-06-13T17:52:23Z) - Multi-object Video Generation from Single Frame Layouts [84.55806837855846]
本研究では,グローバルシーンを局所オブジェクトに合成するビデオ生成フレームワークを提案する。
我々のフレームワークは、画像生成手法からの非自明な適応であり、この分野では新しくなっています。
本モデルは広範に使用されている2つのビデオ認識ベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-05-06T09:07:01Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - MHSCNet: A Multimodal Hierarchical Shot-aware Convolutional Network for
Video Summarization [61.69587867308656]
本稿では,MHSCNetと呼ばれるマルチモーダル階層型ショット・アウェア・畳み込みネットワークを提案する。
学習したショット認識表現に基づいて、MHSCNetは、ビデオのローカルおよびグローバルビューにおけるフレームレベルの重要度スコアを予測することができる。
論文 参考訳(メタデータ) (2022-04-18T14:53:33Z) - Condensing a Sequence to One Informative Frame for Video Recognition [113.3056598548736]
本稿では,まず映像シーケンスを情報的「フレーム」に凝縮する2段階の代替手法について検討する。
有効な疑問は、どのように「有用な情報」を定義し、シーケンスから1つの合成フレームに蒸留するかである。
IFSは画像ベースの2Dネットワークとクリップベースの3Dネットワークを一貫して改善している。
論文 参考訳(メタデータ) (2022-01-11T16:13:43Z) - Leveraging Local Temporal Information for Multimodal Scene
Classification [9.548744259567837]
映像シーン分類モデルは、映像の空間的(ピクセル的に)および時間的(フレーム的に)特性を効果的に捉えなければならない。
トークン列が与えられた個々のトークンに対して文脈化された表現を得るように設計された自己注意型トランスフォーマーモデルは、多くのコンピュータビジョンタスクで人気が高まっている。
本稿では,ビデオフレーム間の局所的・大域的時間的関係を利用して,各フレームの文脈的表現をより良くする自己注意ブロックを提案する。
論文 参考訳(メタデータ) (2021-10-26T19:58:32Z) - Contextual Encoder-Decoder Network for Visual Saliency Prediction [42.047816176307066]
本稿では,大規模な画像分類タスクに基づいて事前学習した畳み込みニューラルネットワークに基づくアプローチを提案する。
得られた表現をグローバルなシーン情報と組み合わせて視覚的サリエンシを正確に予測する。
最先端技術と比較して、このネットワークは軽量な画像分類バックボーンに基づいている。
論文 参考訳(メタデータ) (2019-02-18T16:15:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。