Fugu-MT 論文翻訳(概要): Future Frame Prediction of a Video Sequence

論文の概要: Future Frame Prediction of a Video Sequence

arxiv url: http://arxiv.org/abs/2009.01689v1
Date: Mon, 31 Aug 2020 15:31:02 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-23 07:18:18.317717
Title: Future Frame Prediction of a Video Sequence
Title（参考訳）: 映像系列のフレーム予測
Authors: Jasmeen Kaur, Sukhendu Das
Abstract要約: 将来の出来事を予測し、予測し、推論する能力は知性の本質である。将来の出来事を予測し、予測し、推論する能力は知性の本質である。
参考スコア（独自算出の注目度）: 5.660207256468971
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Predicting future frames of a video sequence has been a problem of high interest in the field of Computer Vision as it caters to a multitude of applications. The ability to predict, anticipate and reason about future events is the essence of intelligence and one of the main goals of decision-making systems such as human-machine interaction, robot navigation and autonomous driving. However, the challenge lies in the ambiguous nature of the problem as there may be multiple future sequences possible for the same input video shot. A naively designed model averages multiple possible futures into a single blurry prediction. Recently, two distinct approaches have attempted to address this problem as: (a) use of latent variable models that represent underlying stochasticity and (b) adversarially trained models that aim to produce sharper images. A latent variable model often struggles to produce realistic results, while an adversarially trained model underutilizes latent variables and thus fails to produce diverse predictions. These methods have revealed complementary strengths and weaknesses. Combining the two approaches produces predictions that appear more realistic and better cover the range of plausible futures. This forms the basis and objective of study in this project work. In this paper, we proposed a novel multi-scale architecture combining both approaches. We validate our proposed model through a series of experiments and empirical evaluations on Moving MNIST, UCF101, and Penn Action datasets. Our method outperforms the results obtained using the baseline methods.
Abstract（参考訳）: ビデオシーケンスの将来のフレームを予測することは、多数のアプリケーションに対応するコンピュータビジョンの分野への関心が高まっている問題である。将来の出来事を予測、予測、推論する能力は、知能の本質であり、人間と機械の相互作用、ロボットのナビゲーション、自動運転といった意思決定システムの主な目標の1つである。しかし、同じ入力ビデオ撮影で複数の将来のシーケンスが可能となる可能性があるため、課題は問題の曖昧な性質にある。ナイーブに設計されたモデルは、複数の可能性のある未来を単一のぼやけた予測に平均する。最近、2つの異なるアプローチがこの問題に対処しようとしている。 (a)確率性を表す潜在変数モデルの使用、及び (b)よりシャープな画像を作ることを目的とした、敵対的に訓練されたモデル。潜伏変数モデルはしばしば現実的な結果を生み出すのに苦労するが、敵に訓練されたモデルは潜伏変数を過小評価するので、多様な予測が得られない。これらの手法は相補的な強みと弱みを明らかにした。この2つのアプローチを組み合わせることで、より現実的で、妥当な未来の範囲をカバーできるような予測が生まれます。これはこのプロジェクトにおける研究の基盤と目的を形成する。本稿では,両手法を組み合わせた新しいマルチスケールアーキテクチャを提案する。 MNIST, UCF101, Penn Actionデータセットの一連の実験と実験による評価により, 本モデルの有効性を検証した。本手法は,ベースライン法を用いて得られた結果より優れる。

関連論文リスト

Light Future: Multimodal Action Frame Prediction via InstructPix2Pix [0.0]
本稿では,ロボット行動予測の新しい,効率的かつ軽量なアプローチを提案する。従来のビデオ予測モデルに比べて計算コストと推論遅延が大幅に削減されている。ロボットタスクの将来の視覚的フレームを予測するために、InstructPix2Pixモデルの適応を開拓した。
論文参考訳（メタデータ） (2025-07-20T03:57:18Z)
Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文参考訳（メタデータ） (2024-04-17T16:56:31Z)
Existence Is Chaos: Enhancing 3D Human Motion Prediction with Uncertainty Consideration [27.28184416632815]
トレーニングデータにおける記録された動きは、所定の結果ではなく、将来の可能性の観測である可能性が示唆された。不確実性を考慮した計算効率の良いエンコーダデコーダモデルを提案する。
論文参考訳（メタデータ） (2024-03-21T03:34:18Z)
ACQUIRED: A Dataset for Answering Counterfactual Questions In Real-Life Videos [53.92440577914417]
ACQUIREDは3.9Kの注釈付きビデオで構成され、幅広いイベントタイプを包含し、ファーストパーソンとサードパーソンの両方の視点を取り入れている。各ビデオは、物理的、社会的、時間的な3つの異なる推論の次元にまたがる質問で注釈付けされている。我々は,現在最先端の言語のみおよびマルチモーダルモデルに対して,我々のデータセットをベンチマークし,実験結果から大きな性能差が示された。
論文参考訳（メタデータ） (2023-11-02T22:17:03Z)
Wildfire Forecasting with Satellite Images and Deep Generative Model [0.0]
我々は、未来における火災がどのように振る舞うかを予想するビデオとして、一連の山火事の画像を使用します。潜在空間で動的に駆動される新しい時間モデルを導入する。結果は様々なベンチマークモデルに比較される。
論文参考訳（メタデータ） (2022-08-19T15:52:43Z)
Video Prediction at Multiple Scales with Hierarchical Recurrent Networks [24.536256844130996]
本稿では,異なるレベルの粒度の将来の結果を同時に予測できる新しい映像予測モデルを提案する。空間的および時間的ダウンサンプリングを組み合わせることで、MSPredは長い時間的地平線上での抽象表現を効率的に予測することができる。実験では,提案モデルが将来の映像フレームだけでなく,様々なシナリオにおける他の表現を正確に予測できることを実証した。
論文参考訳（メタデータ） (2022-03-17T13:08:28Z)
Investigating Pose Representations and Motion Contexts Modeling for 3D Motion Prediction [63.62263239934777]
歴史的ポーズシーケンスから人間の動きを予測することは、機械が人間と知的な相互作用を成功させるために不可欠である。本研究では,様々なポーズ表現に関する詳細な研究を行い,その動作予測課題に対する効果に着目した。 AHMR(Attentive Hierarchical Motion Recurrent Network)と呼ばれる新しいRNNアーキテクチャを提案する。
論文参考訳（メタデータ） (2021-12-30T10:45:22Z)
FitVid: Overfitting in Pixel-Level Video Prediction [117.59339756506142]
われわれはFitVidという新しいアーキテクチャを導入し、一般的なベンチマークに厳しいオーバーフィッティングを行えるようにした。 FitVidは、4つの異なるメトリクスで4つの異なるビデオ予測ベンチマークで現在の最先端モデルを上回っている。
論文参考訳（メタデータ） (2021-06-24T17:20:21Z)
Future Frame Prediction for Robot-assisted Surgery [57.18185972461453]
本稿では,ロボット手術用ビデオシーケンスにおけるフレーム予測のためのtpg-vaeモデルを提案する。コンテンツ配信に加えて、私たちのモデルは、手術ツールの小さな動きを処理するために斬新な運動分布を学習します。
論文参考訳（メタデータ） (2021-03-18T15:12:06Z)
Adversarial Generative Grammars for Human Activity Prediction [141.43526239537502]
将来予測のための逆生成文法モデルを提案する。私たちの文法は、データ分散から生産ルールを学習できるように設計されています。推論中に複数の生産ルールを選択することができると、予測される結果が異なる。
論文参考訳（メタデータ） (2020-08-11T17:47:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。