論文の概要: Learning Disentangled Representations of Video with Missing Data
- arxiv url: http://arxiv.org/abs/2006.13391v2
- Date: Tue, 3 Nov 2020 20:56:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 21:41:43.026466
- Title: Learning Disentangled Representations of Video with Missing Data
- Title(参考訳): 欠測データを用いたビデオの歪み表現の学習
- Authors: Armand Comas-Massagu\'e, Chi Zhang, Zlatan Feric, Octavia Camps, Rose
Yu
- Abstract要約: 本稿では,DIVE(Disentangled Imputed Video AutoEncoder)について紹介する。
具体的には、DIVEは遅延変数を導入し、隠れたビデオ表現を静的でダイナミックな外観、ポーズ、各オブジェクトの欠落要素に分解する。
さまざまな不足シナリオを持つ移動MNISTデータセットでは、DIVEは、アートベースラインの状態をかなりのマージンで上回る。
- 参考スコア(独自算出の注目度): 17.34839550557689
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Missing data poses significant challenges while learning representations of
video sequences. We present Disentangled Imputed Video autoEncoder (DIVE), a
deep generative model that imputes and predicts future video frames in the
presence of missing data. Specifically, DIVE introduces a missingness latent
variable, disentangles the hidden video representations into static and dynamic
appearance, pose, and missingness factors for each object. DIVE imputes each
object's trajectory where data is missing. On a moving MNIST dataset with
various missing scenarios, DIVE outperforms the state of the art baselines by a
substantial margin. We also present comparisons for real-world MOTSChallenge
pedestrian dataset, which demonstrates the practical value of our method in a
more realistic setting. Our code and data can be found at
https://github.com/Rose-STL-Lab/DIVE.
- Abstract(参考訳): ビデオシーケンスの表現を学習している間、データの欠落は重大な課題となる。
本稿では,データ欠落時に将来の映像フレームをインデュートし予測する深層生成モデルであるdisentangled imputed video autoencoder (dive)を提案する。
具体的には、DIVEは遅延変数を導入し、隠れたビデオ表現を静的でダイナミックな外観、ポーズ、各オブジェクトの欠落要素に分解する。
DIVEは、データが欠落している各オブジェクトの軌道を暗示する。
さまざまな不足シナリオを持つ移動MNISTデータセットでは、DIVEは、アートベースラインの状態をかなりのマージンで上回る。
また,現実のモッシャレンジ歩行者データセットの比較を行い,より現実的な環境での手法の実用的価値を示す。
コードとデータはhttps://github.com/Rose-STL-Lab/DIVE.comで確認できます。
関連論文リスト
- Cross-Modal Transfer from Memes to Videos: Addressing Data Scarcity in Hateful Video Detection [8.05088621131726]
ビデオベースのヘイトスピーチ検出は、注釈付きデータセットの欠如とビデオアノテーションのコストの高さによって、未発見のままである。
我々は、ヘイトフルなビデオ検出モデルをトレーニングするための代替および強化戦略として、ミームデータセットを活用する。
我々の結果は、常に最先端のベンチマークより優れています。
論文 参考訳(メタデータ) (2025-01-26T07:50:14Z) - Towards Student Actions in Classroom Scenes: New Dataset and Baseline [43.268586725768465]
複雑な教室シーンを対象とした,SAV(Multi-label student action video)データセットを提案する。
データセットは、758の教室から、4,324の慎重にトリミングされたビデオクリップで構成され、それぞれに15の教室で生徒が表示するアクションがラベル付けされている。
論文 参考訳(メタデータ) (2024-09-02T03:44:24Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - VANE-Bench: Video Anomaly Evaluation Benchmark for Conversational LMMs [64.60035916955837]
VANE-Benchはビデオの異常や矛盾を検出するためのビデオLMMの熟練度を評価するために設計されたベンチマークである。
我々のデータセットは、既存の最先端のテキスト・ビデオ生成モデルを用いて合成された一連のビデオから構成される。
我々は、このベンチマークタスクにおいて、オープンソースとクローズドソースの両方で既存の9つのビデオLMMを評価し、ほとんどのモデルが微妙な異常を効果的に識別するのに困難に直面することを発見した。
論文 参考訳(メタデータ) (2024-06-14T17:59:01Z) - Kick Back & Relax++: Scaling Beyond Ground-Truth Depth with SlowTV &
CribsTV [50.616892315086574]
本稿では,SlowTV と CribsTV の2つの新しいデータセットを提案する。
これらは、一般公開されているYouTubeビデオから収集された大規模なデータセットで、合計200万のトレーニングフレームが含まれている。
我々はこれらのデータセットを活用し、ゼロショット一般化の難しい課題に取り組む。
論文 参考訳(メタデータ) (2024-03-03T17:29:03Z) - Mitigating Representation Bias in Action Recognition: Algorithms and
Benchmarks [76.35271072704384]
ディープラーニングモデルは、稀なシーンやオブジェクトを持つビデオに適用すると、パフォーマンスが悪くなります。
この問題にはアルゴリズムとデータセットの2つの異なる角度から対処する。
偏りのある表現は、他のデータセットやタスクに転送するとより一般化できることを示す。
論文 参考訳(メタデータ) (2022-09-20T00:30:35Z) - Learning Dynamic View Synthesis With Few RGBD Cameras [60.36357774688289]
本稿では,RGBDカメラを用いて動的屋内シーンのフリー視点映像を合成することを提案する。
我々は、RGBDフレームから点雲を生成し、それをニューラル機能を介して、自由視点ビデオにレンダリングする。
そこで本研究では,未完成の深度を適応的に塗布して新規なビューを描画する,シンプルなRegional Depth-Inpaintingモジュールを提案する。
論文 参考訳(メタデータ) (2022-04-22T03:17:35Z) - Emotion Recognition on large video dataset based on Convolutional
Feature Extractor and Recurrent Neural Network [0.2855485723554975]
我々のモデルは、畳み込みニューラルネットワーク(CNN)とリカレントニューラルネットワーク(RNN)を組み合わせて、ビデオデータ上での次元的感情を予測する。
実験は、最新のAff-Wild2データベースを含む、公開データセットで実施されている。
論文 参考訳(メタデータ) (2020-06-19T14:54:13Z) - Stance Detection Benchmark: How Robust Is Your Stance Detection? [65.91772010586605]
Stance Detection (StD) は、あるトピックやクレームに対する著者の姿勢を検出することを目的としている。
マルチデータセット学習環境において、さまざまなドメインの10のStDデータセットから学習するStDベンチマークを導入する。
このベンチマーク設定では、5つのデータセットに新しい最先端結果を表示することができます。
論文 参考訳(メタデータ) (2020-01-06T13:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。