Fugu-MT 論文翻訳(概要): Learning Disentangled Representations of Video with Missing Data

論文の概要: Learning Disentangled Representations of Video with Missing Data

arxiv url: http://arxiv.org/abs/2006.13391v2
Date: Tue, 3 Nov 2020 20:56:04 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-17 21:41:43.026466
Title: Learning Disentangled Representations of Video with Missing Data
Title（参考訳）: 欠測データを用いたビデオの歪み表現の学習
Authors: Armand Comas-Massagu\'e, Chi Zhang, Zlatan Feric, Octavia Camps, Rose Yu
Abstract要約: 本稿では,DIVE(Disentangled Imputed Video AutoEncoder)について紹介する。具体的には、DIVEは遅延変数を導入し、隠れたビデオ表現を静的でダイナミックな外観、ポーズ、各オブジェクトの欠落要素に分解する。さまざまな不足シナリオを持つ移動MNISTデータセットでは、DIVEは、アートベースラインの状態をかなりのマージンで上回る。
参考スコア（独自算出の注目度）: 17.34839550557689
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Missing data poses significant challenges while learning representations of video sequences. We present Disentangled Imputed Video autoEncoder (DIVE), a deep generative model that imputes and predicts future video frames in the presence of missing data. Specifically, DIVE introduces a missingness latent variable, disentangles the hidden video representations into static and dynamic appearance, pose, and missingness factors for each object. DIVE imputes each object's trajectory where data is missing. On a moving MNIST dataset with various missing scenarios, DIVE outperforms the state of the art baselines by a substantial margin. We also present comparisons for real-world MOTSChallenge pedestrian dataset, which demonstrates the practical value of our method in a more realistic setting. Our code and data can be found at https://github.com/Rose-STL-Lab/DIVE.
Abstract（参考訳）: ビデオシーケンスの表現を学習している間、データの欠落は重大な課題となる。本稿では,データ欠落時に将来の映像フレームをインデュートし予測する深層生成モデルであるdisentangled imputed video autoencoder (dive)を提案する。具体的には、DIVEは遅延変数を導入し、隠れたビデオ表現を静的でダイナミックな外観、ポーズ、各オブジェクトの欠落要素に分解する。 DIVEは、データが欠落している各オブジェクトの軌道を暗示する。さまざまな不足シナリオを持つ移動MNISTデータセットでは、DIVEは、アートベースラインの状態をかなりのマージンで上回る。また,現実のモッシャレンジ歩行者データセットの比較を行い,より現実的な環境での手法の実用的価値を示す。コードとデータはhttps://github.com/Rose-STL-Lab/DIVE.comで確認できます。

関連論文リスト

CrowdTrack: A Benchmark for Difficult Multiple Pedestrian Tracking in Real Scenarios [41.96441237870711]
本稿では,主に1対1の視点から撮影されたマルチペデストリアン追跡のための大規模データセットを提案する。私たちのデータセットは33本のビデオで構成されており、合計5,185本の軌跡が含まれている。このデータセットは、複雑な状況で有効なアルゴリズムの開発を容易にするプラットフォームを提供する。
論文参考訳（メタデータ） (2025-07-03T09:36:44Z)
Cross-Modal Transfer from Memes to Videos: Addressing Data Scarcity in Hateful Video Detection [8.05088621131726]
ビデオベースのヘイトスピーチ検出は、注釈付きデータセットの欠如とビデオアノテーションのコストの高さによって、未発見のままである。我々は、ヘイトフルなビデオ検出モデルをトレーニングするための代替および強化戦略として、ミームデータセットを活用する。我々の結果は、常に最先端のベンチマークより優れています。
論文参考訳（メタデータ） (2025-01-26T07:50:14Z)
Towards Student Actions in Classroom Scenes: New Dataset and Baseline [43.268586725768465]
複雑な教室シーンを対象とした,SAV(Multi-label student action video)データセットを提案する。データセットは、758の教室から、4,324の慎重にトリミングされたビデオクリップで構成され、それぞれに15の教室で生徒が表示するアクションがラベル付けされている。
論文参考訳（メタデータ） (2024-09-02T03:44:24Z)
Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文参考訳（メタデータ） (2024-06-17T07:43:53Z)
VANE-Bench: Video Anomaly Evaluation Benchmark for Conversational LMMs [64.60035916955837]
VANE-Benchはビデオの異常や矛盾を検出するためのビデオLMMの熟練度を評価するために設計されたベンチマークである。我々のデータセットは、既存の最先端のテキスト・ビデオ生成モデルを用いて合成された一連のビデオから構成される。我々は、このベンチマークタスクにおいて、オープンソースとクローズドソースの両方で既存の9つのビデオLMMを評価し、ほとんどのモデルが微妙な異常を効果的に識別するのに困難に直面することを発見した。
論文参考訳（メタデータ） (2024-06-14T17:59:01Z)
Kick Back & Relax++: Scaling Beyond Ground-Truth Depth with SlowTV & CribsTV [50.616892315086574]
本稿では,SlowTV と CribsTV の2つの新しいデータセットを提案する。これらは、一般公開されているYouTubeビデオから収集された大規模なデータセットで、合計200万のトレーニングフレームが含まれている。我々はこれらのデータセットを活用し、ゼロショット一般化の難しい課題に取り組む。
論文参考訳（メタデータ） (2024-03-03T17:29:03Z)
Visual Data-Type Understanding does not emerge from Scaling Vision-Language Models [31.69213233651326]
視覚データ型識別の新しい課題について紹介する。 39の視覚言語モデル(VLM)の広範囲なゼロショット評価は、微妙なパフォーマンスランドスケープを示している。
論文参考訳（メタデータ） (2023-10-12T17:59:30Z)
Mitigating Representation Bias in Action Recognition: Algorithms and Benchmarks [76.35271072704384]
ディープラーニングモデルは、稀なシーンやオブジェクトを持つビデオに適用すると、パフォーマンスが悪くなります。この問題にはアルゴリズムとデータセットの2つの異なる角度から対処する。偏りのある表現は、他のデータセットやタスクに転送するとより一般化できることを示す。
論文参考訳（メタデータ） (2022-09-20T00:30:35Z)
Learning Dynamic View Synthesis With Few RGBD Cameras [60.36357774688289]
本稿では,RGBDカメラを用いて動的屋内シーンのフリー視点映像を合成することを提案する。我々は、RGBDフレームから点雲を生成し、それをニューラル機能を介して、自由視点ビデオにレンダリングする。そこで本研究では,未完成の深度を適応的に塗布して新規なビューを描画する,シンプルなRegional Depth-Inpaintingモジュールを提案する。
論文参考訳（メタデータ） (2022-04-22T03:17:35Z)
Emotion Recognition on large video dataset based on Convolutional Feature Extractor and Recurrent Neural Network [0.2855485723554975]
我々のモデルは、畳み込みニューラルネットワーク(CNN)とリカレントニューラルネットワーク(RNN)を組み合わせて、ビデオデータ上での次元的感情を予測する。実験は、最新のAff-Wild2データベースを含む、公開データセットで実施されている。
論文参考訳（メタデータ） (2020-06-19T14:54:13Z)
Stance Detection Benchmark: How Robust Is Your Stance Detection? [65.91772010586605]
Stance Detection (StD) は、あるトピックやクレームに対する著者の姿勢を検出することを目的としている。マルチデータセット学習環境において、さまざまなドメインの10のStDデータセットから学習するStDベンチマークを導入する。このベンチマーク設定では、5つのデータセットに新しい最先端結果を表示することができます。
論文参考訳（メタデータ） (2020-01-06T13:37:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。