論文の概要: The benefits of synthetic data for action categorization
- arxiv url: http://arxiv.org/abs/2001.11091v1
- Date: Mon, 20 Jan 2020 17:23:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-08 05:23:21.258779
- Title: The benefits of synthetic data for action categorization
- Title(参考訳): 行動分類のための合成データの利点
- Authors: Mohamad Ballout, Mohammad Tuqan, Daniel Asmar, Elie Shammas, George
Sakr
- Abstract要約: 我々はテクスチャレス、バックグラウンドレスのビデオを生成し、合成データを用いてテンポラルセグメントネットワーク(TSN)を訓練した。
その結果、簡易合成データによるTSNの拡張により、元のネットワーク精度(68.5%)が向上した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we study the value of using synthetically produced videos as
training data for neural networks used for action categorization. Motivated by
the fact that texture and background of a video play little to no significant
roles in optical flow, we generated simplified texture-less and background-less
videos and utilized the synthetic data to train a Temporal Segment Network
(TSN). The results demonstrated that augmenting TSN with simplified synthetic
data improved the original network accuracy (68.5%), achieving 71.8% on HMDB-51
when adding 4,000 videos and 72.4% when adding 8,000 videos. Also, training
using simplified synthetic videos alone on 25 classes of UCF-101 achieved
30.71% when trained on 2500 videos and 52.7% when trained on 5000 videos.
Finally, results showed that when reducing the number of real videos of UCF-25
to 10% and combining them with synthetic videos, the accuracy drops to only
85.41%, compared to a drop to 77.4% when no synthetic data is added.
- Abstract(参考訳): 本稿では,アクション分類に用いるニューラルネットワークのトレーニングデータとして合成ビデオを使用することの価値について検討する。
映像のテクスチャと背景が光学フローにおいてほとんど重要な役割を果たさないという事実に動機づけられ、簡易なテクスチャレスと背景レスのビデオを作成し、合成データを用いてテンポラルセグメントネットワーク(tsn)を訓練した。
その結果、合成データを単純化してTSNを増強することで、元のネットワーク精度が68.5%向上し、HMDB-51では71.8%、8000本の動画を追加すると72.4%となった。
また、UCF-101の25のクラスで単純な合成ビデオを使用したトレーニングは2500のビデオで30.71%、5000ビデオで52.7%を達成した。
最後に、UCF-25の実際のビデオの数を10%に減らし、それらを合成ビデオと組み合わせると、精度は85.41%に低下し、合成データが加えられない場合は77.4%に低下した。
関連論文リスト
- Learning Video Representations without Natural Videos [36.0052738021796]
本研究では, 自然映像を訓練に取り入れることなく, 合成ビデオや自然画像から有用な映像表現を学習できることを示す。
人工ビデオに事前学習したビデオMAEモデルでは、UCF101アクション分類におけるパフォーマンスギャップの97.2%を、スクラッチからのトレーニングと自然ビデオからの自己教師付き事前訓練の間に閉じている。
UCF101-Pの14のアウト・オブ・ディストリビューションデータセットのうち11で、UCF101事前トレーニングと同様のパフォーマンスを示し、UCF101事前トレーニングモデルを上回っている。
論文 参考訳(メタデータ) (2024-10-31T17:59:30Z) - An Evaluation of Large Pre-Trained Models for Gesture Recognition using Synthetic Videos [32.257816070522885]
本研究では,大規模な事前学習モデルを用いた映像に基づくジェスチャー認識における合成データの利用の可能性を検討する。
我々は,k-nearest近辺分類に使用する特徴を抽出するために,最先端のビデオエンコーダを用いている。
その結果, 実検動画の分類精度は, 比較的少数の実検動画に比べて有意に低いことがわかった。
論文 参考訳(メタデータ) (2024-10-03T02:31:14Z) - TarGEN: Targeted Data Generation with Large Language Models [51.87504111286201]
TarGENは、高品質な合成データセットを生成するための、多段階のプロンプト戦略である。
我々は,LLMが不正確なラベル付きインスタンスを修正できるようにする自己補正法により,TarGENを増強する。
合成データセットを元のデータセットと比較した包括的な分析により、データセットの複雑さと多様性の類似または高いレベルが明らかになる。
論文 参考訳(メタデータ) (2023-10-27T03:32:17Z) - FreeMask: Synthetic Images with Dense Annotations Make Stronger
Segmentation Models [62.009002395326384]
FreeMaskは、生成モデルからの合成画像を利用して、データ収集とアノテーション手順の負担を軽減する。
まず、現実的なデータセットによって提供されるセマンティックマスクに条件付けされた豊富な訓練画像を合成する。
本研究では,実画像との協調訓練や,実画像の事前学習による合成画像の役割について検討する。
論文 参考訳(メタデータ) (2023-10-23T17:57:27Z) - Preserve Your Own Correlation: A Noise Prior for Video Diffusion Models [52.93036326078229]
画像生成のための数十億のデータセットが市販されているが、同じスケールの同様のビデオデータを集めることは依然として難しい。
本研究では,ビデオ合成タスクの実用的な解決策として,ビデオデータを用いた事前学習画像拡散モデルの微調整について検討する。
我々のモデルであるPreserve Your Own correlation (PYoCo)は、UCF-101およびMSR-VTTベンチマークでSOTAゼロショットのテキスト・ビデオ結果が得られる。
論文 参考訳(メタデータ) (2023-05-17T17:59:16Z) - Differentially Private Diffusion Models Generate Useful Synthetic Images [53.94025967603649]
近年の研究では、いくつかの拡散モデルの出力がトレーニングデータのプライバシを保持していないことが報告されている。
CIFAR-10 と Camelyon17 のSOTA 結果を得た。
以上の結果から,差分プライバシーで微調整された拡散モデルが有用かつ実証可能なプライベートな合成データを生成できることが示唆された。
論文 参考訳(メタデータ) (2023-02-27T15:02:04Z) - Does an ensemble of GANs lead to better performance when training
segmentation networks with synthetic images? [0.0]
深層ネットワークの訓練に合成画像を用いると,実画像に比べて性能が悪くなることが多い。
ここでは、単一のGANではなく10GANのアンサンブルから合成画像とアノテーションを使用することで、実検画像のDiceスコアが4.7%から14.0%に向上することを示した。
論文 参考訳(メタデータ) (2022-11-08T08:35:15Z) - Towards Real-World Video Deblurring by Exploring Blur Formation Process [53.91239555063343]
近年、深層学習に基づくアプローチは、ビデオデブロアリングタスクにおいて有望な成功を収めている。
既存の合成データセットで訓練されたモデルは、現実世界のぼやけたシナリオよりも一般化の問題に悩まされている。
本稿では, RAW-Blur と呼ばれる, ぼかし生成の手がかりを生かして, 現実的なぼかし合成パイプラインを提案する。
論文 参考訳(メタデータ) (2022-08-28T09:24:52Z) - Dataset Condensation with Differentiable Siamese Augmentation [30.571335208276246]
大規模トレーニングセットを,ディープニューラルネットワークのトレーニングに使用可能な,はるかに小さな合成セットに集約することに注力する。
より有益な合成画像の合成にデータ拡張を有効活用できる微分可能なSiamese Augmentationを提案する。
本手法がMNIST, FashionMNIST, SVHN, CIFAR10に対して99.6%, 94.9%, 88.5%, 71.5%の相対的性能をそれぞれ達成していることを1%未満のデータで示した。
論文 参考訳(メタデータ) (2021-02-16T16:32:21Z) - TCLR: Temporal Contrastive Learning for Video Representation [49.6637562402604]
2つの新しい損失からなる新しい時間的コントラスト学習フレームワークを開発し、既存のコントラスト自己監督ビデオ表現学習方法を改善する。
一般的な3D-ResNet-18アーキテクチャでは、UCF101で82.4%(+5.1%)、HMDB51で52.9%(+5.4%)の精度を達成した。
論文 参考訳(メタデータ) (2021-01-20T05:38:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。