論文の概要: S3Aug: Segmentation, Sampling, and Shift for Action Recognition
- arxiv url: http://arxiv.org/abs/2310.14556v1
- Date: Mon, 23 Oct 2023 04:22:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 22:42:21.836091
- Title: S3Aug: Segmentation, Sampling, and Shift for Action Recognition
- Title(参考訳): S3Aug: アクション認識のためのセグメンテーション、サンプリング、シフト
- Authors: Taiki Sugiura, Toru Tamaki
- Abstract要約: 提案手法は,1つのトレーニングビデオから,セグメンテーションとラベル・ツー・イメージ変換によって新しい映像を生成する。
サンプルによりラベル画像の特定のカテゴリを変更して様々なビデオを生成し、中間的特徴をシフトし、生成ビデオのフレーム間の時間的コヒーレンシを高める。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Action recognition is a well-established area of research in computer vision.
In this paper, we propose S3Aug, a video data augmenatation for action
recognition. Unlike conventional video data augmentation methods that involve
cutting and pasting regions from two videos, the proposed method generates new
videos from a single training video through segmentation and label-to-image
transformation. Furthermore, the proposed method modifies certain categories of
label images by sampling to generate a variety of videos, and shifts
intermediate features to enhance the temporal coherency between frames of the
generate videos. Experimental results on the UCF101, HMDB51, and Mimetics
datasets demonstrate the effectiveness of the proposed method, paricularlly for
out-of-context videos of the Mimetics dataset.
- Abstract(参考訳): 行動認識はコンピュータビジョンの研究において確立された分野である。
本稿では,アクション認識のためのビデオデータ拡張であるS3Augを提案する。
従来の2つのビデオから領域を切断・ペーストするビデオデータ拡張手法とは異なり,提案手法ではセグメンテーションとラベル・ツー・イメージ変換により,単一のトレーニングビデオから新たなビデオを生成する。
さらに,提案手法では,特定のラベル画像のカテゴリをサンプリングして様々な映像を生成し,中間的特徴をシフトすることで,生成映像のフレーム間の時間的コヒーレンスを高める。
ucf101、hmdb51、mimeticsデータセットの実験結果は、mimeticsデータセットの文脈外のビデオに対して、提案手法の有効性を示している。
関連論文リスト
- GenDeF: Learning Generative Deformation Field for Video Generation [89.49567113452396]
我々は1つの静止画像を生成変形場(GenDeF)でワープすることで映像をレンダリングすることを提案する。
このようなパイプラインには,魅力的なメリットが3つあります。
論文 参考訳(メタデータ) (2023-12-07T18:59:41Z) - Video Segmentation Learning Using Cascade Residual Convolutional Neural
Network [0.0]
本研究では,残差情報を前景検出学習プロセスに組み込んだ新しい深層学習ビデオセグメンテーション手法を提案する。
Change Detection 2014とPetrobrasのプライベートデータセットであるPetrobrasROUTESで実施された実験は、提案手法の有効性を支持している。
論文 参考訳(メタデータ) (2022-12-20T16:56:54Z) - VIDM: Video Implicit Diffusion Models [75.90225524502759]
拡散モデルは、高品質で多様な画像の集合を合成するための強力な生成方法として登場した。
本研究では,移動の効果を暗黙の条件でモデル化する拡散モデルに基づく映像生成手法を提案する。
我々は,空間トランケーションのサンプリング,ロバストネスペナルティ,位置群正規化などの複数の戦略を提案することにより,生成されたビデオの品質を向上させる。
論文 参考訳(メタデータ) (2022-12-01T02:58:46Z) - SVFormer: Semi-supervised Video Transformer for Action Recognition [88.52042032347173]
SVFormerは、未ラベルの動画サンプルに対処するために、安定した擬似ラベルフレームワークを採用する。
さらに,ビデオの複雑な時間変動をカバーするための時間ゆらぎを提案する。
特にSVFormerは、Kinetics-400の1%のラベル付け率でトレーニングエポックを減らし、最先端の技術を31.5%上回っている。
論文 参考訳(メタデータ) (2022-11-23T18:58:42Z) - ObjectMix: Data Augmentation by Copy-Pasting Objects in Videos for
Action Recognition [0.0]
本稿では,インスタンスセグメンテーションを用いた行動認識のためのデータ拡張手法を提案する。
提案手法であるObjectMixは,インスタンスセグメンテーションを用いて2つのビデオから各オブジェクト領域を抽出し,それらを組み合わせて新しいビデオを生成する。
論文 参考訳(メタデータ) (2022-04-01T06:58:44Z) - Composable Augmentation Encoding for Video Representation Learning [94.2358972764708]
自己教師型ビデオ表現学習におけるコントラスト手法に着目した。
対照的な学習における一般的なパラダイムは、同じインスタンスで異なるデータビューをサンプリングし、異なるデータインスタンスを負として、ポジティブペアを構築することである。
そこで我々は,拡張パラメータの列を明示的に提供する,拡張対応型コントラスト学習フレームワークを提案する。
提案手法は,特定の空間的あるいは時間的拡張に関する情報をエンコードすると同時に,多数のビデオベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-04-01T16:48:53Z) - Semi-Supervised Action Recognition with Temporal Contrastive Learning [50.08957096801457]
2つの異なる速度でラベル付きビデオを用いて2経路の時間的コントラストモデルを学習する。
我々は最先端の半教師付き画像認識手法の映像拡張性能を著しく向上させた。
論文 参考訳(メタデータ) (2021-02-04T17:28:35Z) - Contrastive Transformation for Self-supervised Correspondence Learning [120.62547360463923]
野生のラベルのない動画を用いて,視覚的対応の自己監督学習について検討する。
本手法は,信頼性の高い対応推定のための映像内および映像間表現関連を同時に検討する。
我々のフレームワークは、近年の視覚的タスクにおける自己監督型対応手法よりも優れています。
論文 参考訳(メタデータ) (2020-12-09T14:05:06Z) - Cycle-Contrast for Self-Supervised Video Representation Learning [10.395615031496064]
本稿では,ビデオ表現を学習する新たな自己指導手法であるCCLについて述べる。
本手法では,R3Dアーキテクチャに基づく1つのネットワークからフレームとビデオの表現を学習する。
我々は,CCLが学習した映像表現が,映像理解の下流タスクにうまく移行できることを実証した。
論文 参考訳(メタデータ) (2020-10-28T08:27:58Z) - Human Action Recognition using Local Two-Stream Convolution Neural
Network Features and Support Vector Machines [0.0]
本稿では,ビデオにおける人間の行動認識をシンプルかつ効果的に行う方法を提案する。
提案手法は、最先端の3次元畳み込みニューラルネットワークを用いて局所的な外観と運動の特徴を別々に抽出する。
我々は,SVMの利点を実証的に示すために,3つの共通ベンチマークデータセットを広範囲に評価する。
論文 参考訳(メタデータ) (2020-02-19T17:26:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。