論文の概要: ObjectMix: Data Augmentation by Copy-Pasting Objects in Videos for
Action Recognition
- arxiv url: http://arxiv.org/abs/2204.00239v1
- Date: Fri, 1 Apr 2022 06:58:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-04 22:54:03.859433
- Title: ObjectMix: Data Augmentation by Copy-Pasting Objects in Videos for
Action Recognition
- Title(参考訳): ObjectMix:アクション認識のためのビデオにおけるコピーパッティングオブジェクトによるデータ拡張
- Authors: Jun Kimata, Tomoya Nitta, Toru Tamaki
- Abstract要約: 本稿では,インスタンスセグメンテーションを用いた行動認識のためのデータ拡張手法を提案する。
提案手法であるObjectMixは,インスタンスセグメンテーションを用いて2つのビデオから各オブジェクト領域を抽出し,それらを組み合わせて新しいビデオを生成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose a data augmentation method for action recognition
using instance segmentation. Although many data augmentation methods have been
proposed for image recognition, few methods have been proposed for action
recognition. Our proposed method, ObjectMix, extracts each object region from
two videos using instance segmentation and combines them to create new videos.
Experiments on two action recognition datasets, UCF101 and HMDB51, demonstrate
the effectiveness of the proposed method and show its superiority over
VideoMix, a prior work.
- Abstract(参考訳): 本稿では,インスタンスセグメンテーションを用いた行動認識のためのデータ拡張手法を提案する。
画像認識のためのデータ拡張手法は数多く提案されているが、動作認識のための方法はほとんど提案されていない。
提案手法であるObjectMixは,2つのビデオからオブジェクト領域を抽出し,それらを組み合わせて新しいビデオを生成する。
UCF101とHMDB51という2つの行動認識データセットの実験は,提案手法の有効性を示し,先行研究であるVideoMixよりも優れていることを示す。
関連論文リスト
- Action Selection Learning for Multi-label Multi-view Action Recognition [2.8266810371534152]
本研究は,映像レベルのラベルが弱い広帯域領域を撮影するために,カメラを分散した実世界のシナリオに焦点を当てた。
本稿では,多視点行動選択学習法(MultiASL)を提案する。
MM-Officeデータセットを用いた実世界のオフィス環境における実験は,既存手法と比較して提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-04T10:36:22Z) - Rethinking Image-to-Video Adaptation: An Object-centric Perspective [61.833533295978484]
本稿では,オブジェクト中心の視点から,画像から映像への適応戦略を提案する。
人間の知覚に触発されて、物体発見のプロキシタスクを画像-映像間移動学習に統合する。
論文 参考訳(メタデータ) (2024-07-09T13:58:10Z) - The impact of Compositionality in Zero-shot Multi-label action recognition for Object-based tasks [4.971065912401385]
ゼロショットマルチラベル動作認識のための統一的なアプローチであるDual-VCLIPを提案する。
Dual-VCLIPは、マルチラベル画像分類のためのDualCoOp法を用いて、ゼロショット動作認識法であるVCLIPを強化する。
オブジェクトベースのアクションの大部分を含むCharadesデータセット上で,本手法の有効性を検証する。
論文 参考訳(メタデータ) (2024-05-14T15:28:48Z) - Simultaneous Detection and Interaction Reasoning for Object-Centric Action Recognition [21.655278000690686]
エンドツーエンドのオブジェクト中心のアクション認識フレームワークを提案する。
同時に1つのステージで検出と相互作用の推論を行う。
我々はSomes-ElseとIkea-Assemblyという2つのデータセットで実験を行う。
論文 参考訳(メタデータ) (2024-04-18T05:06:12Z) - S3Aug: Segmentation, Sampling, and Shift for Action Recognition [0.0]
提案手法は,1つのトレーニングビデオから,セグメンテーションとラベル・ツー・イメージ変換によって新しい映像を生成する。
サンプルによりラベル画像の特定のカテゴリを変更して様々なビデオを生成し、中間的特徴をシフトし、生成ビデオのフレーム間の時間的コヒーレンシを高める。
論文 参考訳(メタデータ) (2023-10-23T04:22:03Z) - Reasoning over the Behaviour of Objects in Video-Clips for Adverb-Type Recognition [54.938128496934695]
本稿では,ビデオクリップから抽出したオブジェクトの振る舞いを理由として,クリップの対応する副詞型を認識するための新しいフレームワークを提案する。
具体的には、生のビデオクリップから人間の解釈可能な物体の挙動を抽出する新しいパイプラインを提案する。
生のビデオクリップから抽出したオブジェクト-振る舞い-ファクトのデータセットを2つリリースする。
論文 参考訳(メタデータ) (2023-07-09T09:04:26Z) - DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - Motion Guided Attention Fusion to Recognize Interactions from Videos [40.1565059238891]
ビデオからの細かいインタラクションを認識するためのデュアルパスアプローチを提案する。
動作経路のボトムアップ特徴と物体検出から捉えた特徴を融合させて、動作の時間的側面を学習する。
提案手法は外見を効果的に一般化し,アクターがこれまで見つからなかった物体と相互作用する動作を認識する。
論文 参考訳(メタデータ) (2021-04-01T17:44:34Z) - Ensembling object detectors for image and video data analysis [98.26061123111647]
本稿では,複数の物体検出器の出力をアンサンブルすることで,画像データ上の境界ボックスの検出性能と精度を向上させる手法を提案する。
本研究では,2段階追跡に基づく検出精度向上手法を提案することで,映像データに拡張する。
論文 参考訳(メタデータ) (2021-02-09T12:38:16Z) - Depth Guided Adaptive Meta-Fusion Network for Few-shot Video Recognition [86.31412529187243]
わずかにラベル付きサンプルで新しいアクションを学習することを目的としたビデオ認識はほとんどない。
本稿では,AMeFu-Netと呼ばれる映像認識のための深度誘導型適応メタフュージョンネットワークを提案する。
論文 参考訳(メタデータ) (2020-10-20T03:06:20Z) - Learning Video Representations from Textual Web Supervision [97.78883761035557]
本稿では,映像表現の学習方法としてテキストを用いることを提案する。
我々は、インターネット上で公開されている7000万の動画クリップを収集し、各ビデオと関連するテキストをペアリングするモデルを訓練する。
提案手法は,映像表現の事前学習に有効な方法であることがわかった。
論文 参考訳(メタデータ) (2020-07-29T16:19:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。