Fugu-MT 論文翻訳(概要): S3Aug: Segmentation, Sampling, and Shift for Action Recognition

論文の概要: S3Aug: Segmentation, Sampling, and Shift for Action Recognition

arxiv url: http://arxiv.org/abs/2310.14556v1
Date: Mon, 23 Oct 2023 04:22:03 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-24 22:42:21.836091
Title: S3Aug: Segmentation, Sampling, and Shift for Action Recognition
Title（参考訳）: S3Aug: アクション認識のためのセグメンテーション、サンプリング、シフト
Authors: Taiki Sugiura, Toru Tamaki
Abstract要約: 提案手法は,1つのトレーニングビデオから,セグメンテーションとラベル・ツー・イメージ変換によって新しい映像を生成する。サンプルによりラベル画像の特定のカテゴリを変更して様々なビデオを生成し、中間的特徴をシフトし、生成ビデオのフレーム間の時間的コヒーレンシを高める。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Action recognition is a well-established area of research in computer vision. In this paper, we propose S3Aug, a video data augmenatation for action recognition. Unlike conventional video data augmentation methods that involve cutting and pasting regions from two videos, the proposed method generates new videos from a single training video through segmentation and label-to-image transformation. Furthermore, the proposed method modifies certain categories of label images by sampling to generate a variety of videos, and shifts intermediate features to enhance the temporal coherency between frames of the generate videos. Experimental results on the UCF101, HMDB51, and Mimetics datasets demonstrate the effectiveness of the proposed method, paricularlly for out-of-context videos of the Mimetics dataset.
Abstract（参考訳）: 行動認識はコンピュータビジョンの研究において確立された分野である。本稿では,アクション認識のためのビデオデータ拡張であるS3Augを提案する。従来の2つのビデオから領域を切断・ペーストするビデオデータ拡張手法とは異なり,提案手法ではセグメンテーションとラベル・ツー・イメージ変換により,単一のトレーニングビデオから新たなビデオを生成する。さらに,提案手法では,特定のラベル画像のカテゴリをサンプリングして様々な映像を生成し,中間的特徴をシフトすることで,生成映像のフレーム間の時間的コヒーレンスを高める。 ucf101、hmdb51、mimeticsデータセットの実験結果は、mimeticsデータセットの文脈外のビデオに対して、提案手法の有効性を示している。

関連論文リスト

CamMimic: Zero-Shot Image To Camera Motion Personalized Video Generation Using Diffusion Models [47.65379612084075]
CamMimicは、所定のリファレンスビデオで観察されたカメラモーションを、ユーザの選択したシーンにシームレスに転送するように設計されている。非関連シーン間のカメラの動き伝達を評価するための確立された指標が存在しないため,CameraScoreを提案する。
論文参考訳（メタデータ） (2025-04-13T08:04:11Z)
Action Selection Learning for Multi-label Multi-view Action Recognition [2.8266810371534152]
本研究は,映像レベルのラベルが弱い広帯域領域を撮影するために,カメラを分散した実世界のシナリオに焦点を当てた。本稿では,多視点行動選択学習法(MultiASL)を提案する。 MM-Officeデータセットを用いた実世界のオフィス環境における実験は,既存手法と比較して提案手法の優れた性能を示す。
論文参考訳（メタデータ） (2024-10-04T10:36:22Z)
Sync from the Sea: Retrieving Alignable Videos from Large-Scale Datasets [62.280729345770936]
AVR(Alignable Video Retrieval)の課題について紹介する。クェリビデオが与えられた場合、我々は大量のクリップから良質な映像を識別し、時間的にクェリに同期させることができる。大規模なKineetics700を含む3つのデータセットに関する実験は、我々のアプローチの有効性を実証している。
論文参考訳（メタデータ） (2024-09-02T20:00:49Z)
AICL: Action In-Context Learning for Video Diffusion Model [124.39948693332552]
本稿では,参照ビデオにおける行動情報を理解する能力を備えた生成モデルを実現するAICLを提案する。大規模な実験では、AICLが効果的にアクションをキャプチャし、最先端の世代パフォーマンスを達成することが示されている。
論文参考訳（メタデータ） (2024-03-18T07:41:19Z)
GenDeF: Learning Generative Deformation Field for Video Generation [89.49567113452396]
我々は1つの静止画像を生成変形場(GenDeF)でワープすることで映像をレンダリングすることを提案する。このようなパイプラインには,魅力的なメリットが3つあります。
論文参考訳（メタデータ） (2023-12-07T18:59:41Z)
InstructVid2Vid: Controllable Video Editing with Natural Language Instructions [97.17047888215284]
InstructVid2Vidは、人間の言語命令でガイドされたビデオ編集のためのエンドツーエンドの拡散ベースの方法論である。我々のアプローチは、自然言語ディレクティブによって案内される映像操作を強化し、サンプルごとの微調整や逆変換の必要性を排除します。
論文参考訳（メタデータ） (2023-05-21T03:28:13Z)
Video Segmentation Learning Using Cascade Residual Convolutional Neural Network [0.0]
本研究では,残差情報を前景検出学習プロセスに組み込んだ新しい深層学習ビデオセグメンテーション手法を提案する。 Change Detection 2014とPetrobrasのプライベートデータセットであるPetrobrasROUTESで実施された実験は、提案手法の有効性を支持している。
論文参考訳（メタデータ） (2022-12-20T16:56:54Z)
VIDM: Video Implicit Diffusion Models [75.90225524502759]
拡散モデルは、高品質で多様な画像の集合を合成するための強力な生成方法として登場した。本研究では,移動の効果を暗黙の条件でモデル化する拡散モデルに基づく映像生成手法を提案する。我々は,空間トランケーションのサンプリング,ロバストネスペナルティ,位置群正規化などの複数の戦略を提案することにより,生成されたビデオの品質を向上させる。
論文参考訳（メタデータ） (2022-12-01T02:58:46Z)
ObjectMix: Data Augmentation by Copy-Pasting Objects in Videos for Action Recognition [0.0]
本稿では,インスタンスセグメンテーションを用いた行動認識のためのデータ拡張手法を提案する。提案手法であるObjectMixは,インスタンスセグメンテーションを用いて2つのビデオから各オブジェクト領域を抽出し,それらを組み合わせて新しいビデオを生成する。
論文参考訳（メタデータ） (2022-04-01T06:58:44Z)
Contrastive Transformation for Self-supervised Correspondence Learning [120.62547360463923]
野生のラベルのない動画を用いて,視覚的対応の自己監督学習について検討する。本手法は,信頼性の高い対応推定のための映像内および映像間表現関連を同時に検討する。我々のフレームワークは、近年の視覚的タスクにおける自己監督型対応手法よりも優れています。
論文参考訳（メタデータ） (2020-12-09T14:05:06Z)
Human Action Recognition using Local Two-Stream Convolution Neural Network Features and Support Vector Machines [0.0]
本稿では,ビデオにおける人間の行動認識をシンプルかつ効果的に行う方法を提案する。提案手法は、最先端の3次元畳み込みニューラルネットワークを用いて局所的な外観と運動の特徴を別々に抽出する。我々は,SVMの利点を実証的に示すために,3つの共通ベンチマークデータセットを広範囲に評価する。
論文参考訳（メタデータ） (2020-02-19T17:26:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。