Fugu-MT 論文翻訳(概要): An Animation-based Augmentation Approach for Action Recognition from Discontinuous Video

論文の概要: An Animation-based Augmentation Approach for Action Recognition from Discontinuous Video

arxiv url: http://arxiv.org/abs/2404.06741v4
Date: Fri, 11 Oct 2024 11:44:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-03 18:10:07.224107
Title: An Animation-based Augmentation Approach for Action Recognition from Discontinuous Video
Title（参考訳）: アニメーションに基づく不連続映像からの行動認識のための拡張手法
Authors: Xingyu Song, Zhan Li, Shi Chen, Xin-Qiang Cai, Kazuyuki Demachi,
Abstract要約: コンピュータビジョンの重要な構成要素である行動認識は、複数のアプリケーションにおいて重要な役割を果たす。 CNNは、不連続なビデオフレームでトレーニングされた場合、パフォーマンスの低下に悩まされる。この問題を克服するために、一連の高度な技術を用いた4Aパイプラインを紹介します。
参考スコア（独自算出の注目度）: 11.293897932762809
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Action recognition, an essential component of computer vision, plays a pivotal role in multiple applications. Despite significant improvements brought by Convolutional Neural Networks (CNNs), these models suffer performance declines when trained with discontinuous video frames, which is a frequent scenario in real-world settings. This decline primarily results from the loss of temporal continuity, which is crucial for understanding the semantics of human actions. To overcome this issue, we introduce the 4A (Action Animation-based Augmentation Approach) pipeline, which employs a series of sophisticated techniques: starting with 2D human pose estimation from RGB videos, followed by Quaternion-based Graph Convolution Network for joint orientation and trajectory prediction, and Dynamic Skeletal Interpolation for creating smoother, diversified actions using game engine technology. This innovative approach generates realistic animations in varied game environments, viewed from multiple viewpoints. In this way, our method effectively bridges the domain gap between virtual and real-world data. In experimental evaluations, the 4A pipeline achieves comparable or even superior performance to traditional training approaches using real-world data, while requiring only 10% of the original data volume. Additionally, our approach demonstrates enhanced performance on In-the-wild videos, marking a significant advancement in the field of action recognition.
Abstract（参考訳）: コンピュータビジョンの重要な構成要素である行動認識は、複数のアプリケーションにおいて重要な役割を果たす。畳み込みニューラルネットワーク(CNN)による大幅な改善にもかかわらず、これらのモデルは、現実の環境で頻繁に発生する不連続なビデオフレームでトレーニングされた場合、パフォーマンスが低下する。この減少は主に、人間の行動の意味を理解するために不可欠である時間的連続性の喪失に起因する。この問題を克服するために,RGBビデオからの2次元人物ポーズ推定から始まる4Aパイプライン(Action Animation-based Augmentation Approach)と,関節方位と軌道方向予測のためのQuternion-based Graph Convolution Network,ゲームエンジン技術を用いたスムーズで多様なアクションを生成するDynamic Skeletal Interpolationを導入する。この革新的なアプローチは、様々なゲーム環境において、複数の視点から現実的なアニメーションを生成する。このようにして,本手法は仮想データと実世界のデータ間の領域ギャップを効果的に橋渡しする。実験的な評価では、4Aパイプラインは、元のデータボリュームの10%しか必要とせず、現実世界のデータを使用した従来のトレーニングアプローチと同等またはそれ以上のパフォーマンスを達成する。 In-the-wildビデオの性能向上を実証し,アクション認識の分野での大きな進歩を示す。

関連論文リスト

Masked Modeling for Human Motion Recovery Under Occlusions [21.05382087890133]
MoRoは、ビデオコンディショニングタスクとしてモーション再構成を定式化する、エンドツーエンドの生成フレームワークである。 MoRoは、1つのH200 GPU上で70FPSのリアルタイム推論を実現する。
論文参考訳（メタデータ） (2026-01-22T16:22:20Z)
mimic-video: Video-Action Models for Generalizable Robot Control Beyond VLAs [5.109732854501585]
そこで我々は,事前学習したインターネットスケールのビデオモデルと,その潜在表現に条件付けされたフローマッチングに基づくアクションデコーダを組み合わせた,新しいビデオ・アクション・モデル(VAM)を提案する。提案手法は,シミュレーションおよび実世界のロボット操作タスクにおける最先端性能を実現し,サンプル効率を10倍,収束速度を2倍向上させる。
論文参考訳（メタデータ） (2025-12-17T18:47:31Z)
DynaRend: Learning 3D Dynamics via Masked Future Rendering for Robotic Manipulation [52.136378691610524]
本稿では、3次元認識と動的インフォームド三面体特徴を学習する表現学習フレームワークDynaRendを紹介する。マルチビューRGB-Dビデオデータに基づく事前トレーニングにより、DynaRendは空間幾何学、将来のダイナミクス、タスク意味を統合された三面体表現で共同でキャプチャする。我々は、RLBenchとColosseumという2つの挑戦的なベンチマークでDynaRendを評価し、政策成功率、環境摂動の一般化、様々な操作タスクにおける実世界の適用性などを大幅に改善した。
論文参考訳（メタデータ） (2025-10-28T10:17:11Z)
EMMA: Generalizing Real-World Robot Manipulation via Generative Visual Transfer [35.27100635173712]
視覚言語アクション(VLA)モデルは、堅牢な一般化を達成するために、多種多様なトレーニングデータに依存している。本稿では,VLAポリシー拡張フレームワークであるEmbodied Manipulation Media Adaptation (EMMA)を提案する。 DreamTransferは、3D構造や幾何学的妥当性を損なうことなく、ロボットビデオのテキスト制御による視覚的編集、前景、背景、照明条件の変換を可能にする。 AdaMixは、動的にトレーニングバッチを再重み付けして、知覚的あるいは運動学的に困難なサンプルに最適化する、ハードサンプル対応のトレーニング戦略である。
論文参考訳（メタデータ） (2025-09-26T14:34:44Z)
Precise Action-to-Video Generation Through Visual Action Prompts [62.951609704196485]
アクション駆動のビデオ生成は、精度と一般性のトレードオフに直面している。エージェント中心のアクション信号は、クロスドメイン転送可能性のコストで精度を提供する。私たちはアクションをドメインに依存しない表現として正確に視覚的なプロンプトに"レンダリング"します。
論文参考訳（メタデータ） (2025-08-18T17:12:28Z)
Puppeteer: Rig and Animate Your 3D Models [105.11046762553121]
Puppeteerは、さまざまな3Dオブジェクトの自動リギングとアニメーションの両方に対処する包括的なフレームワークである。本システムはまず, 自己回帰変換器を用いて, 可塑性骨格構造を推定する。その後、注意に基づくアーキテクチャにより、皮膚の重量を推定する。
論文参考訳（メタデータ） (2025-08-14T17:59:31Z)
4D-VLA: Spatiotemporal Vision-Language-Action Pretraining with Cross-Scene Calibration [31.111439909825627]
既存の手法は通常、単純な観察を入力としてデータセットのアクション分布をモデル化する。カオスの源泉への入力に、4D情報を効果的に統合する新しいアプローチである4D-VLAを提案する。我々のモデルは既存の手法を常に上回り、より強い空間的理解と適応性を示す。
論文参考訳（メタデータ） (2025-06-27T14:09:29Z)
An Efficient 3D Convolutional Neural Network with Channel-wise, Spatial-grouped, and Temporal Convolutions [3.798710743290466]
本稿では,ビデオ行動認識のためのシンプルで効率的な3次元畳み込みニューラルネットワークを提案する。提案するネットワークの性能と効率を,複数のビデオ行動認識データセット上で評価する。
論文参考訳（メタデータ） (2025-03-02T08:47:06Z)
Online hand gesture recognition using Continual Graph Transformers [1.3927943269211591]
リアルタイムスケルトンシーケンスストリーミングのための新しいオンライン認識システムを提案する。提案手法は最先端の精度を実現し, 偽陽性率を大幅に低減し, リアルタイムアプリケーションにとって魅力的なソリューションとなる。提案システムは,人間とロボットのコラボレーションや補助技術など,さまざまな領域にシームレスに統合することができる。
論文参考訳（メタデータ） (2025-02-20T17:27:55Z)
Diff-IP2D: Diffusion-Based Hand-Object Interaction Prediction on Egocentric Videos [22.81433371521832]
そこで我々は,Diff-IP2Dを提案する。提案手法は,市販のメトリクスと新たに提案した評価プロトコルの両方において,最先端のベースラインを大幅に上回っている。
論文参考訳（メタデータ） (2024-05-07T14:51:05Z)
Video Action Recognition Collaborative Learning with Dynamics via PSO-ConvNet Transformer [1.876462046907555]
ビデオにおける学習行動のための新しいPSO-ConvNetモデルを提案する。 UCF-101データセットに対する実験結果から,最大9%の精度向上が得られた。全体として、我々の動的PSO-ConvNetモデルは、人間の行動認識を改善するための有望な方向を提供する。
論文参考訳（メタデータ） (2023-02-17T23:39:34Z)
Dyna-DepthFormer: Multi-frame Transformer for Self-Supervised Depth Estimation in Dynamic Scenes [19.810725397641406]
シーン深度と3次元運動場を協調的に予測する新しいDyna-Depthformerフレームワークを提案する。まず,多視点の相関を一連の自己・横断的層を通じて活用し,深度特徴表現の強化を図る。第2に,動的物体の運動場をセマンティック・プレセプションを使わずに推定するワーピングに基づく運動ネットワークを提案する。
論文参考訳（メタデータ） (2023-01-14T09:43:23Z)
Multi-dataset Training of Transformers for Robust Action Recognition [75.5695991766902]
動作認識のための複数のデータセットをうまく一般化することを目的として,ロバストな特徴表現の課題について検討する。本稿では、情報損失と投影損失という2つの新しい損失項を設計した、新しいマルチデータセットトレーニングパラダイムであるMultiTrainを提案する。本研究では,Kineetics-400,Kineetics-700,Moments-in-Time,Activitynet,Some-something-v2の5つの課題データセットに対して,本手法の有効性を検証する。
論文参考訳（メタデータ） (2022-09-26T01:30:43Z)
Differentiable Frequency-based Disentanglement for Aerial Video Action Recognition [56.91538445510214]
ビデオにおける人間の行動認識のための学習アルゴリズムを提案する。我々のアプローチは、主に斜めに配置されたダイナミックカメラから取得されるUAVビデオのために設計されている。我々はUAV HumanデータセットとNEC Droneデータセットについて広範な実験を行った。
論文参考訳（メタデータ） (2022-09-15T22:16:52Z)
Towards Scale Consistent Monocular Visual Odometry by Learning from the Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文参考訳（メタデータ） (2022-03-11T01:51:54Z)
EAN: Event Adaptive Network for Enhanced Action Recognition [66.81780707955852]
本稿では,映像コンテンツの動的性質を調査するための統合された行動認識フレームワークを提案する。まず、局所的な手がかりを抽出する際に、動的スケールの時空間カーネルを生成し、多様な事象を適応的に適合させる。第2に、これらのキューを正確にグローバルなビデオ表現に集約するために、トランスフォーマーによって選択されたいくつかの前景オブジェクト間のインタラクションのみをマイニングすることを提案する。
論文参考訳（メタデータ） (2021-07-22T15:57:18Z)
STAR: Sparse Transformer-based Action Recognition [61.490243467748314]
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
論文参考訳（メタデータ） (2021-07-15T02:53:11Z)
Domain Adaptive Robotic Gesture Recognition with Unsupervised Kinematic-Visual Data Alignment [60.31418655784291]
本稿では,マルチモダリティ知識,すなわちキネマティックデータとビジュアルデータを同時にシミュレータから実ロボットに伝達できる,教師なしドメイン適応フレームワークを提案する。ビデオの時間的手がかりと、ジェスチャー認識に対するマルチモーダル固有の相関を用いて、トランスファー可能な機能を強化したドメインギャップを修復する。その結果, 本手法は, ACCでは最大12.91%, F1scoreでは20.16%と, 実際のロボットではアノテーションを使わずに性能を回復する。
論文参考訳（メタデータ） (2021-03-06T09:10:03Z)
Complex Human Action Recognition in Live Videos Using Hybrid FR-DL Method [1.027974860479791]
入力シーケンス中の代表フレームの自動選択により,前処理フェーズの課題に対処する。本稿では,バックグラウンドサブトラクションとHOGを用いたハイブリッド手法を提案し,続いて深層ニューラルネットワークと骨格モデリング手法を適用した。本稿では,このモデルをFR-DL(Feature Reduction & Deep Learning based action recognition method)と呼ぶ。
論文参考訳（メタデータ） (2020-07-06T15:12:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。