Fugu-MT 論文翻訳(概要): GTAutoAct: An Automatic Datasets Generation Framework Based on Game Engine Redevelopment for Action Recognition

論文の概要: GTAutoAct: An Automatic Datasets Generation Framework Based on Game Engine Redevelopment for Action Recognition

arxiv url: http://arxiv.org/abs/2401.13414v1
Date: Wed, 24 Jan 2024 12:18:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-25 14:45:19.782687
Title: GTAutoAct: An Automatic Datasets Generation Framework Based on Game Engine Redevelopment for Action Recognition
Title（参考訳）: GTAutoAct: アクション認識のためのゲームエンジン再開発に基づく自動データセット生成フレームワーク
Authors: Xingyu Song, Zhan Li, Shi Chen and Kazuyuki Demachi
Abstract要約: GTAutoActは、ゲームエンジン技術を活用してアクション認識の進歩を促進する新しいデータセット生成フレームワークである。座標に基づく3次元人間の動きを、複数の視点で適合性を高めた回転向きの表現に変換する。自律的なビデオキャプチャと処理パイプラインを実装しており、ランダムにナビゲートするカメラと自動トリミングとラベル付け機能を備えている。
参考スコア（独自算出の注目度）: 12.521014978532548
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Current datasets for action recognition tasks face limitations stemming from traditional collection and generation methods, including the constrained range of action classes, absence of multi-viewpoint recordings, limited diversity, poor video quality, and labor-intensive manually collection. To address these challenges, we introduce GTAutoAct, a innovative dataset generation framework leveraging game engine technology to facilitate advancements in action recognition. GTAutoAct excels in automatically creating large-scale, well-annotated datasets with extensive action classes and superior video quality. Our framework's distinctive contributions encompass: (1) it innovatively transforms readily available coordinate-based 3D human motion into rotation-orientated representation with enhanced suitability in multiple viewpoints; (2) it employs dynamic segmentation and interpolation of rotation sequences to create smooth and realistic animations of action; (3) it offers extensively customizable animation scenes; (4) it implements an autonomous video capture and processing pipeline, featuring a randomly navigating camera, with auto-trimming and labeling functionalities. Experimental results underscore the framework's robustness and highlights its potential to significantly improve action recognition model training.
Abstract（参考訳）: アクション認識タスクの現在のデータセットは、アクションクラスの範囲の制限、マルチ視点記録の欠如、多様性の制限、ビデオ品質の低さ、労働集約的な手動収集など、従来の収集と生成方法に起因する制限に直面している。これらの課題に対処するために,ゲームエンジン技術を活用した革新的なデータセット生成フレームワークであるGTAutoActを導入する。 GTAutoActは、広範囲なアクションクラスと優れたビデオ品質を備えた大規模で十分に注釈付けされたデータセットを自動生成する。 Our framework's distinctive contributions encompass: (1) it innovatively transforms readily available coordinate-based 3D human motion into rotation-orientated representation with enhanced suitability in multiple viewpoints; (2) it employs dynamic segmentation and interpolation of rotation sequences to create smooth and realistic animations of action; (3) it offers extensively customizable animation scenes; (4) it implements an autonomous video capture and processing pipeline, featuring a randomly navigating camera, with auto-trimming and labeling functionalities. 実験結果は、フレームワークの堅牢性を強調し、アクション認識モデルのトレーニングを大幅に改善する可能性を強調している。

関連論文リスト

SynMotion: Semantic-Visual Adaptation for Motion Customized Video Generation [56.90807453045657]
SynMotion(シンモクション)は、セマンティックガイダンスと視覚適応を併用した動画生成モデルである。意味レベルでは、主観と動きの表現をアンタングルする二項意味理解機構を導入する。視覚レベルでは、効率的なモーションアダプタをトレーニング済みのビデオ生成モデルに統合し、動きの忠実度と時間的コヒーレンスを高める。
論文参考訳（メタデータ） (2025-06-30T10:09:32Z)
CoGen: 3D Consistent Video Generation via Adaptive Conditioning for Autonomous Driving [25.156989992025625]
本研究では,空間適応型生成フレームワークCoGenを導入し,高3次元一貫性で制御可能なマルチビュービデオを実現する。粗い2次元条件を微細な3次元表現に置き換えることで,生成した映像の空間的整合性を大幅に向上させる。以上の結果から, この手法は, 自律運転のための信頼性の高い映像生成ソリューションとして, 幾何学的忠実度と視覚的リアリズムの保存に優れることが示された。
論文参考訳（メタデータ） (2025-03-28T08:27:05Z)
ObjectMover: Generative Object Movement with Video Prior [69.75281888309017]
本稿では,難易度の高いシーンでオブジェクトの動きを再現できる生成モデルであるObjectMoverを提案する。このアプローチにより、我々のモデルは複雑な現実世界のシナリオに適応できることを示す。本稿では,実世界の映像データを学習してモデル一般化を改善するマルチタスク学習戦略を提案する。
論文参考訳（メタデータ） (2025-03-11T04:42:59Z)
Leader and Follower: Interactive Motion Generation under Trajectory Constraints [42.90788442575116]
本稿では,対話型モーションジェネレーションにおける動作範囲改善過程について検討する。 Pace ControllerとKinematic Synchronization Adapterを統合した、トレーニング不要のアプローチを提案する。実験結果から,提案手法は軌道情報をよりよく活用することにより,既存の手法よりも現実性と精度が優れていることがわかった。
論文参考訳（メタデータ） (2025-02-17T08:52:45Z)
Pre-Trained Video Generative Models as World Simulators [59.546627730477454]
本研究では,事前学習した映像生成モデルを制御可能な世界シミュレータに変換するための動的世界シミュレーション(DWS)を提案する。条件付き動作と生成した視覚的変化の正確なアライメントを実現するために,軽量で普遍的な動作条件付きモジュールを導入する。実験により、DWSは拡散モデルと自己回帰変換モデルの両方に汎用的に適用可能であることが示された。
論文参考訳（メタデータ） (2025-02-10T14:49:09Z)
VideoJAM: Joint Appearance-Motion Representations for Enhanced Motion Generation in Video Models [71.9811050853964]
VideoJAMは、ビデオジェネレータの前に効果的な動きを注入する新しいフレームワークである。 VideoJAMは動きコヒーレンスにおける最先端のパフォーマンスを達成する。これらの知見は、外観と動きが相補的であり、効果的に統合されると、映像生成の視覚的品質とコヒーレンスの両方を高めることを強調した。
論文参考訳（メタデータ） (2025-02-04T17:07:10Z)
InterDyn: Controllable Interactive Dynamics with Video Diffusion Models [50.38647583839384]
我々は、初期フレームと駆動対象またはアクターの動作を符号化する制御信号が与えられたインタラクティブな動画像を生成するフレームワークであるInterDynを提案する。我々の重要な洞察は、大規模なビデオ生成モデルは、大規模ビデオデータからインタラクティブなダイナミクスを学習し、ニューラルと暗黙の物理シミュレーターの両方として機能できるということです。
論文参考訳（メタデータ） (2024-12-16T13:57:02Z)
Making Every Frame Matter: Continuous Activity Recognition in Streaming Video via Adaptive Video Context Modeling [19.205142489726875]
ビデオのアクティビティ認識は、ロボットやAIの具体化においてますます重要になっている。適応型ビデオコンテキストモデリングにより,これらの問題を克服するための新しいシステムCARSを導入する。当社のCARSは、一般的なエッジデバイス上で30FPS以上の速度で動作し、すべてのベースラインを1.2%から79.7%の精度で上回っている。
論文参考訳（メタデータ） (2024-10-19T05:50:00Z)
EgoGaussian: Dynamic Scene Understanding from Egocentric Video with 3D Gaussian Splatting [95.44545809256473]
エゴガウスアン(EgoGaussian)は、3Dシーンを同時に再構築し、RGBエゴセントリックな入力のみから3Dオブジェクトの動きを動的に追跡する手法である。動的オブジェクトと背景再構築の品質の両面で,最先端技術と比較して大きな改善が見られた。
論文参考訳（メタデータ） (2024-06-28T10:39:36Z)
Image Conductor: Precision Control for Interactive Video Synthesis [90.2353794019393]
映画製作とアニメーション制作は、しばしばカメラの遷移と物体の動きを調整するための洗練された技術を必要とする。イメージコンダクタ(Image Conductor)は、カメラトランジションとオブジェクトの動きを正確に制御し、単一の画像からビデオアセットを生成する方法である。
論文参考訳（メタデータ） (2024-06-21T17:55:05Z)
An Animation-based Augmentation Approach for Action Recognition from Discontinuous Video [11.293897932762809]
コンピュータビジョンの重要な構成要素である行動認識は、複数のアプリケーションにおいて重要な役割を果たす。 CNNは、不連続なビデオフレームでトレーニングされた場合、パフォーマンスの低下に悩まされる。この問題を克服するために、一連の高度な技術を用いた4Aパイプラインを紹介します。
論文参考訳（メタデータ） (2024-04-10T04:59:51Z)
TrackDiffusion: Tracklet-Conditioned Video Generation via Diffusion Models [75.20168902300166]
微粒な軌跡条件の運動制御が可能な新しい映像生成フレームワークであるTrackDiffusionを提案する。 TrackDiffusionの重要なコンポーネントは、複数のオブジェクトのフレーム間の一貫性を明確に保証するインスタンスエンハンサーである。 TrackDiffusionによって生成されたビデオシーケンスは、視覚知覚モデルのトレーニングデータとして使用できる。
論文参考訳（メタデータ） (2023-12-01T15:24:38Z)
SynthoGestures: A Novel Framework for Synthetic Dynamic Hand Gesture Generation for Driving Scenarios [17.94374027261511]
本論文では,Unreal Engine を用いて現実的な手ジェスチャーを合成するフレームワークを提案する。当社のフレームワークはカスタマイズオプションを提供し、オーバーフィッティングのリスクを低減する。データセット作成に要する時間と労力を節約することにより、当社のツールは、自動車アプリケーションのためのジェスチャー認識システムの開発を加速する。
論文参考訳（メタデータ） (2023-09-08T16:32:56Z)
AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。 3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文参考訳（メタデータ） (2023-07-07T17:59:14Z)
Learning Variational Motion Prior for Video-based Motion Capture [31.79649766268877]
ビデオに基づくモーションキャプチャーのための新しい変分動作先行学習手法(VMP)を提案する。我々のフレームワークはフレームワイドポーズ推定における時間的ジッタリングと障害モードを効果的に削減できる。公開データセットとインザワイルドビデオの両方を用いた実験により、我々のフレームワークの有効性と一般化能力が実証された。
論文参考訳（メタデータ） (2022-10-27T02:45:48Z)
Action-conditioned On-demand Motion Generation [11.45641608124365]
本研究では,現実的で多種多様な3次元人間の動作系列を生成するための新しいフレームワーク,On-Demand Motion Generation (ODMO)を提案する。 ODMOは3つの公開データセットで評価すると、従来のすべてのモーション評価指標に対するSOTAアプローチよりも改善されている。
論文参考訳（メタデータ） (2022-07-17T13:04:44Z)
AMP: Adversarial Motion Priors for Stylized Physics-Based Character Control [145.61135774698002]
我々は,与えられたシナリオで追跡するキャラクタの動作を選択するための完全自動化手法を提案する。キャラクタが実行するべきハイレベルなタスク目標は、比較的単純な報酬関数によって指定できる。キャラクタの動作の低レベルスタイルは、非構造化モーションクリップのデータセットによって指定できる。本システムでは,最先端のトラッキング技術に匹敵する高品質な動作を生成する。
論文参考訳（メタデータ） (2021-04-05T22:43:14Z)
Motion-Attentive Transition for Zero-Shot Video Object Segmentation [99.44383412488703]
ゼロショットオブジェクトセグメンテーションのためのモーション・アテンタティブ・トランジション・ネットワーク(MATNet)を提案する。モーション・アテンティブ・トランジション (MAT) と呼ばれる非対称のアテンションブロックは、2ストリームエンコーダ内に設計されている。このように、エンコーダは深く相互に作用し、物体の動きと外観の間の密な階層的な相互作用を可能にする。
論文参考訳（メタデータ） (2020-03-09T16:58:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。