論文の概要: Punching Bag vs. Punching Person: Motion Transferability in Videos
- arxiv url: http://arxiv.org/abs/2508.00085v1
- Date: Thu, 31 Jul 2025 18:19:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-04 18:08:53.624036
- Title: Punching Bag vs. Punching Person: Motion Transferability in Videos
- Title(参考訳): Punching Bag vs. Punching Person:動画における動作伝達性
- Authors: Raiyaan Abdullah, Jared Claypoole, Michael Cogswell, Ajay Divakaran, Yogesh Rawat,
- Abstract要約: 行動認識モデルは強力な一般化を示すが、多様な文脈にまたがるハイレベルな動きの概念を効果的に伝達できるのか?
本研究では,3次元物体の動きを持つ合成データセットであるSyn-TA,Kineetics400-TA,および自然ビデオデータセットから適応したSomething-v2-TAの3つの動き伝達性フレームワークを提案する。
これらのベンチマークで13の最先端モデルを評価し、新しい文脈におけるハイレベルな動作を認識する際に、性能の大幅な低下を観察する。
- 参考スコア(独自算出の注目度): 5.302871580118083
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Action recognition models demonstrate strong generalization, but can they effectively transfer high-level motion concepts across diverse contexts, even within similar distributions? For example, can a model recognize the broad action "punching" when presented with an unseen variation such as "punching person"? To explore this, we introduce a motion transferability framework with three datasets: (1) Syn-TA, a synthetic dataset with 3D object motions; (2) Kinetics400-TA; and (3) Something-Something-v2-TA, both adapted from natural video datasets. We evaluate 13 state-of-the-art models on these benchmarks and observe a significant drop in performance when recognizing high-level actions in novel contexts. Our analysis reveals: 1) Multimodal models struggle more with fine-grained unknown actions than with coarse ones; 2) The bias-free Syn-TA proves as challenging as real-world datasets, with models showing greater performance drops in controlled settings; 3) Larger models improve transferability when spatial cues dominate but struggle with intensive temporal reasoning, while reliance on object and background cues hinders generalization. We further explore how disentangling coarse and fine motions can improve recognition in temporally challenging datasets. We believe this study establishes a crucial benchmark for assessing motion transferability in action recognition. Datasets and relevant code: https://github.com/raiyaan-abdullah/Motion-Transfer.
- Abstract(参考訳): 行動認識モデルは強力な一般化を示すが、同じ分布内であっても、様々な文脈にまたがるハイレベルな動きの概念を効果的に伝達できるのか?
例えば、"punching person"のような目に見えないバリエーションが提示されたとき、モデルが広いアクション"punching"を認識できるだろうか?
そこで本研究では,(1)3次元物体の動きを持つ合成データセットSyn-TA,(2)Kineetics400-TA,(3)Something-v2-TAの3つのデータセットを用いた動き伝達性フレームワークを提案する。
これらのベンチマークで13の最先端モデルを評価し、新しい文脈におけるハイレベルな動作を認識する際に、性能の大幅な低下を観察する。
私たちの分析によると、
1) マルチモーダルモデルは,粗いものよりもきめ細かな未知の動作に苦しむ。
2) バイアスフリーのSyn-TAは、制御された設定におけるパフォーマンス低下を示すモデルによって、現実世界のデータセットと同じくらい難しいことを証明している。
3) 空間的手がかりが支配的だが, 時間的推論に苦しむ場合, 対象と背景の手がかりに依存する場合の伝達性の向上は, 一般化を妨げている。
さらに、粗い動きや細かい動きを遠ざけることで、時間的に困難なデータセットの認識が向上するかについても検討する。
本研究は,動作認識における動作伝達性を評価するための重要なベンチマークを確立することを目的としている。
データセットと関連するコード:https://github.com/raiyaan-abdullah/Motion-Transfer
関連論文リスト
- Towards Robust and Controllable Text-to-Motion via Masked Autoregressive Diffusion [33.9786226622757]
テキスト記述から3次元動作を生成するための頑健な動き生成フレームワークMoMADiffを提案する。
我々のモデルはフレキシブルなユーザ提供仕様をサポートし、動き合成の空間的側面と時間的側面の両方を正確に制御できる。
提案手法は, 動作品質, 命令忠実度, 定着度において, 常に最先端のモデルより優れる。
論文 参考訳(メタデータ) (2025-05-16T09:06:15Z) - Mocap-2-to-3: Multi-view Lifting for Monocular Motion Recovery with 2D Pretraining [49.223455189395025]
Mocap-2-to-3は単分子入力からマルチビューリフトを実行する新しいフレームワークである。
豊富な2次元データを活用するため、複雑な3次元運動を多視点合成に分解する。
本手法は,カメラ空間のモーションリアリズムと世界空間の人間の位置決めの両面において,最先端のアプローチを超越した手法である。
論文 参考訳(メタデータ) (2025-03-05T06:32:49Z) - GEAL: Generalizable 3D Affordance Learning with Cross-Modal Consistency [50.11520458252128]
既存の3Dアベイランス学習手法は、注釈付きデータに制限があるため、一般化と堅牢性に苦慮している。
本稿では,大規模事前学習型2Dモデルを活用することで,3次元アベイランス学習の一般化と堅牢性を高めるための新しいフレームワークであるGEALを提案する。
GEALは、既存のメソッドと、新しいオブジェクトカテゴリ、および破損したデータにおいて、一貫して優れています。
論文 参考訳(メタデータ) (2024-12-12T17:59:03Z) - SimVS: Simulating World Inconsistencies for Robust View Synthesis [102.83898965828621]
本稿では、生成ビデオモデルを利用して、キャプチャ中に起こりうる世界の不整合をシミュレートする手法を提案する。
我々の世界シミュレーション戦略は、現実のシーンのバリエーションを扱う上で、従来の拡張手法よりも大幅に優れていることを実証する。
論文 参考訳(メタデータ) (2024-12-10T17:35:12Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - Realistic Human Motion Generation with Cross-Diffusion Models [30.854425772128568]
クロスヒューマンモーション拡散モデル(クロスディフ)
拡散モデルのトレーニングでは,共有変圧器ネットワークを用いて3次元情報と2次元情報を統合する。
CrossDiffは、両方の表現の強みを効果的に組み合わせて、より現実的なモーションシーケンスを生成する。
論文 参考訳(メタデータ) (2023-12-18T07:44:40Z) - Realistic Full-Body Tracking from Sparse Observations via Joint-Level
Modeling [13.284947022380404]
頭部と手の3つの追跡信号だけで、正確でスムーズな全身運動を得ることができる2段階のフレームワークを提案する。
本フレームワークは,第1段階の関節レベル特徴を明示的にモデル化し,第2段階の関節レベル相関を捉えるために,空間的および時間的トランスフォーマーブロックの交互化に時間的トークンとして利用する。
AMASSモーションデータセットと実捕集データに関する広範な実験により,提案手法は既存の手法と比較して,より正確で滑らかな動きを実現することができることを示す。
論文 参考訳(メタデータ) (2023-08-17T08:27:55Z) - ReMoDiffuse: Retrieval-Augmented Motion Diffusion Model [33.64263969970544]
3Dのモーション生成はクリエイティブ産業にとって不可欠だ。
近年の進歩は、テキスト駆動モーション生成のためのドメイン知識を持つ生成モデルに依存している。
本稿では拡散モデルに基づく動き生成フレームワークReMoDiffuseを提案する。
論文 参考訳(メタデータ) (2023-04-03T16:29:00Z) - MoDi: Unconditional Motion Synthesis from Diverse Data [51.676055380546494]
多様な動きを合成する無条件生成モデルであるMoDiを提案する。
我々のモデルは、多様な、構造化されていない、ラベルなしのモーションデータセットから完全に教師なしの設定で訓練されている。
データセットに構造が欠けているにもかかわらず、潜在空間は意味的にクラスタ化可能であることを示す。
論文 参考訳(メタデータ) (2022-06-16T09:06:25Z) - Synthetic Data Are as Good as the Real for Association Knowledge
Learning in Multi-object Tracking [19.772968520292345]
本稿では,3次元合成データが実世界のビデオに取って代わってアソシエーショントレーニングを行うことができるかどうかを考察する。
具体的には,MOTXと呼ばれる大規模合成データエンジンを導入し,カメラや物体の運動特性を実世界のデータセットに類似するように手動で設定する。
実データと比較すると、合成データから得られた関連知識は、ドメイン適応技術なしで実世界のテストセット上で非常によく似た性能が得られることを示す。
論文 参考訳(メタデータ) (2021-06-30T14:46:36Z) - Learning to Segment Rigid Motions from Two Frames [72.14906744113125]
本研究では, 運動場から独立物体の動きを復元する幾何学的解析により, モジュラーネットワークを提案する。
2つの連続フレームを入力とし、背景のセグメンテーションマスクと複数の剛体移動オブジェクトを予測し、3次元の剛体変換によってパラメータ化する。
本手法はkittiおよびsintelにおける剛体運動セグメンテーションの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-11T04:20:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。