Fugu-MT 論文翻訳(概要): Learning by Aligning 2D Skeleton Sequences and Multi-Modality Fusion

論文の概要: Learning by Aligning 2D Skeleton Sequences and Multi-Modality Fusion

arxiv url: http://arxiv.org/abs/2305.19480v5
Date: Fri, 26 Apr 2024 18:13:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-01 01:34:26.228810
Title: Learning by Aligning 2D Skeleton Sequences and Multi-Modality Fusion
Title（参考訳）: 2次元骨格列の調整と多モード融合による学習
Authors: Quoc-Huy Tran, Muhammad Ahmed, Murad Popattia, M. Hassan Ahmed, Andrey Konin, M. Zeeshan Zia,
Abstract要約: 本稿では,人間の行動理解作業の微粒化に有用な,自己監督型時間的ビデオアライメントフレームワークを提案する。 3Dスケルトン座標の配列を入力として直接取り込む最先端の手法であるCASAとは対照的に、我々のキーアイデアは2Dスケルトン熱マップのシーケンスを入力として使用することである。
参考スコア（独自算出の注目度）: 8.153034573979856
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper presents a self-supervised temporal video alignment framework which is useful for several fine-grained human activity understanding applications. In contrast with the state-of-the-art method of CASA, where sequences of 3D skeleton coordinates are taken directly as input, our key idea is to use sequences of 2D skeleton heatmaps as input. Unlike CASA which performs self-attention in the temporal domain only, we feed 2D skeleton heatmaps to a video transformer which performs self-attention both in the spatial and temporal domains for extracting effective spatiotemporal and contextual features. In addition, we introduce simple heatmap augmentation techniques based on 2D skeletons for self-supervised learning. Despite the lack of 3D information, our approach achieves not only higher accuracy but also better robustness against missing and noisy keypoints than CASA. Furthermore, extensive evaluations on three public datasets, i.e., Penn Action, IKEA ASM, and H2O, demonstrate that our approach outperforms previous methods in different fine-grained human activity understanding tasks. Finally, fusing 2D skeleton heatmaps with RGB videos yields the state-of-the-art on all metrics and datasets. To our best knowledge, our work is the first to utilize 2D skeleton heatmap inputs and the first to explore multi-modality fusion for temporal video alignment.
Abstract（参考訳）: 本稿では,人的活動理解の微粒化に有用な自己監督型時間的ビデオアライメントフレームワークを提案する。 CASAの最先端手法とは対照的に、3Dスケルトン座標のシーケンスを直接入力として取り込む場合、我々のキーアイデアは2Dスケルトン熱マップのシーケンスを入力として使用することである。時間領域のみに自己アテンションを行うCASAとは異なり、時間領域と時間領域の両方で自己アテンションを行うビデオトランスフォーマーに2次元スケルトンヒートマップを供給し、効果的な時空間的特徴と文脈的特徴を抽出する。さらに,本研究では,自己教師型学習のための2次元骨格に基づく簡易なヒートマップ拡張手法を提案する。 3D情報の欠如にもかかわらず,本手法はCASAよりも高い精度だけでなく,欠落したキーポイントに対する堅牢性も向上する。さらに、Penn Action、IKEA ASM、H2Oの3つの公開データセットに対する広範囲な評価により、我々のアプローチは、異なるきめ細かな人間の活動理解タスクにおいて、従来の手法よりも優れていることを示した。最後に、RGBビデオと2Dスケルトンヒートマップを融合すると、すべてのメトリクスとデータセットが最先端になる。我々の知る限り、我々の研究は初めて2Dスケルトン熱マップ入力を利用し、時間的ビデオアライメントのための多モード融合を初めて探求した。

関連論文リスト

Action-Geometry Prediction with 3D Geometric Prior for Bimanual Manipulation [53.09168514034483]
バイマン操作は3次元幾何学を推論し、動作中にどのように進化するかを予測し、滑らかで協調された動きを生成するポリシーを必要とする。本稿では,事前学習した3次元幾何学的基礎モデルに基づいて,バイマン操作を直接構築するフレームワークを提案する。我々の政策は、幾何学的認識の潜伏子、2次元意味的特徴、およびプロプレセプションを統一状態表現に融合させ、拡散モデルを用いて将来のアクションチャンクと、密度の高いポイントマップにデコードする未来の3次元潜伏子を共同で予測する。
論文参考訳（メタデータ） (2026-02-27T08:54:20Z)
xMOD: Cross-Modal Distillation for 2D/3D Multi-Object Discovery from 2D motion [4.878192303432336]
DIOD-3Dは2Dモーションを用いた3Dデータにおけるマルチオブジェクト発見のための最初のベースラインである。 xMODは、常に2Dモーションキューを使用しながら、2Dと3Dデータを統合したクロスプラットフォームのトレーニングフレームワークである。提案手法は,全データセットの2次元オブジェクト発見状態と比較すると,大幅な性能向上をもたらす。
論文参考訳（メタデータ） (2025-03-19T09:20:35Z)
STGFormer: Spatio-Temporal GraphFormer for 3D Human Pose Estimation in Video [7.345621536750547]
本稿では,映像中の3次元ポーズ推定のためのグラフベースのフレームワークを提案する。具体的には,各アテンション層に直接グラフ情報を統合するグラフベースのアテンションメカニズムを開発する。提案手法は,3次元人物のポーズ推定において,最先端の性能を実現することを実証する。
論文参考訳（メタデータ） (2024-07-14T06:45:27Z)
ALSTER: A Local Spatio-Temporal Expert for Online 3D Semantic Reconstruction [62.599588577671796]
本稿では,RGB-Dフレームのストリームから3次元セマンティックマップを段階的に再構成するオンライン3次元セマンティックセマンティックセマンティクス手法を提案する。オフラインの手法とは異なり、ロボット工学や混合現実のようなリアルタイムな制約のあるシナリオに直接適用できます。
論文参考訳（メタデータ） (2023-11-29T20:30:18Z)
A Single 2D Pose with Context is Worth Hundreds for 3D Human Pose Estimation [18.72362803593654]
3Dポーズ列を3Dに上げる3Dポーズ推定における支配的なパラダイムは、長期的な時間的手がかりに大きく依存している。これは、通常の2次元の関節座標が視覚的手がかりを持たないため、空間的文脈を知覚できないことに起因する。そこで本研究では,市販の2次元ポーズ検出器によって生成される,手軽に利用可能な中間的視覚表現を活用する,単純かつ強力なソリューションを提案する。
論文参考訳（メタデータ） (2023-11-06T18:04:13Z)
Action Segmentation Using 2D Skeleton Heatmaps and Multi-Modality Fusion [6.449382771570842]
本稿では,微細な人間の行動認識に応用した2次元骨格に基づくアクションセグメンテーション法を提案する。我々の知る限り、これは2Dスケルトン熱マップ入力を利用する最初の研究であり、アクションセグメンテーションのために2Dスケルトン融合を探索する最初の試みである。
論文参考訳（メタデータ） (2023-09-12T17:56:06Z)
ViA: View-invariant Skeleton Action Representation Learning via Motion Retargeting [10.811088895926776]
ViAは、自己教師付き骨格行動表現学習のための新しいビュー不変オートエンコーダである。本研究では,実世界のデータに基づく自己教師付き事前学習による骨格に基づく行動認識のための移動学習に焦点を当てた研究を行う。以上の結果から,ViAから得られた骨格表現は,最先端の動作分類精度を向上させるのに十分であることがわかった。
論文参考訳（メタデータ） (2022-08-31T18:49:38Z)
RiCS: A 2D Self-Occlusion Map for Harmonizing Volumetric Objects [68.85305626324694]
カメラ空間における光マーチング (RiCS) は、3次元における前景物体の自己閉塞を2次元の自己閉塞マップに表現する新しい手法である。表現マップは画像の質を高めるだけでなく,時間的コヒーレントな複雑な影効果をモデル化できることを示す。
論文参考訳（メタデータ） (2022-05-14T05:35:35Z)
Revisiting Skeleton-based Action Recognition [107.08112310075114]
PoseC3Dは骨格に基づく行動認識の新しいアプローチであり、代わりに人間の骨格のベース表現としてグラフシーケンスを積み重ねる3Dヒートマップに依存している。 4つの挑戦的なデータセットにおいて、PoseC3Dは、スケルトン上で単独で使用し、RGBモダリティと組み合わせることで、常に優れたパフォーマンスを得る。
論文参考訳（メタデータ） (2021-04-28T06:32:17Z)
Spatial-Temporal Correlation and Topology Learning for Person Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。 CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文参考訳（メタデータ） (2021-04-15T14:32:12Z)
Self-Attentive 3D Human Pose and Shape Estimation from Videos [82.63503361008607]
3D人間のポーズと形状推定のためのビデオベースの学習アルゴリズムを紹介します。ビデオの時間情報を利用して自己着脱モジュールを提案する。本手法を3DPW, MPI-INF-3DHP, Human3.6Mデータセット上で評価した。
論文参考訳（メタデータ） (2021-03-26T00:02:19Z)
GTA: Global Temporal Attention for Video Action Understanding [51.476605514802806]
空間的注意を軸にグローバルな時間的注目を行うグローバルテンポラルアテンション(AGT:Global Temporal Attention)を分離的に紹介します。 2Dおよび3Dネットワーク上でのテストは、我々のアプローチが時間的モデリングを一貫して強化し、3つのビデオアクション認識データセットに対して最先端のパフォーマンスを提供することを示す。
論文参考訳（メタデータ） (2020-12-15T18:58:21Z)
A Graph Attention Spatio-temporal Convolutional Network for 3D Human Pose Estimation in Video [7.647599484103065]
我々は,アテンション機構を用いた局所的グローバル空間情報のモデリングにより,人間の骨格における制約の学習を改善する。提案手法は, 奥行きのあいまいさと自己閉塞性を効果的に軽減し, 半上半身推定を一般化し, 2次元から3次元映像のポーズ推定における競合性能を実現する。
論文参考訳（メタデータ） (2020-03-11T14:54:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。