Fugu-MT 論文翻訳(概要): 3D Skeleton-Based Action Recognition: A Review

論文の概要: 3D Skeleton-Based Action Recognition: A Review

arxiv url: http://arxiv.org/abs/2506.00915v1
Date: Sun, 01 Jun 2025 09:04:12 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-04 21:47:33.789505
Title: 3D Skeleton-Based Action Recognition: A Review
Title（参考訳）: 3Dスケルトンに基づく行動認識 : 概観
Authors: Mengyuan Liu, Hong Liu, Qianshuo Hu, Bin Ren, Junsong Yuan, Jiaying Lin, Jiajun Wen,
Abstract要約: 3Dスケルトンに基づく行動認識は、コンピュータビジョンの分野において顕著な話題となっている。以前のレビューでは主にモデル指向の視点を採用しており、しばしば骨格に基づく行動認識に関わる基本的なステップを無視している。本稿では,骨格に基づく行動認識を理解するための包括的,タスク指向のフレームワークを提案することによって,これらの制約に対処することを目的とする。
参考スコア（独自算出の注目度）: 60.0580120274659
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With the inherent advantages of skeleton representation, 3D skeleton-based action recognition has become a prominent topic in the field of computer vision. However, previous reviews have predominantly adopted a model-oriented perspective, often neglecting the fundamental steps involved in skeleton-based action recognition. This oversight tends to ignore key components of skeleton-based action recognition beyond model design and has hindered deeper, more intrinsic understanding of the task. To bridge this gap, our review aims to address these limitations by presenting a comprehensive, task-oriented framework for understanding skeleton-based action recognition. We begin by decomposing the task into a series of sub-tasks, placing particular emphasis on preprocessing steps such as modality derivation and data augmentation. The subsequent discussion delves into critical sub-tasks, including feature extraction and spatio-temporal modeling techniques. Beyond foundational action recognition networks, recently advanced frameworks such as hybrid architectures, Mamba models, large language models (LLMs), and generative models have also been highlighted. Finally, a comprehensive overview of public 3D skeleton datasets is presented, accompanied by an analysis of state-of-the-art algorithms evaluated on these benchmarks. By integrating task-oriented discussions, comprehensive examinations of sub-tasks, and an emphasis on the latest advancements, our review provides a fundamental and accessible structured roadmap for understanding and advancing the field of 3D skeleton-based action recognition.
Abstract（参考訳）: 骨格表現の固有の利点により、3D骨格に基づく行動認識はコンピュータビジョンの分野において顕著な話題となっている。しかし、以前のレビューでは主にモデル指向の視点を採用しており、しばしば骨格に基づく行動認識に関わる基本的なステップを無視している。この監視は、モデル設計以上の骨格に基づく行動認識の重要な要素を無視し、タスクのより深く、より本質的な理解を妨げる傾向にある。このギャップを埋めるために,我々は骨格に基づく行動認識を理解するための包括的でタスク指向のフレームワークを提案することで,これらの制限に対処することを目指している。まずタスクを一連のサブタスクに分解し、モーダリティの導出やデータ拡張といった前処理ステップに特に重点を置いていく。その後の議論は、特徴抽出や時空間モデリング技術を含む重要なサブタスクへと発展していった。基本的な行動認識ネットワーク以外にも、ハイブリッドアーキテクチャ、Mambaモデル、大規模言語モデル(LLM)、生成モデルといった最近の高度なフレームワークも注目されている。最後に、これらのベンチマークで評価された最先端のアルゴリズムの分析とともに、パブリックな3Dスケルトンデータセットの包括的概要を示す。タスク指向の議論,サブタスクの総合的な検証,そして最新の進歩に重点を置くことで,我々は,3Dスケルトンに基づく行動認識の分野の理解と発展のための基本的でアクセスしやすい構造化されたロードマップを提供する。

関連論文リスト

Informative Sample Selection Model for Skeleton-based Action Recognition with Limited Training Samples [51.59753385094941]
半教師付き3D行動認識としても知られる訓練サンプルを用いた3D行動認識が提案されている。我々は、マルコフ決定過程(MDP)としてキャストすることで、新しい視点からアクティブな学習を通して、半教師付き3次元行動認識を再構築する。状態-作用対における因子の表現能力を高めるために、ユークリッド空間から双曲空間に投影する。
論文参考訳（メタデータ） (2025-10-29T10:03:33Z)
A Survey on Efficient Vision-Language-Action Models [153.11669266922993]
VLA(Vision-Language-Action Model)は、物理世界の相互作用によってデジタル知識を橋渡しすることを目的とした、インテリジェンスにおける重要なフロンティアである。これらの課題に緊急に対応する必要性から、この調査は、効率的なビジョン・ランゲージ・アクションモデルに関する最初の包括的なレビューを提示する。
論文参考訳（メタデータ） (2025-10-27T17:57:33Z)
Enhancing Spatial Reasoning in Multimodal Large Language Models through Reasoning-based Segmentation [50.81551581148339]
本稿では、推論に基づくセグメンテーションフレームワークRelevant Reasoning(R$2$S)を紹介する。推論に基づくセグメンテーションデータセットである3D ReasonSegについても紹介する。どちらの実験も、R$2$Sと3D ReasonSegは、空間的推論能力の強い3D点雲知覚を効果的に達成することを示した。
論文参考訳（メタデータ） (2025-06-29T06:58:08Z)
Collaborative Learning for 3D Hand-Object Reconstruction and Compositional Action Recognition from Egocentric RGB Videos Using Superquadrics [31.819336585007104]
境界ボックスに対する3次元オブジェクト表現の代替としてスーパークワッドリックを活用することを提案する。テンプレートレスオブジェクト再構成とアクション認識の両タスクで有効性を示す。また,動詞と名詞の訓練組み合わせがテスト分割と重複しない,より困難な課題を考慮し,行動の構成性についても検討した。
論文参考訳（メタデータ） (2025-01-13T07:26:05Z)
On the Element-Wise Representation and Reasoning in Zero-Shot Image Recognition: A Systematic Survey [82.49623756124357]
ゼロショット画像認識(ZSIR)は、限られたデータから一般化された知識を学習することにより、目に見えない領域の認識と推論を目的としている。本稿では,ZSIRの最近の進歩を徹底的に研究し,今後の発展の基盤となるものについて述べる。
論文参考訳（メタデータ） (2024-08-09T05:49:21Z)
Self-Supervised Skeleton-Based Action Representation Learning: A Benchmark and Beyond [19.074841631219233]
自己教師付き学習(SSL)は骨格に基づく行動理解に有効であることが証明されている。本稿では,自己教師型骨格に基づく行動表現学習に関する包括的調査を行う。
論文参考訳（メタデータ） (2024-06-05T06:21:54Z)
Recognizing Identities From Human Skeletons: A Survey on 3D Skeleton Based Person Re-Identification [60.939250172443586]
3Dスケルトンによる人物の再同定は、パターン認識コミュニティ内で注目を集める重要な研究分野である。近年のSRID進歩の総合的なレビューと分析を行っている。様々なベンチマークやプロトコルを用いて、最先端のSRID手法の徹底的な評価を行い、その有効性と効率性を比較した。
論文参考訳（メタデータ） (2024-01-27T04:52:24Z)
Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文参考訳（メタデータ） (2022-07-17T07:05:39Z)
ANUBIS: Review and Benchmark Skeleton-Based Action Recognition Methods with a New Dataset [26.581495230711198]
本稿では,骨格型行動認識の既存の研究について,分類学の形で概説する。より公平で包括的な評価を促進するために,大規模な人体骨格データセットAnUBISを収集する。
論文参考訳（メタデータ） (2022-05-04T14:03:43Z)
Revisiting spatio-temporal layouts for compositional action recognition [63.04778884595353]
私たちは、アクション認識にオブジェクト中心のアプローチを取ります。本論文の主な焦点は、合成/ファウショット動作認識である。レイアウトモデルとの融合による外観モデルの性能向上を実証する。
論文参考訳（メタデータ） (2021-11-02T23:04:39Z)
A Survey on 3D Skeleton-Based Action Recognition Using Learning Method [20.865811389226234]
3Dスケルトンに基づく行動認識は、スケルトンが潜在的に有利なため、コンピュータビジョンにおいて活発な話題となっている。この調査はまず,行動認識の必要性と3次元骨格データの重要性を強調した。次に、リカレントニューラルネットワーク(RNN)、畳み込みニューラルネットワーク(CNN)、グラフ畳み込みニューラルネットワーク(GCN)に基づく主ストリーム動作認識技術について概説する。
論文参考訳（メタデータ） (2020-02-14T08:12:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。