Fugu-MT 論文翻訳(概要): Unsupervised Skeleton-Based Action Segmentation via Hierarchical Spatiotemporal Vector Quantization

論文の概要: Unsupervised Skeleton-Based Action Segmentation via Hierarchical Spatiotemporal Vector Quantization

arxiv url: http://arxiv.org/abs/2604.15196v1
Date: Thu, 16 Apr 2026 16:24:40 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-17 21:29:32.003377
Title: Unsupervised Skeleton-Based Action Segmentation via Hierarchical Spatiotemporal Vector Quantization
Title（参考訳）: 階層的時空間ベクトル量子化による教師なしスケルトンに基づくアクションセグメンテーション
Authors: Umer Ahmed, Syed Ahmed Mahmood, Fawad Javed Fateh, M. Shaheer Luqman, M. Zeeshan Zia, Quoc-Huy Tran,
Abstract要約: 本研究では,非教師付き骨格に基づく時間的行動セグメンテーションのための新しい階層的時間的ベクトル化フレームワークを提案する。提案手法は,非教師付き骨格に基づく時間的動作セグメント化において,新しい最先端性能を確立し,セグメント長の偏りを低減させるものである。
参考スコア（独自算出の注目度）: 4.446876533427628
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose a novel hierarchical spatiotemporal vector quantization framework for unsupervised skeleton-based temporal action segmentation. We first introduce a hierarchical approach, which includes two consecutive levels of vector quantization. Specifically, the lower level associates skeletons with fine-grained subactions, while the higher level further aggregates subactions into action-level representations. Our hierarchical approach outperforms the non-hierarchical baseline, while primarily exploiting spatial cues by reconstructing input skeletons. Next, we extend our approach by leveraging both spatial and temporal information, yielding a hierarchical spatiotemporal vector quantization scheme. In particular, our hierarchical spatiotemporal approach performs multi-level clustering, while simultaneously recovering input skeletons and their corresponding timestamps. Lastly, extensive experiments on multiple benchmarks, including HuGaDB, LARa, and BABEL, demonstrate that our approach establishes a new state-of-the-art performance and reduces segment length bias in unsupervised skeleton-based temporal action segmentation.
Abstract（参考訳）: 本研究では,非教師付き骨格に基づく時間的行動セグメント化のための新しい階層型時空間ベクトル量子化フレームワークを提案する。まず、2つの連続的なベクトル量子化を含む階層的アプローチを導入する。具体的には、下層は骨格をきめ細かなサブアクションに関連付け、下層はさらにサブアクションをアクションレベルの表現に集約する。我々の階層的アプローチは非階層的ベースラインよりも優れており、主に入力骨格を再構築することで空間的手がかりを利用する。次に、時空間情報と時空間情報の両方を活用して、階層的時空間ベクトル量子化方式によりアプローチを拡張した。特に,我々の階層的時空間アプローチは,入力骨格と対応するタイムスタンプを同時に回収しながら,マルチレベルクラスタリングを行う。最後に,HuGaDB,LARa,BABELを含む複数のベンチマーク実験により,本手法が新しい最先端性能を確立し,非教師付き骨格に基づく時間的動作セグメント化におけるセグメント長バイアスを低減することを示した。

関連論文リスト

A Hierarchical Spatiotemporal Action Tokenizer for In-Context Imitation Learning in Robotics [6.4420182172671865]
非コンテキスト模倣学習のための新しい階層的アクショントークンー、すなわちHiST-ATを提案する。この階層的時間的アプローチは、入力アクションと関連するタイムスタンプのキューを同時に回復しながら、マルチレベルクラスタリングを行う。
論文参考訳（メタデータ） (2026-04-16T16:47:08Z)
Skeleton Motion Words for Unsupervised Skeleton-Based Temporal Action Segmentation [11.045126693185377]
本稿では,非教師なし骨格に基づく時間的動作分割のための新しいアプローチを提案する。本手法では, 組込み空間に分散した継手の情報を格納するシーケンシャル・ツー・シーケンス・テンポラル・オートエンコーダを用いる。広く使われている3つの骨格ベースのデータセットに対して提案手法を徹底的に評価した。
論文参考訳（メタデータ） (2025-08-06T14:56:38Z)
Hierarchical Vector Quantization for Unsupervised Action Segmentation [13.76466884074359]
我々は、長いASMビデオの集合を、ビデオ間で一貫性のある意味的に意味のあるセグメントに分割する、教師なしの時間的アクションセグメンテーションに対処する。本稿では、2つのベクトル量子化モジュールからなる新しい手法である階層ベクトル量子化(HVQ)を提案する。提案手法は,F1スコア,リコール,JSDの点において,最先端技術である。
論文参考訳（メタデータ） (2024-12-23T15:18:24Z)
Accelerating Inference in Large Language Models with a Unified Layer Skipping Strategy [67.45518210171024]
動的計算手法は、いくつかの計算層をスキップすることで、Large Language Models (LLM) に対する顕著な加速を示す。対象の高速化率のみに基づいて計算をスキップする層数を選択する統一層スキーッピング戦略を提案する。機械翻訳とテキスト要約という2つの共通タスクの実験結果は、目標速度比が与えられた場合、統一層スキーピング戦略は推論性能と実際のモデルスループットの両方を著しく向上させることを示している。
論文参考訳（メタデータ） (2024-04-10T12:12:07Z)
Skeleton2vec: A Self-supervised Learning Framework with Contextualized Target Representations for Skeleton Sequence [56.092059713922744]
予測対象として高レベルな文脈化機能を使用することで,優れた性能が得られることを示す。具体的には、シンプルで効率的な3D行動表現学習フレームワークであるSkeleton2vecを提案する。提案するSkeleton2vecは,従来の手法より優れ,最先端の結果が得られる。
論文参考訳（メタデータ） (2024-01-01T12:08:35Z)
Anchor-based Multi-view Subspace Clustering with Hierarchical Feature Descent [46.86939432189035]
階層的特徴Descentを用いたアンカーベースマルチビューサブスペースクラスタリングを提案する。提案手法は最先端技術より一貫して優れている。
論文参考訳（メタデータ） (2023-10-11T03:29:13Z)
Hierarchical Spatio-Temporal Representation Learning for Gait Recognition [6.877671230651998]
歩行認識は、個人を独自の歩行スタイルで識別する生体計測技術である。粗いものから細かいものまで歩行特徴を抽出する階層的時間的表現学習フレームワークを提案する。本手法は,モデル精度と複雑性の適切なバランスを維持しつつ,最先端の手法よりも優れる。
論文参考訳（メタデータ） (2023-07-19T09:30:00Z)
Hierarchically Self-Supervised Transformer for Human Skeleton Representation Learning [45.13060970066485]
階層型トランスフォーマーベーススケルトンシーケンスエンコーダ(Hi-TRS)に組み込まれた自己教師型階層型事前学習方式を提案する。教師付き評価プロトコルと半教師付き評価プロトコルの両方で,本手法は最先端の性能を実現する。
論文参考訳（メタデータ） (2022-07-20T04:21:05Z)
Modeling long-term interactions to enhance action recognition [81.09859029964323]
本稿では,フレームレベルと時間レベルの両方でオブジェクト間の相互作用のセマンティクスを利用する,エゴセントリックなビデオのアンダースタンドアクションに対する新しいアプローチを提案する。ユーザの手とほぼ対応するプライマリ領域と、相互作用するオブジェクトに対応する可能性のあるセカンダリ領域のセットを入力として、領域ベースのアプローチを使用する。提案手法は, 標準ベンチマークの動作認識において, 最先端技術よりも優れている。
論文参考訳（メタデータ） (2021-04-23T10:08:15Z)
MS-TCN++: Multi-Stage Temporal Convolutional Network for Action Segmentation [87.16030562892537]
本稿では,時間的行動分割タスクのための多段階アーキテクチャを提案する。第1段階は、次の段階によって洗練される初期予測を生成する。我々のモデルは3つのデータセットで最先端の結果を得る。
論文参考訳（メタデータ） (2020-06-16T14:50:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。