論文の概要: Jointly Learning Structured Representations and Stabilized Affinity for Human Motion Segmentation
- arxiv url: http://arxiv.org/abs/2605.05753v1
- Date: Thu, 07 May 2026 06:48:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.57369
- Title: Jointly Learning Structured Representations and Stabilized Affinity for Human Motion Segmentation
- Title(参考訳): 人間の動作セグメンテーションにおける構造的表現と安定化親和性の共同学習
- Authors: Xianghan Meng, Zhiyuan Huang, Zhengyu Tong, Chun-Guang Li,
- Abstract要約: HMS(Human Motion Clustering)は、動画を異なる人間の動きに対応する非重複セグメントに分割することを目的としている。
現実世界のビデオでは、生のフレームレベルの機能はUnionof-Subspacesの仮定に反し、不満足なセグメンテーション性能をもたらすことが多い。
本稿では,時間的に一貫した構造的表現と,正確かつ堅牢なHMSとの親和性を共同で学習する時間的自己表現型サブスペースクラスタリング(TDSC)を提案する。
- 参考スコア(独自算出の注目度): 7.350724521347576
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human Motion Segmentation (HMS), which aims to partition a video into non-overlapping segments corresponding to different human motions, has recently attracted increasing research attention. Existing HMS approaches are predominantly based on subspace clustering, which are grounded on the assumption that the distribution of high-dimensional temporal features well aligns with a Union-of-Subspaces (UoS). For videos in the real world, however, the raw frame-level features often violate the UoS assumption and yield unsatisfactory segmentation performance. To address this issue, we propose an efficient and effective approach for HMS, named Temporal Deep Self-expressive subspace Clustering (TDSC), which jointly learns temporally consistent structured representations and stabilized affinity for accurate and robust HMS. Specifically, in TDSC, we alternately learn structured representations of the input frame features and self-expressive coefficients via a properly regularized self-expressive model, in which a coding-rate maximization regularizer is incorporated to avoid representation collapse and conform the learned representations to span a desired UoS distribution, and meanwhile, temporal constraints are incorporated to promote temporally adjacent frames to be partitioned into the same groups. Moreover, we develop a temporal momentum averaging mechanism to stabilize affinity evolution and design a reparameterization strategy to enable efficient optimization. We conduct extensive experiments on five benchmark HMS datasets using both conventional (HoG) and up-to-date deep features (i.e., CLIP, DINOv2) to validate the effectiveness of our approach.
- Abstract(参考訳): HMS(Human Motion Segmentation)は、動画を異なる人間の動きに対応する非重複セグメントに分割することを目的としており、近年研究の注目を集めている。
既存のHMSアプローチは主にサブスペースクラスタリングに基づいており、これは高次元の時間的特徴の分布がUnion-of-Subspaces (UoS)とよく一致しているという仮定に基づいている。
しかし、現実世界のビデオでは、生のフレームレベルの機能はUoSの仮定に反し、不満足なセグメンテーション性能をもたらすことが多い。
この問題に対処するため,TDSC(Temporal Deep Self-presentive Subspace Clustering)と呼ばれるHMSに対して,時間的に一貫した構造的表現を共同で学習し,正確かつ堅牢なHMSに対する親和性を安定化する,効率的かつ効果的なアプローチを提案する。
具体的には、TDSCでは、符号化レート最大化正規化器を組み込んで表現の崩壊を回避し、学習した表現を所望のUoS分布に適合させるとともに、時間的制約を組み込んで、時間的隣接フレームを同じグループに分割する、適切な正規化自己表現モデルを用いて、入力フレーム特徴と自己表現係数の構造化表現を交互に学習する。
さらに,親和性の進化を安定化するための時間運動量平均化機構を開発し,効率的な最適化を実現するためのパラメータ化戦略を設計する。
従来の (HoG) と最新の (CLIP, DINOv2) の両機能を用いて, 5つのベンチマーク・ベンチマーク・データセットの広範な実験を行い, 提案手法の有効性を検証した。
関連論文リスト
- Temporal Visual Semantics-Induced Human Motion Understanding with Large Language Models [22.529947693320864]
サブスペースクラスタリング技術を用いて、教師なしの人間の動きのセグメンテーションを効果的に実現することができる。
本稿では,人間の動作系列から派生した時間的視覚意味論(TVS)を用いて,サブスペースクラスタリング性能を向上させることを提案する。
実験結果から,提案手法は4つのヒトの動作データセットに対する既存の最先端手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2025-12-24T03:11:12Z) - Towards Efficient General Feature Prediction in Masked Skeleton Modeling [59.46799426434277]
マスクスケルトンモデリングのための新しい汎用特徴予測フレームワーク(GFP)を提案する。
我々の重要な革新は、局所的な動きパターンからグローバルな意味表現にまたがる、従来の低レベルな再構築を高レベルな特徴予測に置き換えることです。
論文 参考訳(メタデータ) (2025-09-03T18:05:02Z) - OptiCorNet: Optimizing Sequence-Based Context Correlation for Visual Place Recognition [2.3093110834423616]
本稿では,新しいシーケンスモデリングフレームワークOptiCorNetを提案する。
空間的特徴抽出と時間的差分を微分可能でエンドツーエンドのトレーニング可能なモジュールに統一する。
本手法は,季節的・視点的な変化に挑戦し,最先端のベースラインよりも優れる。
論文 参考訳(メタデータ) (2025-07-19T04:29:43Z) - Identity-Preserving Text-to-Video Generation Guided by Simple yet Effective Spatial-Temporal Decoupled Representations [131.33758144860988]
アイデンティティ保存型テキスト・ツー・ビデオ(IPT2V)生成は、一貫した人間のアイデンティティを持つ高忠実度ビデオを作成することを目的としている。
現在のエンドツーエンドフレームワークは、重要な空間的・時間的トレードオフを被る。
本稿では,表現をレイアウトの空間的特徴と運動力学の時間的特徴に分解する,シンプルで効果的な空間時空間分離フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-07T06:54:44Z) - Temporal Rate Reduction Clustering for Human Motion Segmentation [2.902719887963343]
本稿では,ビデオ中のフレームのシーケンスを分割するために,構造化表現と親和性を共同で学習する時間的レート削減クラスタリング(textTR2textC$)を提案する。
我々は5つのベンチマーク・ベンチマーク・データセットで広範囲に実験を行い、異なる特徴抽出器を用いて最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-06-26T13:35:07Z) - Cross Space and Time: A Spatio-Temporal Unitized Model for Traffic Flow Forecasting [16.782154479264126]
時間的要因間の複雑な相互作用により、バックボーン・時間的トラフィックフローを予測することが課題となる。
既存のアプローチでは、これらの次元を分離し、重要な相互依存を無視している。
本稿では,空間的および時間的依存関係の両方をキャプチャする統合フレームワークであるSanonymous-Temporal Unitized Unitized Cell (ASTUC)を紹介する。
論文 参考訳(メタデータ) (2024-11-14T07:34:31Z) - Local-Global Temporal Difference Learning for Satellite Video Super-Resolution [53.03380679343968]
本稿では,時間的差分を効果的かつ効果的な時間的補償に利用することを提案する。
フレーム内における局所的・大域的時間的情報を完全に活用するために,短期・長期的時間的相違を体系的にモデル化した。
5つの主流ビデオ衛星に対して行われた厳密な客観的および主観的評価は、我々の手法が最先端のアプローチに対して好適に機能することを実証している。
論文 参考訳(メタデータ) (2023-04-10T07:04:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。