論文の概要: Text-Derived Relational Graph-Enhanced Network for Skeleton-Based Action Segmentation
- arxiv url: http://arxiv.org/abs/2503.15126v1
- Date: Wed, 19 Mar 2025 11:38:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:25:32.068622
- Title: Text-Derived Relational Graph-Enhanced Network for Skeleton-Based Action Segmentation
- Title(参考訳): スケルトンに基づくアクションセグメンテーションのためのテキスト配信リレーショナルグラフ強化ネットワーク
- Authors: Haoyu Ji, Bowen Chen, Weihong Ren, Wenze Huang, Zhihao Yang, Zhiyong Wang, Honghai Liu,
- Abstract要約: 本稿では,モデリングと監視の両面を強化するために,テキストDerived Graph Network (TRG-Net)を提案する。
モデリングでは、動的時空間融合モデリング (Dynamic Spatio-Temporal Fusion Modeling, D) 法は、JGT (Text-Derived Joint Graphs) とチャネル適応を組み込む。
ARIS(Absolute-Relative Inter-Class Supervision)法では、絶対クラスを正規化するためにアクション特徴とテキスト埋め込みの対比学習を用いる。
- 参考スコア(独自算出の注目度): 14.707224594220264
- License:
- Abstract: Skeleton-based Temporal Action Segmentation (STAS) aims to segment and recognize various actions from long, untrimmed sequences of human skeletal movements. Current STAS methods typically employ spatio-temporal modeling to establish dependencies among joints as well as frames, and utilize one-hot encoding with cross-entropy loss for frame-wise classification supervision. However, these methods overlook the intrinsic correlations among joints and actions within skeletal features, leading to a limited understanding of human movements. To address this, we propose a Text-Derived Relational Graph-Enhanced Network (TRG-Net) that leverages prior graphs generated by Large Language Models (LLM) to enhance both modeling and supervision. For modeling, the Dynamic Spatio-Temporal Fusion Modeling (DSFM) method incorporates Text-Derived Joint Graphs (TJG) with channel- and frame-level dynamic adaptation to effectively model spatial relations, while integrating spatio-temporal core features during temporal modeling. For supervision, the Absolute-Relative Inter-Class Supervision (ARIS) method employs contrastive learning between action features and text embeddings to regularize the absolute class distributions, and utilizes Text-Derived Action Graphs (TAG) to capture the relative inter-class relationships among action features. Additionally, we propose a Spatial-Aware Enhancement Processing (SAEP) method, which incorporates random joint occlusion and axial rotation to enhance spatial generalization. Performance evaluations on four public datasets demonstrate that TRG-Net achieves state-of-the-art results.
- Abstract(参考訳): 骨格に基づくテンポラルアクションセグメンテーション(STAS)は、人間の骨格運動の長い、トリミングされていないシーケンスから様々なアクションを分割し、認識することを目的としている。
現在のSTAS法は一般に時空間モデルを用いて関節とフレーム間の依存関係を確立し、フレーム単位の分類管理にクロスエントロピー損失を伴うワンホット符号化を用いる。
しかし、これらの手法は骨格の特徴における関節と行動の内在的相関を見落とし、人間の動きの限られた理解に繋がる。
そこで本稿では,Large Language Models (LLM) が生成する先行グラフを活用して,モデリングと監視の両面で強化する,テキスト指向リレーショナルグラフ拡張ネットワーク(TRG-Net)を提案する。
Dynamic Spatio-Temporal Fusion Modeling (DSFM) 法は、時間的モデリングにおいて時空間関係を効果的にモデル化しながら、時空間関係を効果的にモデル化するために、TJG(Text-Derived Joint Graphs)とチャンネルレベルおよびフレームレベルの動的適応を組み込む。
ARIS(Absolute-Relative Inter-Class Supervision)法では、アクション特徴とテキスト埋め込みの対比学習を用いて絶対クラス分布を正規化し、テキスト指向アクショングラフ(TAG)を用いて、アクション特徴間の相対クラス間関係をキャプチャする。
さらに,無作為な関節閉塞と軸方向回転を取り入れた空間認識強化処理(SAEP)手法を提案する。
4つの公開データセットのパフォーマンス評価は、TRG-Netが最先端の結果を達成することを示す。
関連論文リスト
- Community-Aware Temporal Walks: Parameter-Free Representation Learning on Continuous-Time Dynamic Graphs [3.833708891059351]
Community-Aware Temporal Walks (CTWalks)は、連続時間動的グラフ上での表現学習のための新しいフレームワークである。
CTWalksは、コミュニティベースのパラメータフリー時間ウォークサンプリング機構、コミュニティラベルに富んだ匿名化戦略、エンコーディングプロセスを統合する。
ベンチマークデータセットの実験では、CTWalksは時間リンク予測タスクにおいて確立された手法よりも優れていた。
論文 参考訳(メタデータ) (2025-01-21T04:16:46Z) - Multi-Scale Spatial-Temporal Self-Attention Graph Convolutional Networks for Skeleton-based Action Recognition [0.0]
本稿では,マルチスケール空間時間自己注意(MSST)-GCNという自己注意型GCNハイブリッドモデルを提案する。
適応トポロジを持つ空間自己保持モジュールを用いて、異なる身体部分間のフレーム内相互作用を理解するとともに、時間的自己保持モジュールを用いてノードのフレーム間の相関関係を調べる。
論文 参考訳(メタデータ) (2024-04-03T10:25:45Z) - Learning Mutual Excitation for Hand-to-Hand and Human-to-Human Interaction Recognition [21.007782102151282]
相互励起グラフ畳み込み層を積み重ねた相互励起グラフ畳み込みネットワーク(me-GCN)を提案する。
Me-GCは各レイヤとグラフ畳み込み操作の各ステージで相互情報を学習する。
提案するme-GCは,最先端GCN法およびTransformer法より優れている。
論文 参考訳(メタデータ) (2024-02-04T10:00:00Z) - A Decoupled Spatio-Temporal Framework for Skeleton-based Action
Segmentation [89.86345494602642]
既存の手法は、弱い時間的モデリング能力に制限されている。
この問題に対処するために、Decoupled Scoupled Framework (DeST)を提案する。
DeSTは計算量が少なく、現在の最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2023-12-10T09:11:39Z) - DG-STGCN: Dynamic Spatial-Temporal Modeling for Skeleton-based Action
Recognition [77.87404524458809]
骨格に基づく行動認識のための新しいフレームワーク,すなわち動的グループ時空間GCN(DG-STGCN)を提案する。
DG-GCNとDG-TCNの2つのモジュールで構成される。
DG-STGCNは最先端の手法よりも一貫して優れており、しばしば顕著な差がある。
論文 参考訳(メタデータ) (2022-10-12T03:17:37Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - SpatioTemporal Focus for Skeleton-based Action Recognition [66.8571926307011]
グラフ畳み込みネットワーク(GCN)は骨格に基づく行動認識において広く採用されている。
近年提案されている骨格に基づく行動認識法の性能は以下の要因によって制限されていると論じる。
近年の注目機構に着想を得て,アクション関連関係情報を取得するためのマルチグラインド・コンテキスト集中モジュール MCF を提案する。
論文 参考訳(メタデータ) (2022-03-31T02:45:24Z) - Modeling long-term interactions to enhance action recognition [81.09859029964323]
本稿では,フレームレベルと時間レベルの両方でオブジェクト間の相互作用のセマンティクスを利用する,エゴセントリックなビデオのアンダースタンドアクションに対する新しいアプローチを提案する。
ユーザの手とほぼ対応するプライマリ領域と、相互作用するオブジェクトに対応する可能性のあるセカンダリ領域のセットを入力として、領域ベースのアプローチを使用する。
提案手法は, 標準ベンチマークの動作認識において, 最先端技術よりも優れている。
論文 参考訳(メタデータ) (2021-04-23T10:08:15Z) - Multi Scale Temporal Graph Networks For Skeleton-based Action
Recognition [5.970574258839858]
グラフ畳み込みネットワーク(GCN)は、関連するノードの特徴を効果的に捉え、モデルの性能を向上させる。
まず、時間的特徴と空間的特徴の整合性を無視し、特徴をノード単位とフレーム単位で抽出する。
本稿では,行動認識のための時間グラフネットワーク(TGN)と呼ばれる新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-12-05T08:08:25Z) - On the spatial attention in Spatio-Temporal Graph Convolutional Networks
for skeleton-based human action recognition [97.14064057840089]
カルチャーネットワーク(GCN)は、スケルトンをグラフとしてモデル化することで、スケルトンに基づく人間の行動認識の性能を約束する。
最近提案されたG時間に基づく手法のほとんどは、ネットワークの各層におけるグラフ構造を学習することで、性能を向上させる。
論文 参考訳(メタデータ) (2020-11-07T19:03:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。