Fugu-MT 論文翻訳(概要): Language-Assisted Human Part Motion Learning for Skeleton-Based Temporal Action Segmentation

論文の概要: Language-Assisted Human Part Motion Learning for Skeleton-Based Temporal Action Segmentation

arxiv url: http://arxiv.org/abs/2410.06353v1
Date: Tue, 8 Oct 2024 20:42:51 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-01 06:19:07.003760
Title: Language-Assisted Human Part Motion Learning for Skeleton-Based Temporal Action Segmentation
Title（参考訳）: 骨格に基づく時間行動セグメンテーションのための言語支援型ヒューマン・パート・モーション・ラーニング
Authors: Bowen Chen, Haoyu Ji, Zhiyong Wang, Benjamin Filtjens, Chunzhuo Wang, Weihong Ren, Bart Vanrumste, Honghai Liu,
Abstract要約: 骨格に基づくテンポラルアクションは、可変長の骨格配列の高密度な作用分類を含む。現在のアプローチでは、グラフベースのネットワークを使用して、フレーム単位の全体レベルの動作表現を抽出している。本稿では,LPL(Language-assisted Human Part Motion Representation)という手法を提案する。
参考スコア（独自算出の注目度）: 11.759374280422113
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Skeleton-based Temporal Action Segmentation involves the dense action classification of variable-length skeleton sequences. Current approaches primarily apply graph-based networks to extract framewise, whole-body-level motion representations, and use one-hot encoded labels for model optimization. However, whole-body motion representations do not capture fine-grained part-level motion representations and the one-hot encoded labels neglect the intrinsic semantic relationships within the language-based action definitions. To address these limitations, we propose a novel method named Language-assisted Human Part Motion Representation Learning (LPL), which contains a Disentangled Part Motion Encoder (DPE) to extract dual-level (i.e., part and whole-body) motion representations and a Language-assisted Distribution Alignment (LDA) strategy for optimizing spatial relations within representations. Specifically, after part-aware skeleton encoding via DPE, LDA generates dual-level action descriptions to construct a textual embedding space with the help of a large-scale language model. Then, LDA motivates the alignment of the embedding space between text descriptions and motions. This alignment allows LDA not only to enhance intra-class compactness but also to transfer the language-encoded semantic correlations among actions to skeleton-based motion learning. Moreover, we propose a simple yet efficient Semantic Offset Adapter to smooth the cross-domain misalignment. Our experiments indicate that LPL achieves state-of-the-art performance across various datasets (e.g., +4.4\% Accuracy, +5.6\% F1 on the PKU-MMD dataset). Moreover, LDA is compatible with existing methods and improves their performance (e.g., +4.8\% Accuracy, +4.3\% F1 on the LARa dataset) without additional inference costs.
Abstract（参考訳）: 骨格に基づくテンポラルアクションセグメンテーションは、可変長の骨格配列の密度の高いアクション分類を含む。現在のアプローチでは、主にグラフベースのネットワークを用いて、フレームワイドで全身レベルの動作表現を抽出し、モデル最適化にワンホット符号化ラベルを使用する。しかし、全身の動き表現は細かい部分レベルの動きの表現を捉えず、ワンホット符号化されたラベルは言語に基づく行動定義の中で固有の意味的関係を無視する。これらの制約に対処するため,DPE(Disentangled Part Motion Encoder)を含むLPL(Language-assisted Human Part Motion Representation Learning)とLDA(Language-assisted Distribution Alignment)という手法を提案する。具体的には、DPEによる部分認識スケルトンエンコーディングの後、LDAは、大規模言語モデルの助けを借りて、テキスト埋め込み空間を構築するために、デュアルレベルなアクション記述を生成する。そして、LDAは、テキスト記述と動きの間の埋め込み空間のアライメントを動機付ける。このアライメントにより、LDAはクラス内のコンパクト性を高めるだけでなく、アクション間の言語エンコードされたセマンティックな相関関係をスケルトンに基づく運動学習に転送することができる。さらに、ドメイン間ミスアライメントを円滑にするための、シンプルで効率的なセマンティックオフセットアダプタを提案する。実験の結果,LPLは様々なデータセット(例えば,+4.4\%精度,+5.6\%F1,PKU-MMDデータセット)で最先端の性能を達成することがわかった。さらに、LDAは既存の手法と互換性があり、その性能(例えば、LARaデータセットでは+4.8\%、+4.3\% F1)を追加の推論コストなしで改善する。

関連論文リスト

LIRA: Inferring Segmentation in Large Multi-modal Models with Local Interleaved Region Assistance [56.474856189865946]
大規模マルチモーダルモデル(LMM)は不正確なセグメンテーションと幻覚的理解に苦しむ。視覚的理解とセグメンテーションの相補的関係を生かしたフレームワークであるLIRAを提案する。 LIRAはセグメンテーションと理解タスクの両方で最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-07-08T07:46:26Z)
SemiDAViL: Semi-supervised Domain Adaptation with Vision-Language Guidance for Semantic Segmentation [9.311853182451289]
セマンティックセグメンテーションのための言語誘導半教師付きドメイン適応(SSDA)設定を提案する。我々は、視覚言語モデル(VLM)に固有の意味一般化機能を活用して、相乗的枠組みを確立する。提案手法は, 現代の SoTA (State-of-the-art) 手法に比較して, 大幅な性能向上を示す。
論文参考訳（メタデータ） (2025-04-08T19:14:34Z)
Cross-Domain Semantic Segmentation with Large Language Model-Assisted Descriptor Generation [0.0]
LangSegはコンテキストに敏感できめ細かいサブクラス記述子を利用する新しいセマンティックセマンティックセマンティクス手法である。我々はLangSegをADE20KとCOCO-Stuffという2つの挑戦的なデータセットで評価し、最先端のモデルよりも優れています。
論文参考訳（メタデータ） (2025-01-27T20:02:12Z)
Zero-Shot Skeleton-based Action Recognition with Dual Visual-Text Alignment [11.72557768532557]
ゼロショットアクション認識の鍵は、視覚的特徴をアクションカテゴリを表す意味ベクトルと整合させることにある。提案手法は、一般的なゼロショットスケルトンに基づく動作認識ベンチマークにおいて、最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2024-09-22T06:44:58Z)
Part-aware Unified Representation of Language and Skeleton for Zero-shot Action Recognition [57.97930719585095]
本稿では,PURLS(Part-aware Unified Representation between Language and Skeleton)を紹介する。本手法はスケルトン/言語のバックボーンと3つの大規模データセットを用いて評価する。その結果、PURLSの普遍性と優れた性能を示し、以前のスケルトンベースのソリューションと他のドメインからの標準ベースラインを上回った。
論文参考訳（メタデータ） (2024-06-19T08:22:32Z)
MASA: Motion-aware Masked Autoencoder with Semantic Alignment for Sign Language Recognition [94.56755080185732]
本研究では,リッチモーションキューとグローバルセマンティック情報を統合したセマンティックアライメント(MASA)を用いたMotion-Awareマスク付きオートエンコーダを提案する。我々のフレームワークは,包括的手話表現のための局所的な動きの手がかりとグローバルな意味的特徴を同時に学習することができる。
論文参考訳（メタデータ） (2024-05-31T08:06:05Z)
Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。 GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文参考訳（メタデータ） (2024-05-21T11:59:36Z)
ZEETAD: Adapting Pretrained Vision-Language Model for Zero-Shot End-to-End Temporal Action Detection [10.012716326383567]
時間的行動検出(TAD)は、未トリミングビデオ内のアクションインスタンスのローカライズと分類を含む。 ZEETADには2つのモジュールがあり、双対局在化とゼロショット提案分類という2つのモジュールがある。軽量なアダプタで冷凍したCLIPエンコーダを最小限に更新することで、未確認クラスの識別能力を向上する。
論文参考訳（メタデータ） (2023-11-01T00:17:37Z)
SemanticBoost: Elevating Motion Generation with Augmented Textual Cues [73.83255805408126]
我々のフレームワークはセマンティック・エンハンスメント・モジュールとコンテキスト調整型モーション・デノイザ(CAMD)から構成されている。 CAMDアプローチは、高品質でセマンティックに一貫性のあるモーションシーケンスを生成するための全エンコンパスソリューションを提供する。実験の結果,SemanticBoostは拡散法として自己回帰法よりも優れていることがわかった。
論文参考訳（メタデータ） (2023-10-31T09:58:11Z)
Text-to-Motion Retrieval: Towards Joint Understanding of Human Motion Data and Natural Language [4.86658723641864]
本研究では,特定の自然記述に基づいて関連動作を検索することを目的とした,新たなテキスト・ツー・モーション検索タスクを提案する。テキスト対画像/ビデオマッチングの最近の進歩に触発されて、広く採用されている2つのメトリック学習損失関数を実験した。
論文参考訳（メタデータ） (2023-05-25T08:32:41Z)
Modeling Motion with Multi-Modal Features for Text-Based Video Segmentation [56.41614987789537]
テキストベースのビデオセグメンテーションは、対象のオブジェクトを記述文に基づいてビデオに分割することを目的としている。本研究では, 正確なセグメンテーションを実現するために, 外観, 動き, 言語的特徴を融合, 整合させる手法を提案する。
論文参考訳（メタデータ） (2022-04-06T02:42:33Z)
Unsupervised Motion Representation Learning with Capsule Autoencoders [54.81628825371412]
Motion Capsule Autoencoder (MCAE) は、2レベル階層のモーションをモデル化する。 MCAEは、新しいTrajectory20モーションデータセットと、様々な現実世界の骨格に基づく人間のアクションデータセットで評価されている。
論文参考訳（メタデータ） (2021-10-01T16:52:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。