論文の概要: TDSM: Triplet Diffusion for Skeleton-Text Matching in Zero-Shot Action Recognition
- arxiv url: http://arxiv.org/abs/2411.10745v2
- Date: Fri, 22 Nov 2024 15:49:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-25 15:01:10.196294
- Title: TDSM: Triplet Diffusion for Skeleton-Text Matching in Zero-Shot Action Recognition
- Title(参考訳): TDSM:ゼロショット動作認識における骨格テキストマッチングのためのトリプルト拡散
- Authors: Jeonghyeok Do, Munchurl Kim,
- Abstract要約: ゼロショットスケルトンに基づくアクション認識では、見えないアクションを正確に予測するためには、スケルトン特徴とアクションラベルのテキスト特徴との整合が不可欠である。
本フレームワークは,スケルトン・テキストマッチング(TDSM)方式のトリプルト拡散として設計されており,スケルトンの特徴を逆拡散によるテキストプロンプトと整合させる。
識別力を高めるために,TDSMが不正確な3重項拡散(TD)損失を生じさせ,不正確な3重項拡散(TD)を推し進める。
- 参考スコア(独自算出の注目度): 25.341177384559174
- License:
- Abstract: We firstly present a diffusion-based action recognition with zero-shot learning for skeleton inputs. In zero-shot skeleton-based action recognition, aligning skeleton features with the text features of action labels is essential for accurately predicting unseen actions. Previous methods focus on direct alignment between skeleton and text latent spaces, but the modality gaps between these spaces hinder robust generalization learning. Motivated from the remarkable performance of text-to-image diffusion models, we leverage their alignment capabilities between different modalities mostly by focusing on the training process during reverse diffusion rather than using their generative power. Based on this, our framework is designed as a Triplet Diffusion for Skeleton-Text Matching (TDSM) method which aligns skeleton features with text prompts through reverse diffusion, embedding the prompts into the unified skeleton-text latent space to achieve robust matching. To enhance discriminative power, we introduce a novel triplet diffusion (TD) loss that encourages our TDSM to correct skeleton-text matches while pushing apart incorrect ones. Our TDSM significantly outperforms the very recent state-of-the-art methods with large margins of 2.36%-point to 13.05%-point, demonstrating superior accuracy and scalability in zero-shot settings through effective skeleton-text matching.
- Abstract(参考訳): まず,骨格入力に対するゼロショット学習を用いた拡散に基づく行動認識を提案する。
ゼロショットスケルトンに基づくアクション認識では、見えないアクションを正確に予測するためには、スケルトン特徴とアクションラベルのテキスト特徴との整合が不可欠である。
従来の手法では、スケルトンとテキスト潜在空間の直接的なアライメントに焦点が当てられていたが、これらの空間間のモダリティギャップは、堅牢な一般化学習を妨げる。
テキストと画像の拡散モデルの顕著な性能から動機づけられた我々は、その生成力ではなく、主に逆拡散中のトレーニングプロセスに焦点を当てることで、異なるモード間のアライメント能力を活用する。
そこで本フレームワークは,スケルトン・テキストマッチングのためのトリプルト拡散法(TDSM)として設計されており,スケルトン特徴を逆拡散によりテキストプロンプトと整列させ,スケルトン・テキスト潜在空間にプロンプトを埋め込んでロバストマッチングを実現する。
識別力を高めるために,TDSMが不正確な3重項拡散(TD)損失を生じさせ,不正確な3重項拡散(TD)を推し進める。
我々のTDSMは、2.36%ポイントから13.05%ポイントという非常に最近の最先端の手法よりも優れており、効率的なスケルトンテキストマッチングによってゼロショット設定の精度とスケーラビリティが向上している。
関連論文リスト
- Zero-Shot Skeleton-based Action Recognition with Dual Visual-Text Alignment [11.72557768532557]
ゼロショットアクション認識の鍵は、視覚的特徴をアクションカテゴリを表す意味ベクトルと整合させることにある。
提案手法は、一般的なゼロショットスケルトンに基づく動作認識ベンチマークにおいて、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-09-22T06:44:58Z) - SA-DVAE: Improving Zero-Shot Skeleton-Based Action Recognition by Disentangled Variational Autoencoders [7.618223798662929]
本稿では,分散変分オートエンコーダを用いたSA-DVAE-セマンティックアライメントを提案する。
このアイデアは,一対のモダリティ特異的変分オートエンコーダと全補正ペナルティによって実現される。
実験の結果,SA-DAVEは既存手法よりも性能が向上していることがわかった。
論文 参考訳(メタデータ) (2024-07-18T12:35:46Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - MaskDiffusion: Boosting Text-to-Image Consistency with Conditional Mask [84.84034179136458]
テキスト・イメージのミスマッチ問題に繋がる重要な要因は、モダリティ間の関係学習の不十分さである。
本稿では,注目マップと迅速な埋め込みを条件とした適応マスクを提案し,画像特徴に対する各テキストトークンの寄与度を動的に調整する。
この手法はMaskDiffusionと呼ばれ、トレーニング不要で、一般的な事前学習拡散モデルに対してホットプラグ可能である。
論文 参考訳(メタデータ) (2023-09-08T15:53:37Z) - Three ways to improve feature alignment for open vocabulary detection [88.65076922242184]
ゼロショットオープンボキャブラリ検出の鍵となる問題は、視覚的特徴とテキスト的特徴の整合性である。
以前のアプローチでは、特徴ピラミッドと検出ヘッドをゼロからトレーニングし、事前トレーニング中に確立された視覚テキストの特徴アライメントを壊す。
本稿では,これらの問題を緩和する3つの方法を提案する。まず,テキストの埋め込みを強化するための簡単なスキームを用いて,学習中に見られる少数のクラスへの過度な適合を防止する。
次に、特徴ピラミッドネットワークと検出ヘッドをトレーニング可能なショートカットを含むように変更する。
最後に、より大きなコーパスを活用するために、自己学習アプローチが使用される。
論文 参考訳(メタデータ) (2023-03-23T17:59:53Z) - Self-supervised Action Representation Learning from Partial
Spatio-Temporal Skeleton Sequences [29.376328807860993]
本研究では,異なる骨格関節とビデオフレームの局所的関係を利用した部分的時空間学習(PSTL)フレームワークを提案する。
提案手法は, NTURGB+D 60, NTURGBMM+D 120, PKU-Dのダウンストリームタスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-02-17T17:35:05Z) - Self-supervised Character-to-Character Distillation for Text Recognition [54.12490492265583]
そこで本研究では,テキスト表現学習を容易にする汎用的な拡張を可能にする,自己教師型文字-文字-文字間蒸留法CCDを提案する。
CCDは、テキスト認識の1.38%、テキストセグメンテーションの1.7%、PSNRの0.24dB、超解像の0.0321(SSIM)で、最先端の結果を達成する。
論文 参考訳(メタデータ) (2022-11-01T05:48:18Z) - Contrastive Learning from Spatio-Temporal Mixed Skeleton Sequences for
Self-Supervised Skeleton-Based Action Recognition [21.546894064451898]
通常の拡張に基づくコントラストペアを直接拡張すると、性能の面ではリターンが制限されることが示される。
我々は,現在のコントラスト学習アプローチを補完する時間的スケルトン混合強化(SkeleMix)を備えたコントラスト学習フレームワークであるSkeleMixCLRを提案する。
論文 参考訳(メタデータ) (2022-07-07T03:18:09Z) - SimMC: Simple Masked Contrastive Learning of Skeleton Representations
for Unsupervised Person Re-Identification [63.903237777588316]
SimMC(Simple Masked Contrastive Learning)フレームワークを提案する。
具体的には、各骨格配列内の骨格の特徴を完全に活用するために、まずマスク付きプロトタイプコントラスト学習(MPC)方式を考案する。
そこで我々は,サブシーケンス間のシーケンス内パターンの整合性を捉えるために,マスク付きシーケンス内コントラスト学習(MIC)を提案する。
論文 参考訳(メタデータ) (2022-04-21T00:19:38Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。