Fugu-MT 論文翻訳(概要): TDSM:Triplet Diffusion for Skeleton-Text Matching in Zero-Shot Action Recognition

論文の概要: TDSM:Triplet Diffusion for Skeleton-Text Matching in Zero-Shot Action Recognition

arxiv url: http://arxiv.org/abs/2411.10745v1
Date: Sat, 16 Nov 2024 08:55:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:48.333055
Title: TDSM:Triplet Diffusion for Skeleton-Text Matching in Zero-Shot Action Recognition
Title（参考訳）: TDSM:ゼロショット動作認識における骨格テキストマッチングのためのトリプレット拡散
Authors: Jeonghyeok Do, Munchurl Kim,
Abstract要約: ゼロショットスケルトンに基づくアクション認識では、見えないアクションを正確に予測するためには、スケルトン特徴とアクションラベルのテキスト特徴との整合が不可欠である。本フレームワークは,スケルトン・テキストマッチング(TDSM)方式のトリプルト拡散として設計されており,スケルトンの特徴を逆拡散によるテキストプロンプトと整合させる。識別力を高めるために,TDSMが不正確な3重項拡散(TD)損失を生じさせ,不正確な3重項拡散(TD)を推し進める。
参考スコア（独自算出の注目度）: 25.341177384559174
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We firstly present a diffusion-based action recognition with zero-shot learning for skeleton inputs. In zero-shot skeleton-based action recognition, aligning skeleton features with the text features of action labels is essential for accurately predicting unseen actions. Previous methods focus on direct alignment between skeleton and text latent spaces, but the modality gaps between these spaces hinder robust generalization learning. Motivated from the remarkable performance of text-to-image diffusion models, we leverage their alignment capabilities between different modalities mostly by focusing on the training process during reverse diffusion rather than using their generative power. Based on this, our framework is designed as a Triplet Diffusion for Skeleton-Text Matching (TDSM) method which aligns skeleton features with text prompts through reverse diffusion, embedding the prompts into the unified skeleton-text latent space to achieve robust matching. To enhance discriminative power, we introduce a novel triplet diffusion (TD) loss that encourages our TDSM to correct skeleton-text matches while pushing apart incorrect ones. Our TDSM significantly outperforms the very recent state-of-the-art methods with large margins of 2.36%-point to 13.05%-point, demonstrating superior accuracy and scalability in zero-shot settings through effective skeleton-text matching.
Abstract（参考訳）: まず,骨格入力に対するゼロショット学習を用いた拡散に基づく行動認識を提案する。ゼロショットスケルトンに基づくアクション認識では、見えないアクションを正確に予測するためには、スケルトン特徴とアクションラベルのテキスト特徴との整合が不可欠である。従来の手法では、スケルトンとテキスト潜在空間の直接的なアライメントに焦点が当てられていたが、これらの空間間のモダリティギャップは、堅牢な一般化学習を妨げる。テキストと画像の拡散モデルの顕著な性能から動機づけられた我々は、その生成力ではなく、主に逆拡散中のトレーニングプロセスに焦点を当てることで、異なるモード間のアライメント能力を活用する。そこで本フレームワークは,スケルトン・テキストマッチングのためのトリプルト拡散法(TDSM)として設計されており,スケルトン特徴を逆拡散によりテキストプロンプトと整列させ,スケルトン・テキスト潜在空間にプロンプトを埋め込んでロバストマッチングを実現する。識別力を高めるために,TDSMが不正確な3重項拡散(TD)損失を生じさせ,不正確な3重項拡散(TD)を推し進める。我々のTDSMは、2.36%ポイントから13.05%ポイントという非常に最近の最先端の手法よりも優れており、効率的なスケルトンテキストマッチングによってゼロショット設定の精度とスケーラビリティが向上している。

関連論文リスト

TripleFDS: Triple Feature Disentanglement and Synthesis for Scene Text Editing [56.73004765030206]
STE(Scene Text Editing)は、視覚的一貫性を維持しながら、画像中のテキストを自然に修正することを目的としている。本稿では,モジュラー属性をアンタングル化したSTEのための新しいフレームワークであるTripleFDSを提案する。 TripleFDSは、メインストリームのSTEベンチマークで最先端の画像忠実度(SSIM 44.54)とテキスト精度(ACC 93.58%)を達成する。
論文参考訳（メタデータ） (2025-11-17T14:15:03Z)
Learning by Neighbor-Aware Semantics, Deciding by Open-form Flows: Towards Robust Zero-Shot Skeleton Action Recognition [41.77490816513839]
ゼロショットスケルトン動作認識のための新しい手法を,$texttt$textbfFlora$$として提案する。具体的には、方向対応の地域意味論と相互整合性目標を取り入れたテキスト意味論を実践する。 3つのベンチマークデータセットによる実験により,本手法の有効性が検証された。
論文参考訳（メタデータ） (2025-11-12T14:54:53Z)
Zero-Shot Skeleton-Based Action Recognition With Prototype-Guided Feature Alignment [33.06899506252672]
ゼロショットスケルトンに基づくアクション認識は、トレーニング中にそのようなカテゴリに事前に触れることなく、目に見えないスケルトンに基づく人間のアクションを分類することを目的としている。従来の研究では2段階のトレーニングが用いられており、例えば、クロスエントロピー損失を用いたアクションカテゴリのスケルトンエンコーダの事前訓練、抽出されたスケルトンとテキストの特徴の整列などである。 PGFAと呼ばれるゼロショット骨格に基づく行動認識のためのプロトタイプ誘導型特徴アライメントパラダイムを提案する。
論文参考訳（メタデータ） (2025-07-01T08:34:35Z)
Frequency-Semantic Enhanced Variational Autoencoder for Zero-Shot Skeleton-based Action Recognition [11.11236920942621]
ゼロショットスケルトンに基づくアクション認識は、トレーニング中に遭遇するカテゴリを超えてアクションを特定することを目的としている。従来のアプローチは主に視覚的表現と意味的表現の整合に重点を置いてきた。本稿では,周波数分解を用いたスケルトン意味表現学習のための周波数意味拡張変分オートエンコーダ (FS-VAE) を提案する。
論文参考訳（メタデータ） (2025-06-27T12:44:08Z)
Rethinking Cross-Modal Interaction in Multimodal Diffusion Transformers [79.94246924019984]
マルチモーダル拡散変換器 (MM-DiT) はテキスト駆動型視覚生成において顕著な進歩を遂げている。マルチモーダルインタラクションを動的に再バランスするパラメータ効率向上手法である textbfTemperature-Adjusted Cross-modal Attention (TACA) を提案する。本研究は,テキスト・画像拡散モデルにおける意味的忠実度向上における相互注意のバランスの重要性を強調した。
論文参考訳（メタデータ） (2025-06-09T17:54:04Z)
Enhancing Cross-Tokenizer Knowledge Distillation with Contextual Dynamical Mapping [85.48043537327258]
コンテキスト動的マッピング(CDM)は、新しいクロストケナイザー蒸留フレームワークである。文脈情報を用いてシーケンスアライメントの精度を高め、語彙マッピングを動的に改善する。本手法は, 種々のベンチマークにおいて, 既存のクロストケナイザー蒸留ベースラインに対して有意な優位性を示す。
論文参考訳（メタデータ） (2025-02-16T12:46:07Z)
Zero-Shot Skeleton-based Action Recognition with Dual Visual-Text Alignment [11.72557768532557]
ゼロショットアクション認識の鍵は、視覚的特徴をアクションカテゴリを表す意味ベクトルと整合させることにある。提案手法は、一般的なゼロショットスケルトンに基づく動作認識ベンチマークにおいて、最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2024-09-22T06:44:58Z)
SA-DVAE: Improving Zero-Shot Skeleton-Based Action Recognition by Disentangled Variational Autoencoders [7.618223798662929]
本稿では,分散変分オートエンコーダを用いたSA-DVAE-セマンティックアライメントを提案する。このアイデアは,一対のモダリティ特異的変分オートエンコーダと全補正ペナルティによって実現される。実験の結果,SA-DAVEは既存手法よりも性能が向上していることがわかった。
論文参考訳（メタデータ） (2024-07-18T12:35:46Z)
Part-aware Unified Representation of Language and Skeleton for Zero-shot Action Recognition [57.97930719585095]
本稿では,PURLS(Part-aware Unified Representation between Language and Skeleton)を紹介する。本手法はスケルトン/言語のバックボーンと3つの大規模データセットを用いて評価する。その結果、PURLSの普遍性と優れた性能を示し、以前のスケルトンベースのソリューションと他のドメインからの標準ベースラインを上回った。
論文参考訳（メタデータ） (2024-06-19T08:22:32Z)
Spatial Semantic Recurrent Mining for Referring Image Segmentation [63.34997546393106]
高品質なクロスモーダリティ融合を実現するために,Stextsuperscript2RMを提案する。これは、言語特徴の分散、空間的意味的再帰的分離、パーセマンティック・セマンティック・バランシングという三部作の作業戦略に従う。提案手法は他の最先端アルゴリズムに対して好適に機能する。
論文参考訳（メタデータ） (2024-05-15T00:17:48Z)
High-Fidelity Speech Synthesis with Minimal Supervision: All Using Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文参考訳（メタデータ） (2023-09-27T09:27:03Z)
MaskDiffusion: Boosting Text-to-Image Consistency with Conditional Mask [84.84034179136458]
テキスト・イメージのミスマッチ問題に繋がる重要な要因は、モダリティ間の関係学習の不十分さである。本稿では,注目マップと迅速な埋め込みを条件とした適応マスクを提案し,画像特徴に対する各テキストトークンの寄与度を動的に調整する。この手法はMaskDiffusionと呼ばれ、トレーニング不要で、一般的な事前学習拡散モデルに対してホットプラグ可能である。
論文参考訳（メタデータ） (2023-09-08T15:53:37Z)
Three ways to improve feature alignment for open vocabulary detection [88.65076922242184]
ゼロショットオープンボキャブラリ検出の鍵となる問題は、視覚的特徴とテキスト的特徴の整合性である。以前のアプローチでは、特徴ピラミッドと検出ヘッドをゼロからトレーニングし、事前トレーニング中に確立された視覚テキストの特徴アライメントを壊す。本稿では,これらの問題を緩和する3つの方法を提案する。まず,テキストの埋め込みを強化するための簡単なスキームを用いて,学習中に見られる少数のクラスへの過度な適合を防止する。次に、特徴ピラミッドネットワークと検出ヘッドをトレーニング可能なショートカットを含むように変更する。最後に、より大きなコーパスを活用するために、自己学習アプローチが使用される。
論文参考訳（メタデータ） (2023-03-23T17:59:53Z)
Self-supervised Action Representation Learning from Partial Spatio-Temporal Skeleton Sequences [29.376328807860993]
本研究では,異なる骨格関節とビデオフレームの局所的関係を利用した部分的時空間学習(PSTL)フレームワークを提案する。提案手法は, NTURGB+D 60, NTURGBMM+D 120, PKU-Dのダウンストリームタスクにおける最先端性能を実現する。
論文参考訳（メタデータ） (2023-02-17T17:35:05Z)
Self-supervised Character-to-Character Distillation for Text Recognition [54.12490492265583]
そこで本研究では,テキスト表現学習を容易にする汎用的な拡張を可能にする,自己教師型文字-文字-文字間蒸留法CCDを提案する。 CCDは、テキスト認識の1.38%、テキストセグメンテーションの1.7%、PSNRの0.24dB、超解像の0.0321(SSIM)で、最先端の結果を達成する。
論文参考訳（メタデータ） (2022-11-01T05:48:18Z)
Contrastive Learning from Spatio-Temporal Mixed Skeleton Sequences for Self-Supervised Skeleton-Based Action Recognition [21.546894064451898]
通常の拡張に基づくコントラストペアを直接拡張すると、性能の面ではリターンが制限されることが示される。我々は,現在のコントラスト学習アプローチを補完する時間的スケルトン混合強化(SkeleMix)を備えたコントラスト学習フレームワークであるSkeleMixCLRを提案する。
論文参考訳（メタデータ） (2022-07-07T03:18:09Z)
SimMC: Simple Masked Contrastive Learning of Skeleton Representations for Unsupervised Person Re-Identification [63.903237777588316]
SimMC(Simple Masked Contrastive Learning)フレームワークを提案する。具体的には、各骨格配列内の骨格の特徴を完全に活用するために、まずマスク付きプロトタイプコントラスト学習(MPC)方式を考案する。そこで我々は,サブシーケンス間のシーケンス内パターンの整合性を捉えるために,マスク付きシーケンス内コントラスト学習(MIC)を提案する。
論文参考訳（メタデータ） (2022-04-21T00:19:38Z)
Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文参考訳（メタデータ） (2021-10-04T03:59:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。