論文の概要: CoCoDiff: Diversifying Skeleton Action Features via Coarse-Fine Text-Co-Guided Latent Diffusion
- arxiv url: http://arxiv.org/abs/2504.21266v1
- Date: Wed, 30 Apr 2025 02:50:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 22:49:30.470222
- Title: CoCoDiff: Diversifying Skeleton Action Features via Coarse-Fine Text-Co-Guided Latent Diffusion
- Title(参考訳): CoCoDiff: 粗片テキストコガイド遅延拡散による骨格作用の多様化
- Authors: Zhifu Zhao, Hanyang Hua, Jianan Li, Shaoxin Wu, Fu Li, Yangtao Zhou, Yang Li,
- Abstract要約: 行動認識タスクでは,特徴の多様性がモデル一般化と性能の向上に不可欠である。
本稿では,多種多様だが意味的に一貫性のある特徴を生成するために,コーパスファインテキスト共誘導拡散モデル(CoDiff)を提案する。
CoDiffは、訓練中にプラグプレイ補助モジュールとして動作し、追加の推論コストは発生しない。
- 参考スコア(独自算出の注目度): 22.194089497872746
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In action recognition tasks, feature diversity is essential for enhancing model generalization and performance. Existing methods typically promote feature diversity by expanding the training data in the sample space, which often leads to inefficiencies and semantic inconsistencies. To overcome these problems, we propose a novel Coarse-fine text co-guidance Diffusion model (CoCoDiff). CoCoDiff generates diverse yet semantically consistent features in the latent space by leveraging diffusion and multi-granularity textual guidance. Specifically, our approach feeds spatio-temporal features extracted from skeleton sequences into a latent diffusion model to generate diverse action representations. Meanwhile, we introduce a coarse-fine text co-guided strategy that leverages textual information from large language models (LLMs) to ensure semantic consistency between the generated features and the original inputs. It is noted that CoCoDiff operates as a plug-and-play auxiliary module during training, incurring no additional inference cost. Extensive experiments demonstrate that CoCoDiff achieves SOTA performance on skeleton-based action recognition benchmarks, including NTU RGB+D, NTU RGB+D 120 and Kinetics-Skeleton.
- Abstract(参考訳): 行動認識タスクでは,特徴の多様性がモデル一般化と性能の向上に不可欠である。
既存の手法は典型的には、サンプル空間のトレーニングデータを拡大することで特徴の多様性を促進し、しばしば非効率性と意味的不整合をもたらす。
これらの問題を克服するため、我々はCoCoDiff(CoCoDiff)という新しい粗大テキスト共誘導拡散モデルを提案する。
CoCoDiffは拡散と多粒性テキストガイダンスを利用して、潜在空間において多様だが意味的に一貫した特徴を生成する。
具体的には,骨格配列から抽出した時空間的特徴を潜在拡散モデルに供給し,多様な行動表現を生成する。
一方,大言語モデル(LLM)からのテキスト情報を活用し,生成した特徴と元の入力とのセマンティックな一貫性を確保するための,粗大なテキスト協調型戦略を導入する。
CoCoDiffは、訓練中にプラグアンドプレイ補助モジュールとして動作し、追加の推論コストは発生しない。
大規模な実験により、CoCoDiffはNTU RGB+D、NTU RGB+D 120、Kinetics-Skeletonなどの骨格に基づく行動認識ベンチマークでSOTA性能を達成した。
関連論文リスト
- Deep Modularity Networks with Diversity--Preserving Regularization [4.659251704980846]
本稿では、クラスタ間分離のための距離ベース、クラスタ内多様性のための分散ベース、バランスの取れた割り当てのためのエントロピーベースという3つの新しい正規化用語を導入し、多様性を保ったDMoN-DPR(Deep Modularity Networks with Diversity-Preserving Regularization)を提案する。
本手法は,ベンチマークデータセットのクラスタリング性能を向上し,正規化相互情報(NMI)とF1スコアの大幅な改善を実現している。
これらの結果は、特に特徴豊富なデータセットにおいて、有意義で解釈可能なクラスタの作成において、多様性を保った正規化を組み込むことの有効性を示す。
論文 参考訳(メタデータ) (2025-01-23T08:05:59Z) - Optimizing Speech Multi-View Feature Fusion through Conditional Computation [51.23624575321469]
自己教師付き学習(SSL)機能は、軽量で多目的な多視点音声表現を提供する。
SSLは、FBanksのような従来のスペクトル機能とアップデートの方向で競合する。
本稿では,条件計算に基づく新しい一般化された特徴融合フレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-14T12:12:06Z) - Diffusion Features to Bridge Domain Gap for Semantic Segmentation [2.8616666231199424]
本稿では, 拡散モデルの特徴を効率的に活用するために, サンプリングおよび融合技術を活用するアプローチについて検討する。
テキスト・画像生成能力の強みを生かして、暗黙的に後部知識を学習する新しいトレーニングフレームワークを導入する。
論文 参考訳(メタデータ) (2024-06-02T15:33:46Z) - Modality Prompts for Arbitrary Modality Salient Object Detection [57.610000247519196]
本論文は、任意のモーダリティ・サリエント物体検出(AM SOD)の課題について述べる。
任意のモダリティ、例えばRGBイメージ、RGB-Dイメージ、RGB-D-Tイメージから有能なオブジェクトを検出することを目的としている。
AM SODの2つの基本的な課題を解明するために,新しいモード適応トランス (MAT) を提案する。
論文 参考訳(メタデータ) (2024-05-06T11:02:02Z) - Unified Generation, Reconstruction, and Representation: Generalized Diffusion with Adaptive Latent Encoding-Decoding [90.77521413857448]
深層生成モデルは,3つのコア機能 – 新たなインスタンスの生成,入力の再構築,コンパクト表現の学習 – に固定されている。
一般化逆変換拡散確率モデル(EDDPM)を導入する。
EDDPMはパラメタライズされた符号化復号を導入することで標準拡散におけるガウス雑音化を一般化する。
テキスト、タンパク質、画像の実験は、多様なデータやタスクを扱う柔軟性を示している。
論文 参考訳(メタデータ) (2024-02-29T10:08:57Z) - Non-Cross Diffusion for Semantic Consistency [12.645444338043934]
常微分方程式(ODE)モデルを学習するための生成モデリングにおける革新的アプローチであるNon-Cross Diffusionを導入する。
提案手法は,2つの分布からサンプリングされた点を非交差経路で効果的に接続する,入力の上昇次元を戦略的に組み込む。
論文 参考訳(メタデータ) (2023-11-30T05:53:39Z) - Leveraging Diffusion Disentangled Representations to Mitigate Shortcuts
in Underspecified Visual Tasks [92.32670915472099]
拡散確率モデル(DPM)を用いた合成カウンターファクトの生成を利用したアンサンブルの多様化フレームワークを提案する。
拡散誘導型分散化は,データ収集を必要とする従来の手法に匹敵するアンサンブル多様性を達成し,ショートカットからの注意を回避できることを示す。
論文 参考訳(メタデータ) (2023-10-03T17:37:52Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - Collaborative Training of GANs in Continuous and Discrete Spaces for
Text Generation [21.435286755934534]
本稿では,連続空間と離散空間の協調学習を促進する新しいテキストGANアーキテクチャを提案する。
我々のモデルは、品質、多様性、グローバルな一貫性に関して、最先端のGANよりも大幅に優れています。
論文 参考訳(メタデータ) (2020-10-16T07:51:16Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。