論文の概要: Multimodal Skeleton-Based Action Representation Learning via Decomposition and Composition
- arxiv url: http://arxiv.org/abs/2512.21064v1
- Date: Wed, 24 Dec 2025 09:10:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 19:43:21.744559
- Title: Multimodal Skeleton-Based Action Representation Learning via Decomposition and Composition
- Title(参考訳): 分解と合成によるマルチモーダル骨格に基づく行動表現学習
- Authors: Hongsong Wang, Heng Fei, Bingxuan Dai, Jie Gui,
- Abstract要約: 本稿では,自己教師型マルチモーダルスケルトンに基づく行動表現学習フレームワーク,Decomposition and Composingを紹介する。
提案手法は,計算コストとモデル性能のバランスが良好である。
- 参考スコア(独自算出の注目度): 23.335246964537223
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal human action understanding is a significant problem in computer vision, with the central challenge being the effective utilization of the complementarity among diverse modalities while maintaining model efficiency. However, most existing methods rely on simple late fusion to enhance performance, which results in substantial computational overhead. Although early fusion with a shared backbone for all modalities is efficient, it struggles to achieve excellent performance. To address the dilemma of balancing efficiency and effectiveness, we introduce a self-supervised multimodal skeleton-based action representation learning framework, named Decomposition and Composition. The Decomposition strategy meticulously decomposes the fused multimodal features into distinct unimodal features, subsequently aligning them with their respective ground truth unimodal counterparts. On the other hand, the Composition strategy integrates multiple unimodal features, leveraging them as self-supervised guidance to enhance the learning of multimodal representations. Extensive experiments on the NTU RGB+D 60, NTU RGB+D 120, and PKU-MMD II datasets demonstrate that the proposed method strikes an excellent balance between computational cost and model performance.
- Abstract(参考訳): マルチモーダルな人間の行動理解はコンピュータビジョンにおいて重要な問題であり、モデル効率を維持しながら、様々なモーダル間の相補性を効果的に活用することが主な課題である。
しかし、既存のほとんどの手法は、性能を高めるために単純なレイトフュージョンに依存しており、結果としてかなりの計算オーバーヘッドが生じる。
すべてのモダリティのための共有バックボーンとの初期の融合は効率的だが、優れたパフォーマンスを達成するのに苦労している。
効率性と効率性の両立するジレンマに対処するため,自己教師型マルチモーダルスケルトンに基づく行動表現学習フレームワークであるDecomposition and Composingを導入する。
分解戦略は、融合したマルチモーダル特徴を異なる単調な特徴に慎重に分解し、その後、それぞれの基底的真理な単調な特徴と整合させる。
一方、コンポジション戦略は複数の一助的特徴を統合し、それらを自己指導的指導として活用し、マルチモーダル表現の学習を強化する。
NTU RGB+D 60, NTU RGB+D 120, PKU-MMD IIデータセットの大規模な実験により, 提案手法は計算コストとモデル性能のバランスが良好であることを実証した。
関連論文リスト
- Amplifying Prominent Representations in Multimodal Learning via Variational Dirichlet Process [55.91649771370862]
ディリクレ過程(DP)混合モデルは、最も顕著な特徴を増幅できる強力な非パラメトリック法である。
本稿では,DP駆動型マルチモーダル学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-23T16:53:24Z) - Mixup Helps Understanding Multimodal Video Better [12.281180208753021]
マルチモーダルモデルは、学習を支配し、弱いモダリティの貢献を抑制する強力なモダリティを過度に適合させる傾向がある。
本稿では,多モード特徴量レベルでのMultimodal Mixup(MM)戦略を適用し,オーバーフィッティングを緩和する手法を提案する。
また,学習目標に対する相対的貢献に基づいて,各モードの混合比を動的に調整するバランスド・マルチモーダル・ミックスアップ(B-MM)を導入する。
論文 参考訳(メタデータ) (2025-10-13T03:53:25Z) - Asymmetric Reinforcing against Multi-modal Representation Bias [59.685072206359855]
マルチモーダル表現バイアス(ARM)に対する非対称強化法を提案する。
我々のARMは、条件付き相互情報を通じて支配的なモダリティを表現する能力を維持しながら、弱いモダリティを動的に強化する。
我々はマルチモーダル学習の性能を著しく改善し、不均衡なマルチモーダル学習の軽減に顕著な進展をもたらした。
論文 参考訳(メタデータ) (2025-01-02T13:00:06Z) - Balancing Multimodal Training Through Game-Theoretic Regularization [26.900302082724295]
マルチモーダル学習は、データソース間の依存関係をキャプチャすることで、よりリッチな情報抽出を約束する。
しかし、現在のトレーニング手法は、しばしばモダリティの競争によって性能が低下する。
本稿では、相互情報分解(MI)に触発されたMCR(Multimodal Competition Regularizer)を提案する。
論文 参考訳(メタデータ) (2024-11-11T19:53:05Z) - On-the-fly Modulation for Balanced Multimodal Learning [53.616094855778954]
マルチモーダル学習は、異なるモーダルからの情報を統合することでモデル性能を向上させることが期待されている。
広く使われている共同トレーニング戦略は、不均衡で最適化されていないユニモーダル表現につながる。
そこで本研究では,OGM(On-the-fly Prediction Modulation)とOGM(On-the-fly Gradient Modulation)の戦略を提案する。
論文 参考訳(メタデータ) (2024-10-15T13:15:50Z) - M$^2$PT: Multimodal Prompt Tuning for Zero-shot Instruction Learning [90.75075886543404]
MLLM(Multimodal Large Language Models)は、幅広い領域にわたる顕著なパフォーマンスを示す。
本研究では,MLLMの効率的な命令チューニングのための新しいMultimodal Prompt Tuning (M$2$PT) 手法を提案する。
論文 参考訳(メタデータ) (2024-09-24T01:40:24Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。