論文の概要: CLIP-MG: Guiding Semantic Attention with Skeletal Pose Features and RGB Data for Micro-Gesture Recognition on the iMiGUE Dataset
- arxiv url: http://arxiv.org/abs/2506.16385v1
- Date: Thu, 19 Jun 2025 15:16:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:05.126452
- Title: CLIP-MG: Guiding Semantic Attention with Skeletal Pose Features and RGB Data for Micro-Gesture Recognition on the iMiGUE Dataset
- Title(参考訳): CLIP-MG: iMiGUEデータセット上のマイクロジェスチャ認識のための骨格ポーズ特徴とRGBデータによる意味的注意の誘導
- Authors: Santosh Patapati, Trisanth Srinivasan, Amith Adiraju,
- Abstract要約: マイクロジェスチャ認識のためのCLIP(Pose-Guided Semantics-Aware CLIP-based Architecture)を提案する。
CLIP-MGは、iMiGUEデータセット上でのマイクロジェスチャ分類に適した修正CLIPモデルである。
提案モデルでは,Top-1の精度が61.82%である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Micro-gesture recognition is a challenging task in affective computing due to the subtle, involuntary nature of the gestures and their low movement amplitude. In this paper, we introduce a Pose-Guided Semantics-Aware CLIP-based architecture, or CLIP for Micro-Gesture recognition (CLIP-MG), a modified CLIP model tailored for micro-gesture classification on the iMiGUE dataset. CLIP-MG integrates human pose (skeleton) information into the CLIP-based recognition pipeline through pose-guided semantic query generation and a gated multi-modal fusion mechanism. The proposed model achieves a Top-1 accuracy of 61.82%. These results demonstrate both the potential of our approach and the remaining difficulty in fully adapting vision-language models like CLIP for micro-gesture recognition.
- Abstract(参考訳): ジェスチャーの微妙で不随意な性質と動きの振幅が低いことから, 微小姿勢認識は感情コンピューティングにおいて難しい課題である。
本稿では,iMiGUEデータセットを用いたマイクロジェスチャー分類に適したCLIPモデルであるCLIP for Micro-Gesture Recognition (CLIP-MG)を提案する。
CLIP-MGは、ポーズ誘導セマンティッククエリ生成とゲートマルチモーダル融合機構を通じて、人間のポーズ(骨格)情報をCLIPベースの認識パイプラインに統合する。
提案モデルでは,Top-1の精度が61.82%である。
これらの結果は、我々のアプローチの可能性と、CLIPのような視覚言語モデルを完全に適応させることの難しさの両方を示している。
関連論文リスト
- Distill CLIP (DCLIP): Enhancing Image-Text Retrieval via Cross-Modal Transformer Distillation [4.063715077687089]
Distill CLIP (DCLIP) はCLIPモデルの微調整版である。
オリジナルのモデルの強力なゼロショット分類機能を保ちながら、マルチモーダルな画像テキスト検索を強化する。
論文 参考訳(メタデータ) (2025-05-25T07:08:07Z) - MSCI: Addressing CLIP's Inherent Limitations for Compositional Zero-Shot Learning [8.021031339658492]
構成ゼロショット学習は、既知の組み合わせを活用して、目に見えない状態オブジェクトの組み合わせを認識することを目的としている。
既存の研究は基本的にCLIPのクロスモーダルアライメント機能に依存している。
本稿では,CLIPのビジュアルエンコーダの中間層情報を効果的に探索し,活用する多段階クロスモーダルインタラクションモデルを提案する。
論文 参考訳(メタデータ) (2025-05-15T13:36:42Z) - DiffCLIP: Differential Attention Meets CLIP [57.396578974401734]
本稿では,CLIPアーキテクチャに差分アテンション機構を拡張する新しい視覚言語モデルであるDiffCLIPを提案する。
最小限の追加パラメータで、DiffCLIPは画像テキスト理解タスクにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-03-09T14:04:09Z) - Mesoscopic Insights: Orchestrating Multi-scale & Hybrid Architecture for Image Manipulation Localization [45.99713338249702]
メソスコピックレベルは、マクロと顕微鏡の世界の間の橋渡しとして機能し、両者が見落としているギャップに対処する。
そこで本研究では,IMLのためのマイクロおよびマクロ情報のメソスコピック表現を同時に構築する方法について検討する。
私たちのモデルは、パフォーマンス、計算複雑性、堅牢性の観点から、現在の最先端のモデルを超えています。
論文 参考訳(メタデータ) (2024-12-18T11:43:41Z) - Demystifying CLIP Data [86.34045746910114]
Contrastive Language-Image Pre-Training (CLIP) はコンピュータビジョンの先進的な研究と応用を行っている。
メタデータ変換言語画像事前学習(MetaCLIP)について紹介する。
MetaCLIPは生のデータプールとメタデータ(CLIPの概念から派生したもの)を取り、メタデータの分布に対してバランスの取れたサブセットを生成する。
論文 参考訳(メタデータ) (2023-09-28T17:59:56Z) - Face Recognition in the age of CLIP & Billion image datasets [0.0]
種々のCLIPモデルの性能をゼロショット顔認識器として評価する。
また,データ中毒に対するCLIPモデルの堅牢性についても検討した。
論文 参考訳(メタデータ) (2023-01-18T05:34:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。