論文の概要: CLIP-MG: Guiding Semantic Attention with Skeletal Pose Features and RGB Data for Micro-Gesture Recognition on the iMiGUE Dataset
- arxiv url: http://arxiv.org/abs/2506.16385v1
- Date: Thu, 19 Jun 2025 15:16:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:05.126452
- Title: CLIP-MG: Guiding Semantic Attention with Skeletal Pose Features and RGB Data for Micro-Gesture Recognition on the iMiGUE Dataset
- Title(参考訳): CLIP-MG: iMiGUEデータセット上のマイクロジェスチャ認識のための骨格ポーズ特徴とRGBデータによる意味的注意の誘導
- Authors: Santosh Patapati, Trisanth Srinivasan, Amith Adiraju,
- Abstract要約: マイクロジェスチャ認識のためのCLIP(Pose-Guided Semantics-Aware CLIP-based Architecture)を提案する。
CLIP-MGは、iMiGUEデータセット上でのマイクロジェスチャ分類に適した修正CLIPモデルである。
提案モデルでは,Top-1の精度が61.82%である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Micro-gesture recognition is a challenging task in affective computing due to the subtle, involuntary nature of the gestures and their low movement amplitude. In this paper, we introduce a Pose-Guided Semantics-Aware CLIP-based architecture, or CLIP for Micro-Gesture recognition (CLIP-MG), a modified CLIP model tailored for micro-gesture classification on the iMiGUE dataset. CLIP-MG integrates human pose (skeleton) information into the CLIP-based recognition pipeline through pose-guided semantic query generation and a gated multi-modal fusion mechanism. The proposed model achieves a Top-1 accuracy of 61.82%. These results demonstrate both the potential of our approach and the remaining difficulty in fully adapting vision-language models like CLIP for micro-gesture recognition.
- Abstract(参考訳): ジェスチャーの微妙で不随意な性質と動きの振幅が低いことから, 微小姿勢認識は感情コンピューティングにおいて難しい課題である。
本稿では,iMiGUEデータセットを用いたマイクロジェスチャー分類に適したCLIPモデルであるCLIP for Micro-Gesture Recognition (CLIP-MG)を提案する。
CLIP-MGは、ポーズ誘導セマンティッククエリ生成とゲートマルチモーダル融合機構を通じて、人間のポーズ(骨格)情報をCLIPベースの認識パイプラインに統合する。
提案モデルでは,Top-1の精度が61.82%である。
これらの結果は、我々のアプローチの可能性と、CLIPのような視覚言語モデルを完全に適応させることの難しさの両方を示している。
関連論文リスト
- Closing the Modality Gap for Mixed Modality Search [47.00880557856163]
混合モダリティ探索タスクにおいて,CLIPなどの視覚言語モデルがどのように機能するかを検討する。
これらのモデルは埋め込み空間において顕著なモダリティギャップを示す。
本稿では,CLIPの埋め込み空間におけるモダリティギャップを取り除く軽量なポストホックキャリブレーション法GR-CLIPを提案する。
論文 参考訳(メタデータ) (2025-07-25T08:15:28Z) - Distill CLIP (DCLIP): Enhancing Image-Text Retrieval via Cross-Modal Transformer Distillation [4.063715077687089]
Distill CLIP (DCLIP) はCLIPモデルの微調整版である。
オリジナルのモデルの強力なゼロショット分類機能を保ちながら、マルチモーダルな画像テキスト検索を強化する。
論文 参考訳(メタデータ) (2025-05-25T07:08:07Z) - MSCI: Addressing CLIP's Inherent Limitations for Compositional Zero-Shot Learning [8.021031339658492]
構成ゼロショット学習は、既知の組み合わせを活用して、目に見えない状態オブジェクトの組み合わせを認識することを目的としている。
既存の研究は基本的にCLIPのクロスモーダルアライメント機能に依存している。
本稿では,CLIPのビジュアルエンコーダの中間層情報を効果的に探索し,活用する多段階クロスモーダルインタラクションモデルを提案する。
論文 参考訳(メタデータ) (2025-05-15T13:36:42Z) - DiffCLIP: Differential Attention Meets CLIP [57.396578974401734]
本稿では,CLIPアーキテクチャに差分アテンション機構を拡張する新しい視覚言語モデルであるDiffCLIPを提案する。
最小限の追加パラメータで、DiffCLIPは画像テキスト理解タスクにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-03-09T14:04:09Z) - Disentangling CLIP for Multi-Object Perception [58.73850193789384]
CLIPのような視覚言語モデルは、シーン内の1つの顕著なオブジェクトを認識するのに優れていますが、複数のオブジェクトを含む複雑なシーンで苦労しています。
DCLIPはCLIP機能を2つの相補的な目的から切り離すフレームワークである。
実験の結果,DCLIPはCLIPと比較してクラス間特徴類似度を30%削減できることがわかった。
論文 参考訳(メタデータ) (2025-02-05T08:20:31Z) - Mesoscopic Insights: Orchestrating Multi-scale & Hybrid Architecture for Image Manipulation Localization [45.99713338249702]
メソスコピックレベルは、マクロと顕微鏡の世界の間の橋渡しとして機能し、両者が見落としているギャップに対処する。
そこで本研究では,IMLのためのマイクロおよびマクロ情報のメソスコピック表現を同時に構築する方法について検討する。
私たちのモデルは、パフォーマンス、計算複雑性、堅牢性の観点から、現在の最先端のモデルを超えています。
論文 参考訳(メタデータ) (2024-12-18T11:43:41Z) - An Information Compensation Framework for Zero-Shot Skeleton-based Action Recognition [49.45660055499103]
ゼロショットの人間の骨格に基づく行動認識は、トレーニング中に見られるカテゴリ外の行動を認識するモデルを構築することを目的としている。
従来の研究では、シーケンスの視覚的空間分布と意味的空間分布の整合性に焦点が当てられていた。
強固で頑健な表現を得るために,新たな損失関数サンプリング手法を提案する。
論文 参考訳(メタデータ) (2024-06-02T06:53:01Z) - CLIP meets Model Zoo Experts: Pseudo-Supervision for Visual Enhancement [65.47237619200442]
Contrastive Language Image Pretraining (CLIP)は、視覚言語モデルを訓練するための標準手法である。
モデル動物園からのタスク固有の視覚モデルを用いてCLIPトレーニングを強化し、視覚的表現を改善する。
この単純なセットアップは、異なるビジョンタスク間で最大16.3%の大幅な改善を示している。
論文 参考訳(メタデータ) (2023-10-21T20:20:13Z) - Demystifying CLIP Data [86.34045746910114]
Contrastive Language-Image Pre-Training (CLIP) はコンピュータビジョンの先進的な研究と応用を行っている。
メタデータ変換言語画像事前学習(MetaCLIP)について紹介する。
MetaCLIPは生のデータプールとメタデータ(CLIPの概念から派生したもの)を取り、メタデータの分布に対してバランスの取れたサブセットを生成する。
論文 参考訳(メタデータ) (2023-09-28T17:59:56Z) - Face Recognition in the age of CLIP & Billion image datasets [0.0]
種々のCLIPモデルの性能をゼロショット顔認識器として評価する。
また,データ中毒に対するCLIPモデルの堅牢性についても検討した。
論文 参考訳(メタデータ) (2023-01-18T05:34:57Z) - CAE v2: Context Autoencoder with CLIP Target [63.61868058214267]
マスク付き画像モデリング(MIM)は、画像パッチのマスキングと再構成によって視覚表現を学習する。
再建管理をCLIP表現に適用することはMIMに有効であることが証明されている。
CLIPをターゲットとしたMIMの精製戦略を検討するため,MIMにおける2つの重要な要素,すなわち,監督位置とマスク比について検討した。
論文 参考訳(メタデータ) (2022-11-17T18:58:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。