論文の概要: FG-SGL: Fine-Grained Semantic Guidance Learning via Motion Process Decomposition for Micro-Gesture Recognition
- arxiv url: http://arxiv.org/abs/2603.16269v1
- Date: Tue, 17 Mar 2026 08:57:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.185923
- Title: FG-SGL: Fine-Grained Semantic Guidance Learning via Motion Process Decomposition for Micro-Gesture Recognition
- Title(参考訳): FG-SGL:マイクロジェスチャ認識のための運動過程分解による微粒なセマンティックガイダンス学習
- Authors: Jinsheng Wei, Zhaodi Xu, Guanming Lu, Haoyu Chen, Jingjie Yan,
- Abstract要約: 微妙なクラス間変異のため、マイクロジェスチャー認識は困難である。
既存の手法はカテゴリーレベルの監督に依存している。
本稿では,ファイングラインド・セマンティック・ガイダンス・ラーニング・フレームワークを提案する。
- 参考スコア(独自算出の注目度): 8.878108765278732
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Micro-gesture recognition (MGR) is challenging due to subtle inter-class variations. Existing methods rely on category-level supervision, which is insufficient for capturing subtle and localized motion differences. Thus, this paper proposes a Fine-Grained Semantic Guidance Learning (FG-SGL) framework that jointly integrates fine-grained and category-level semantics to guide vision--language models in perceiving local MG motions. FG-SA adopts fine-grained semantic cues to guide the learning of local motion features, while CP-A enhances the separability of MG features through category-level semantic guidance. To support fine-grained semantic guidance, this work constructs a fine-grained textual dataset with human annotations that describes the dynamic process of MGs in four refined semantic dimensions. Furthermore, a Multi-Level Contrastive Optimization strategy is designed to jointly optimize both modules in a coarse-to-fine pattern. Experiments show that FG-SGL achieves competitive performance, validating the effectiveness of fine-grained semantic guidance for MGR.
- Abstract(参考訳): MGR(micro-gesture Recognition)は、クラス間の微妙な変化により困難である。
既存の手法はカテゴリーレベルの監督に依存しており、微妙で局所的な動きの違いを捉えるには不十分である。
そこで本研究では,局所的なMG動作を知覚する視覚言語モデルを導くために,細粒度とカテゴリレベルのセマンティクスを協調的に統合するファイングラインド・セマンティック・ガイダンス・ラーニング(FG-SGL)フレームワークを提案する。
FG-SAは局所運動特徴の学習を誘導するために細粒なセマンティック・キューを採用し、CP-Aはカテゴリーレベルのセマンティック・ガイダンスを通じてMG特徴の分離性を高める。
細粒度セマンティックガイダンスを支援するため、人間のアノテーションを用いた細粒度テキストデータセットを構築し、MGの動的過程を4つの洗練されたセマンティックディメンションで記述する。
さらに,マルチレベルコントラスト最適化戦略は,両モジュールを粗いパターンで協調的に最適化するように設計されている。
実験により,FG-SGLは,MGRの詳細な意味指導の有効性を検証し,競争性能を向上することが示された。
関連論文リスト
- MacNet: An End-to-End Manifold-Constrained Adaptive Clustering Network for Interpretable Whole Slide Image Classification [9.952997875404634]
クラスタリングに基づくアプローチは、説明可能な意思決定プロセスを提供するが、高次元の特徴と意味的にあいまいなセントロイドに悩まされる。
本稿では、グラスマン再埋め込みと多様体適応クラスタリングを統合したエンドツーエンドMILフレームワークを提案する。
マルチセントのWSIデータセットの実験では、1) クラスタを組み込んだモデルは、グレーディング精度と解釈可能性の両方において優れたパフォーマンスを実現し、2) エンドツーエンドの学習は、より良い特徴表現を洗練し、許容できるリソースを必要とします。
論文 参考訳(メタデータ) (2026-02-16T06:43:36Z) - Improving LLM Reasoning with Homophily-aware Structural and Semantic Text-Attributed Graph Compression [55.51959317490934]
大規模言語モデル(LLM)は、テキスト分散グラフ(TAG)理解において有望な能力を示している。
グラフは本来、構造情報や意味情報を豊富に含むものであり、それらの有効利用はLLMの推論性能の潜在的な利益を解放する可能性があると論じる。
グラフホモフィリーの活用を目的としたフレームワーク LLMs (HS2C) のホモフィリー対応構造とセマンティック圧縮を提案する。
論文 参考訳(メタデータ) (2026-01-13T03:35:18Z) - Multi-Granularity Feature Calibration via VFM for Domain Generalized Semantic Segmentation [15.35795137118814]
ドメイン一般化セマンティック(DGSS)は、トレーニング中にターゲットデータにアクセスすることなく、目に見えないドメインにまたがるモデルの一般化能力を改善することを目的としている。
DGSSの最近の進歩は、パラメータ効率の良い微調整戦略を通じて、視覚基盤モデル(VFM)をますます活用している。
ドメインシフト下での強靭性を高めるために,VFM特徴の粗大なアライメントを行う新しいフレームワークであるMulti-Granularity Feature (MGFC)を提案する。
論文 参考訳(メタデータ) (2025-08-05T02:24:31Z) - IGL-DT: Iterative Global-Local Feature Learning with Dual-Teacher Semantic Segmentation Framework under Limited Annotation Scheme [4.247494613524502]
Semi-Supervised Semantic (SSSS)は、ラベル付き画像の小さなセットとラベルなしデータのより大きなプールを活用することにより、セグメンテーションの精度を向上させることを目的としている。
IGL-DTという2つの教師戦略を取り入れた新しい三分岐半教師付きセグメンテーションフレームワークを提案する。
本手法では,Global Context Learning と ResUnet を通した高レベルの意味指導にSwinUnet を用い,局所的学習を通じて詳細な特徴改善を行う。
論文 参考訳(メタデータ) (2025-04-14T01:51:29Z) - Universal Scene Graph Generation [77.53076485727414]
本稿では,包括的セマンティックシーンを特徴付ける新しい表現であるUniversal Universal SG(USG)を紹介する。
クロスモーダルなオブジェクトアライメントとドメイン外課題の2つの重要なボトルネックに効果的に対処するUSG-Parについても紹介する。
論文 参考訳(メタデータ) (2025-03-19T08:55:06Z) - Category-Adaptive Cross-Modal Semantic Refinement and Transfer for Open-Vocabulary Multi-Label Recognition [59.203152078315235]
本稿では,カテゴリ適応型クロスモーダル・セマンティック・リファインメント・アンド・トランスファー(C$2$SRT)フレームワークを提案する。
提案するフレームワークは,2つの相補的モジュール,すなわち,カテゴリ内セマンティックリファインメント(ISR)モジュールと,カテゴリ間セマンティックトランスファー(IST)モジュールから構成される。
OV-MLRベンチマークの実験は、提案されたC$2$SRTフレームワークが現在の最先端アルゴリズムより優れていることを明らかに示している。
論文 参考訳(メタデータ) (2024-12-09T04:00:18Z) - Revisiting Self-Supervised Heterogeneous Graph Learning from Spectral Clustering Perspective [52.662463893268225]
自己教師付きヘテロジニアスグラフ学習(SHGL)は様々なシナリオにおいて有望な可能性を示している。
既存のSHGLメソッドには2つの大きな制限がある。
ランクと二重整合性制約によって強化された新しいフレームワークを導入する。
論文 参考訳(メタデータ) (2024-12-01T09:33:20Z) - An Information Compensation Framework for Zero-Shot Skeleton-based Action Recognition [49.45660055499103]
ゼロショットの人間の骨格に基づく行動認識は、トレーニング中に見られるカテゴリ外の行動を認識するモデルを構築することを目的としている。
従来の研究では、シーケンスの視覚的空間分布と意味的空間分布の整合性に焦点が当てられていた。
強固で頑健な表現を得るために,新たな損失関数サンプリング手法を提案する。
論文 参考訳(メタデータ) (2024-06-02T06:53:01Z) - Multi-Grained Cross-modal Alignment for Learning Open-vocabulary
Semantic Segmentation from Text Supervision [23.931443799102663]
我々は,高密度アノテーションを使わずに粒度ギャップを埋めるために,MGCA(Multi-Grained Cross-Modal Alignment)フレームワークを導入する。
具体的には、MGCAは画像とテキストのペアに基づいて擬似多言語意味対応を構築する。
提案手法は最先端の手法よりも大幅に進歩し,その有効性と効率性を実証する。
論文 参考訳(メタデータ) (2024-03-06T13:43:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。