論文の概要: PoseLLM: Enhancing Language-Guided Human Pose Estimation with MLP Alignment
- arxiv url: http://arxiv.org/abs/2507.09139v1
- Date: Sat, 12 Jul 2025 04:53:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:22.555371
- Title: PoseLLM: Enhancing Language-Guided Human Pose Estimation with MLP Alignment
- Title(参考訳): PoseLLM: MLPアライメントによる言語誘導型ヒューマンポース推定の強化
- Authors: Dewen Zhang, Tahir Hussain, Wangpeng An, Hayaru Shouno,
- Abstract要約: 本稿では,線形プロジェクタを非線形視覚言語コネクタに置き換えた最初の大規模言語モデル(LLM)に基づくポーズ推定フレームワークであるPoseLLMを提案する。
本研究は, 単純だが強力な非線形コネクタが一般化を犠牲にすることなく, 局所化精度を大幅に向上させることを示す。
- 参考スコア(独自算出の注目度): 1.820765907065129
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human pose estimation traditionally relies on architectures that encode keypoint priors, limiting their generalization to novel poses or unseen keypoints. Recent language-guided approaches like LocLLM reformulate keypoint localization as a vision-language task, enabling zero-shot generalization through textual descriptions. However, LocLLM's linear projector fails to capture complex spatial-textual interactions critical for high-precision localization. To address this, we propose PoseLLM, the first Large Language Model (LLM)-based pose estimation framework that replaces the linear projector with a nonlinear MLP vision-language connector. This lightweight two-layer MLP with GELU activation enables hierarchical cross-modal feature transformation, enhancing the fusion of visual patches and textual keypoint descriptions. Trained exclusively on COCO data, PoseLLM achieves 77.8 AP on the COCO validation set, outperforming LocLLM by +0.4 AP, while maintaining strong zero-shot generalization on Human-Art and MPII. Our work demonstrates that a simple yet powerful nonlinear connector significantly boosts localization accuracy without sacrificing generalization, advancing the state-of-the-art in language-guided pose estimation. Code is available at https://github.com/Ody-trek/PoseLLM.
- Abstract(参考訳): 人間のポーズ推定は伝統的にキーポイントの事前を符号化するアーキテクチャに依存しており、その一般化を新しいポーズや目に見えないキーポイントに限定している。
LocLLMのような最近の言語誘導アプローチは、キーポイントローカライゼーションを視覚言語タスクとして再構成し、テキスト記述によるゼロショットの一般化を可能にする。
しかし、LocLLMの線形プロジェクタは、高精度なローカライゼーションに不可欠な複雑な空間-テクスチャ相互作用をキャプチャできない。
そこで我々は,線形プロジェクタを非線形MLP視覚言語コネクタに置き換える,最初のLarge Language Model (LLM)ベースのポーズ推定フレームワークであるPoseLLMを提案する。
GELUアクティベーションを備えた軽量な2層MLPにより、階層的なクロスモーダルな特徴変換が可能となり、視覚パッチとテキストキーポイント記述の融合が促進される。
PoseLLMはCOCOデータのみに基づいて訓練され、COCO検証セットの77.8 APを達成し、LocLLMを+0.4 APで上回り、Human-ArtとMPIIで強力なゼロショットの一般化を維持している。
本研究は, 単純だが強力な非線形コネクタが一般化を犠牲にすることなく, 局所化精度を著しく向上させ, 言語誘導型ポーズ推定における最先端化を推し進めることを示す。
コードはhttps://github.com/Ody-trek/PoseLLM.comで入手できる。
関連論文リスト
- CAPE: A CLIP-Aware Pointing Ensemble of Complementary Heatmap Cues for Embodied Reference Understanding [55.33317649771575]
身体的参照理解(Embodied Reference Understanding)は、シーンの人物が指し示すジェスチャーと言語の両方を通して参照しているオブジェクトを予測する。
本稿では,2重モデルフレームワークを提案し,一方のモデルが頭指先方向から学習し,他方のモデルが手指先方向から学習する。
CLIP機能に基づいたハイブリッドアンサンブルを行うCLIP-Aware Pointing Ensembleモジュールを提案する。
論文 参考訳(メタデータ) (2025-07-29T15:00:21Z) - Helping CLIP See Both the Forest and the Trees: A Decomposition and Description Approach [43.419607730361996]
CLIPのようなビジョンランゲージモデル(VLM)は、対照的な学習を通じて、横断的なアライメントを実現する。
伝統的なプロンプトエンジニアリングは、きめ細かいカテゴリラベルに依存しており、きめ細かい局所的意味論を無視している。
そこで我々は,CLIPが局所化された視覚ディスクリプタを処理できるプラグイン・アンド・プレイソリューションを提案する。
論文 参考訳(メタデータ) (2025-07-04T10:24:26Z) - TULIP: Towards Unified Language-Image Pretraining [60.99500935831526]
既存のCLIPライクなモデルの代替として,オープンソースでドロップイン可能なTを導入する。
提案手法は, 生成データの拡張, 画像画像の強化, テキストコントラスト学習, 画像/テキスト再構成正規化を利用して, きめ細かい視覚的特徴を学習する。
当社のアプローチでは、ベンチマーク全体で既存の最先端(SOTA)モデルを上回っています。
論文 参考訳(メタデータ) (2025-03-19T17:58:57Z) - IteRPrimE: Zero-shot Referring Image Segmentation with Iterative Grad-CAM Refinement and Primary Word Emphasis [46.502962768034166]
Zero-shot Referring Imageは、トレーニングや微調整なしで参照式に最も適したインスタンスマスクを特定する。
従来のCLIPモデルでは、物体の相対的な空間的関係を識別する能力が顕著に低下していた。
IteRPrimEは従来の最先端のゼロショットメソッドよりも優れており、特にドメイン外のシナリオでは優れている。
論文 参考訳(メタデータ) (2025-03-02T15:19:37Z) - Low-Light Image Enhancement via Generative Perceptual Priors [75.01646333310073]
視覚言語モデル(VLM)を用いた新しいtextbfLLIE フレームワークを提案する。
まず、LL画像の複数の視覚特性を評価するためにVLMを誘導するパイプラインを提案し、その評価を定量化し、グローバルおよびローカルな知覚的先行情報を出力する。
LLIEを有効活用するために,これらの生成的知覚前駆体を組み込むため,拡散過程にトランスフォーマーベースのバックボーンを導入し,グローバルおよびローカルな知覚前駆体によってガイドされる新しい層正規化(textittextbfLPP-Attn)を開発する。
論文 参考訳(メタデータ) (2024-12-30T12:51:52Z) - Locality Alignment Improves Vision-Language Models [55.275235524659905]
近年では視覚言語モデル (VLM) が普及しているが、その多くが基本的な空間推論の誤りに悩まされている。
私たちのゴールは、ローカルとグローバルの両方の画像セマンティクスを効果的にキャプチャするビジョンバックボーンでこれを解決することです。
局所性アライメントとMaskEmbedと呼ばれる新しい微調整手順を提案する。
論文 参考訳(メタデータ) (2024-10-14T21:01:01Z) - Language-Assisted Human Part Motion Learning for Skeleton-Based Temporal Action Segmentation [11.759374280422113]
骨格に基づくテンポラルアクションは、可変長の骨格配列の高密度な作用分類を含む。
現在のアプローチでは、グラフベースのネットワークを使用して、フレーム単位の全体レベルの動作表現を抽出している。
本稿では,LPL(Language-assisted Human Part Motion Representation)という手法を提案する。
論文 参考訳(メタデータ) (2024-10-08T20:42:51Z) - LocLLM: Exploiting Generalizable Human Keypoint Localization via Large Language Model [52.35027502274539]
LocLLMはLarge-Language Modelベースのキーポイントローカライゼーションモデルである。
入力として画像とテキストの命令を受け取り、所望のキーポイント座標を出力する。
標準的な2D/3Dキーポイントローカライゼーションベンチマークでは顕著なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-06-07T05:58:35Z) - Symmetrical Linguistic Feature Distillation with CLIP for Scene Text
Recognition [77.93678598476149]
CLIP-OCR(Symmetrical Linguistic Feature Distillation framework)を新たに構築する。
CLIP画像エンコーダを逆CLIPテキストエンコーダでカスケードすることにより、画像からテキストまでの特徴フローで対称構造を構築する。
大規模な実験では、CLIP-OCRが6つのSTRベンチマークで平均精度93.8%で有効であることが示されている。
論文 参考訳(メタデータ) (2023-10-08T04:00:20Z) - Location-free Human Pose Estimation [29.327982113378408]
人間のポーズ推定(HPE)は通常、高性能に到達するために大規模なトレーニングデータを必要とする。
キーポイント位置の監視なしに位置のないフレームワークを提案する。
CAMに基づく弱教師付きオブジェクトローカライゼーションに着想を得た結果,粒度HPEとオブジェクトレベルのローカライゼーションのギャップにより,粗いキーポイント位置がCAMを介して取得可能であることがわかった。
論文 参考訳(メタデータ) (2022-05-25T09:56:37Z) - Hire-MLP: Vision MLP via Hierarchical Rearrangement [58.33383667626998]
Hire-MLPは、再配置によるシンプルだが競合する視覚アーキテクチャである。
提案したHire-MLPアーキテクチャは、単純なチャネル混合操作で構築されており、高い柔軟性と推論速度を享受できる。
実験の結果,Herre-MLPはImageNet-1Kベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2021-08-30T16:11:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。