論文の概要: LAMP: Leveraging Language Prompts for Multi-person Pose Estimation
- arxiv url: http://arxiv.org/abs/2307.11934v2
- Date: Wed, 26 Jul 2023 18:08:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-28 19:11:24.635758
- Title: LAMP: Leveraging Language Prompts for Multi-person Pose Estimation
- Title(参考訳): LAMP:マルチパーソン・ポース推定のための言語プロンプトの活用
- Authors: Shengnan Hu, Ce Zheng, Zixiang Zhou, Chen Chen, and Gita Sukthankar
- Abstract要約: LAMP(Language Assisted Multi-person Pose Estimation)と呼ばれる新しいプロンプトベースのポーズ推論手法を提案する。
十分に訓練された言語モデル(CLIP)によって生成されたテキスト表現を利用することで、LAMPはインスタンスと関節レベルにおけるポーズの理解を容易にすることができる。
本稿では,言語指導型学習が単一段階多人数ポーズ推定の性能を向上させることを示す。
- 参考スコア(独自算出の注目度): 8.983326069321981
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human-centric visual understanding is an important desideratum for effective
human-robot interaction. In order to navigate crowded public places, social
robots must be able to interpret the activity of the surrounding humans. This
paper addresses one key aspect of human-centric visual understanding,
multi-person pose estimation. Achieving good performance on multi-person pose
estimation in crowded scenes is difficult due to the challenges of occluded
joints and instance separation. In order to tackle these challenges and
overcome the limitations of image features in representing invisible body
parts, we propose a novel prompt-based pose inference strategy called LAMP
(Language Assisted Multi-person Pose estimation). By utilizing the text
representations generated by a well-trained language model (CLIP), LAMP can
facilitate the understanding of poses on the instance and joint levels, and
learn more robust visual representations that are less susceptible to
occlusion. This paper demonstrates that language-supervised training boosts the
performance of single-stage multi-person pose estimation, and both
instance-level and joint-level prompts are valuable for training. The code is
available at https://github.com/shengnanh20/LAMP.
- Abstract(参考訳): 人間中心の視覚理解は、効果的な人間とロボットの相互作用にとって重要なデシデラタムである。
混雑した公共の場所をナビゲートするためには、社会ロボットが周囲の人間の活動を理解する必要がある。
本稿では,人間中心の視覚的理解,多人数ポーズ推定における重要な側面について述べる。
混み合った場面における多人数ポーズ推定における良好な性能の実現は,オクルードジョイントやインスタンス分離の課題から困難である。
これらの課題に取り組み,目に見えない部分を表現する際の画像特徴の限界を克服するために,lamp(language assisted multi-person pose estimation)と呼ばれる新しいプロンプトベースポーズ推論戦略を提案する。
CLIP( well-trained language model)によって生成されたテキスト表現を利用することで、LAMPはインスタンスや関節レベルでのポーズの理解を容易にし、閉塞に弱いより堅牢な視覚表現を学習することができる。
本稿では,言語指導型学習が単一段階多人数ポーズ推定の性能を高めることを示し,インスタンスレベルと共同レベルのプロンプトの両方がトレーニングに有用であることを示す。
コードはhttps://github.com/shengnanh20/LAMPで公開されている。
関連論文リスト
- PoseGPT: Chatting about 3D Human Pose [50.546720988230284]
本稿では,大規模言語モデル(LLM)を用いて画像やテキスト記述から3次元人間のポーズを理解し,推論するフレームワークであるPoseGPTを紹介する。
我々の研究は、一つの画像や簡単な説明から姿勢を直感的に理解する能力によって動機付けられています。
論文 参考訳(メタデータ) (2023-11-30T18:59:52Z) - Generating Human-Centric Visual Cues for Human-Object Interaction
Detection via Large Vision-Language Models [59.611697856666304]
人-物対検出(Human-object Interaction:HOI)は、人-物対を検出し、その相互作用を予測することを目的とする。
我々はVLMを用いた3つのプロンプトを提案し、人間の複数の視点から画像内で人間中心の視覚的手がかりを生成する。
我々は,マルチトワーアーキテクチャを用いたトランスフォーマーベースのマルチモーダル融合モジュールを開発し,視覚的キュー機能をインスタンスと対話デコーダに統合する。
論文 参考訳(メタデータ) (2023-11-26T09:11:32Z) - Visual Grounding Helps Learn Word Meanings in Low-Data Regimes [53.7168869241458]
現代のニューラル言語モデル(LM)は、人間の文の生成と理解をモデル化するための強力なツールである。
しかし、これらの結果を得るためには、LMは明らかに非人間的な方法で訓練されなければならない。
より自然主義的に訓練されたモデルは、より人間らしい言語学習を示すのか?
本稿では,言語習得における重要なサブタスクである単語学習の文脈において,この問題を考察する。
論文 参考訳(メタデータ) (2023-10-20T03:33:36Z) - PLIP: Language-Image Pre-training for Person Representation Learning [47.61636087431226]
個人表現学習のための新しい言語画像事前学習フレームワークPLIPを提案する。
微粒なクロスモーダルアソシエーションを明示的に構築するために,3つのプレテキスト,すなわちセマンティックフューズド画像のカラー化,視覚フューズド属性予測,視覚言語マッチングを設計する。
我々は、SynTH-PEDES上でPLIPを事前訓練し、テキストベースのRe-ID、画像ベースのRe-ID、人物属性認識などの下流タスクにまたがるモデルを評価する。
論文 参考訳(メタデータ) (2023-05-15T06:49:00Z) - Weakly-Supervised HOI Detection from Interaction Labels Only and
Language/Vision-Language Priors [36.75629570208193]
人-物相互作用検出(Human-object Interaction, HOI)は、人-物対とその相互作用カテゴリを、与えられた自然な画像から抽出することを目的としている。
本稿では,画像レベルのインタラクションラベルのみを用いて,文献における最も弱い監視設定によるHOI検出に取り組む。
まず,非相互作用型人間とオブジェクトの提案を駆使して,バッグ内の正の対の質を高める手法を提案する。
第2に、大きな言語モデルを使用して、人間とオブジェクトのカテゴリ間の相互作用を問合せし、モデルを強調しないよう強制する。
論文 参考訳(メタデータ) (2023-03-09T19:08:02Z) - CLAMP: Prompt-based Contrastive Learning for Connecting Language and
Animal Pose [70.59906971581192]
本稿では,言語とAniMal Poseを効果的に接続するための,新しいプロンプトベースのコントラスト学習手法を提案する。
CLAMPは、ネットワークトレーニング中にテキストプロンプトを動物のキーポイントに適応させることでギャップを埋めようとしている。
実験結果から, 教師付き, 少数ショット, ゼロショット設定下での最先端性能が得られた。
論文 参考訳(メタデータ) (2022-06-23T14:51:42Z) - Differentiable Multi-Granularity Human Representation Learning for
Instance-Aware Human Semantic Parsing [131.97475877877608]
カテゴリーレベルの人間のセマンティックセグメンテーションとマルチパーソンポーズ推定を共同およびエンドツーエンドで学習するために,新たなボトムアップ方式を提案する。
さまざまな人間の粒度にわたって構造情報を利用する、コンパクトで効率的で強力なフレームワークです。
3つのインスタンス認識型ヒューマンデータセットの実験は、我々のモデルがより効率的な推論で他のボトムアップの代替案よりも優れていることを示している。
論文 参考訳(メタデータ) (2021-03-08T06:55:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。