論文の概要: LAMP: Leveraging Language Prompts for Multi-person Pose Estimation
- arxiv url: http://arxiv.org/abs/2307.11934v2
- Date: Wed, 26 Jul 2023 18:08:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-28 19:11:24.635758
- Title: LAMP: Leveraging Language Prompts for Multi-person Pose Estimation
- Title(参考訳): LAMP:マルチパーソン・ポース推定のための言語プロンプトの活用
- Authors: Shengnan Hu, Ce Zheng, Zixiang Zhou, Chen Chen, and Gita Sukthankar
- Abstract要約: LAMP(Language Assisted Multi-person Pose Estimation)と呼ばれる新しいプロンプトベースのポーズ推論手法を提案する。
十分に訓練された言語モデル(CLIP)によって生成されたテキスト表現を利用することで、LAMPはインスタンスと関節レベルにおけるポーズの理解を容易にすることができる。
本稿では,言語指導型学習が単一段階多人数ポーズ推定の性能を向上させることを示す。
- 参考スコア(独自算出の注目度): 8.983326069321981
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human-centric visual understanding is an important desideratum for effective
human-robot interaction. In order to navigate crowded public places, social
robots must be able to interpret the activity of the surrounding humans. This
paper addresses one key aspect of human-centric visual understanding,
multi-person pose estimation. Achieving good performance on multi-person pose
estimation in crowded scenes is difficult due to the challenges of occluded
joints and instance separation. In order to tackle these challenges and
overcome the limitations of image features in representing invisible body
parts, we propose a novel prompt-based pose inference strategy called LAMP
(Language Assisted Multi-person Pose estimation). By utilizing the text
representations generated by a well-trained language model (CLIP), LAMP can
facilitate the understanding of poses on the instance and joint levels, and
learn more robust visual representations that are less susceptible to
occlusion. This paper demonstrates that language-supervised training boosts the
performance of single-stage multi-person pose estimation, and both
instance-level and joint-level prompts are valuable for training. The code is
available at https://github.com/shengnanh20/LAMP.
- Abstract(参考訳): 人間中心の視覚理解は、効果的な人間とロボットの相互作用にとって重要なデシデラタムである。
混雑した公共の場所をナビゲートするためには、社会ロボットが周囲の人間の活動を理解する必要がある。
本稿では,人間中心の視覚的理解,多人数ポーズ推定における重要な側面について述べる。
混み合った場面における多人数ポーズ推定における良好な性能の実現は,オクルードジョイントやインスタンス分離の課題から困難である。
これらの課題に取り組み,目に見えない部分を表現する際の画像特徴の限界を克服するために,lamp(language assisted multi-person pose estimation)と呼ばれる新しいプロンプトベースポーズ推論戦略を提案する。
CLIP( well-trained language model)によって生成されたテキスト表現を利用することで、LAMPはインスタンスや関節レベルでのポーズの理解を容易にし、閉塞に弱いより堅牢な視覚表現を学習することができる。
本稿では,言語指導型学習が単一段階多人数ポーズ推定の性能を高めることを示し,インスタンスレベルと共同レベルのプロンプトの両方がトレーニングに有用であることを示す。
コードはhttps://github.com/shengnanh20/LAMPで公開されている。
関連論文リスト
- Visual Grounding Helps Learn Word Meanings in Low-Data Regimes [47.7950860342515]
現代のニューラル言語モデル(LM)は、人間の文の生成と理解をモデル化するための強力なツールである。
しかし、これらの結果を得るためには、LMは明らかに非人間的な方法で訓練されなければならない。
より自然主義的に訓練されたモデルは、より人間らしい言語学習を示すのか?
本稿では,言語習得における重要なサブタスクである単語学習の文脈において,この問題を考察する。
論文 参考訳(メタデータ) (2023-10-20T03:33:36Z) - PLIP: Language-Image Pre-training for Person Representation Learning [51.348303233290025]
個人表現学習のための新しい言語画像事前学習フレームワークPLIPを提案する。
このフレームワークを実装するために,SynTH-PEDESという画像テキストペアを用いた大規模人物データセットを構築した。
PLIPはこれらのタスクの既存のメソッドを大幅に改善するだけでなく、ゼロショットやドメインの一般化設定でも優れた機能を示している。
論文 参考訳(メタデータ) (2023-05-15T06:49:00Z) - Learning Transferable Pedestrian Representation from Multimodal
Information Supervision [174.5150760804929]
VAL-PATは、移動可能な表現を学習し、様々な歩行者分析タスクをマルチモーダル情報で強化する新しいフレームワークである。
まず、LUPerson-TAデータセットで事前トレーニングを行い、各画像にはテキストと属性アノテーションが含まれている。
次に、学習した表現を、人物のreID、人物属性認識、テキストベースの人物検索など、さまざまな下流タスクに転送する。
論文 参考訳(メタデータ) (2023-04-12T01:20:58Z) - Weakly-Supervised HOI Detection from Interaction Labels Only and
Language/Vision-Language Priors [36.75629570208193]
人-物相互作用検出(Human-object Interaction, HOI)は、人-物対とその相互作用カテゴリを、与えられた自然な画像から抽出することを目的としている。
本稿では,画像レベルのインタラクションラベルのみを用いて,文献における最も弱い監視設定によるHOI検出に取り組む。
まず,非相互作用型人間とオブジェクトの提案を駆使して,バッグ内の正の対の質を高める手法を提案する。
第2に、大きな言語モデルを使用して、人間とオブジェクトのカテゴリ間の相互作用を問合せし、モデルを強調しないよう強制する。
論文 参考訳(メタデータ) (2023-03-09T19:08:02Z) - Word level Bangla Sign Language Dataset for Continuous BSL Recognition [0.0]
我々は,手話を通してコミュニケーションする個人のためのポーズ情報の時間的ダイナミクスを捉える,注目に基づくBi-GRUモデルを開発した。
モデルの精度は85.64%と報告されている。
論文 参考訳(メタデータ) (2023-02-22T18:55:54Z) - Universal Multimodal Representation for Language Understanding [110.98786673598015]
本研究は,一般的なNLPタスクの補助信号として視覚情報を利用する新しい手法を提案する。
各文に対して、まず、既存の文-画像ペア上で抽出された軽トピック-画像検索テーブルから、フレキシブルな画像を検索する。
そして、テキストと画像はそれぞれトランスフォーマーエンコーダと畳み込みニューラルネットワークによって符号化される。
論文 参考訳(メタデータ) (2023-01-09T13:54:11Z) - MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。
最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文 参考訳(メタデータ) (2022-10-06T17:59:56Z) - CLAMP: Prompt-based Contrastive Learning for Connecting Language and
Animal Pose [70.59906971581192]
本稿では,言語とAniMal Poseを効果的に接続するための,新しいプロンプトベースのコントラスト学習手法を提案する。
CLAMPは、ネットワークトレーニング中にテキストプロンプトを動物のキーポイントに適応させることでギャップを埋めようとしている。
実験結果から, 教師付き, 少数ショット, ゼロショット設定下での最先端性能が得られた。
論文 参考訳(メタデータ) (2022-06-23T14:51:42Z) - Differentiable Multi-Granularity Human Representation Learning for
Instance-Aware Human Semantic Parsing [131.97475877877608]
カテゴリーレベルの人間のセマンティックセグメンテーションとマルチパーソンポーズ推定を共同およびエンドツーエンドで学習するために,新たなボトムアップ方式を提案する。
さまざまな人間の粒度にわたって構造情報を利用する、コンパクトで効率的で強力なフレームワークです。
3つのインスタンス認識型ヒューマンデータセットの実験は、我々のモデルがより効率的な推論で他のボトムアップの代替案よりも優れていることを示している。
論文 参考訳(メタデータ) (2021-03-08T06:55:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。