Fugu-MT 論文翻訳(概要): LAMP: Leveraging Language Prompts for Multi-person Pose Estimation

論文の概要: LAMP: Leveraging Language Prompts for Multi-person Pose Estimation

arxiv url: http://arxiv.org/abs/2307.11934v2
Date: Wed, 26 Jul 2023 18:08:10 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-28 19:11:24.635758
Title: LAMP: Leveraging Language Prompts for Multi-person Pose Estimation
Title（参考訳）: LAMP:マルチパーソン・ポース推定のための言語プロンプトの活用
Authors: Shengnan Hu, Ce Zheng, Zixiang Zhou, Chen Chen, and Gita Sukthankar
Abstract要約: LAMP(Language Assisted Multi-person Pose Estimation)と呼ばれる新しいプロンプトベースのポーズ推論手法を提案する。十分に訓練された言語モデル(CLIP)によって生成されたテキスト表現を利用することで、LAMPはインスタンスと関節レベルにおけるポーズの理解を容易にすることができる。本稿では,言語指導型学習が単一段階多人数ポーズ推定の性能を向上させることを示す。
参考スコア（独自算出の注目度）: 8.983326069321981
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Human-centric visual understanding is an important desideratum for effective human-robot interaction. In order to navigate crowded public places, social robots must be able to interpret the activity of the surrounding humans. This paper addresses one key aspect of human-centric visual understanding, multi-person pose estimation. Achieving good performance on multi-person pose estimation in crowded scenes is difficult due to the challenges of occluded joints and instance separation. In order to tackle these challenges and overcome the limitations of image features in representing invisible body parts, we propose a novel prompt-based pose inference strategy called LAMP (Language Assisted Multi-person Pose estimation). By utilizing the text representations generated by a well-trained language model (CLIP), LAMP can facilitate the understanding of poses on the instance and joint levels, and learn more robust visual representations that are less susceptible to occlusion. This paper demonstrates that language-supervised training boosts the performance of single-stage multi-person pose estimation, and both instance-level and joint-level prompts are valuable for training. The code is available at https://github.com/shengnanh20/LAMP.
Abstract（参考訳）: 人間中心の視覚理解は、効果的な人間とロボットの相互作用にとって重要なデシデラタムである。混雑した公共の場所をナビゲートするためには、社会ロボットが周囲の人間の活動を理解する必要がある。本稿では,人間中心の視覚的理解,多人数ポーズ推定における重要な側面について述べる。混み合った場面における多人数ポーズ推定における良好な性能の実現は,オクルードジョイントやインスタンス分離の課題から困難である。これらの課題に取り組み,目に見えない部分を表現する際の画像特徴の限界を克服するために,lamp(language assisted multi-person pose estimation)と呼ばれる新しいプロンプトベースポーズ推論戦略を提案する。 CLIP( well-trained language model)によって生成されたテキスト表現を利用することで、LAMPはインスタンスや関節レベルでのポーズの理解を容易にし、閉塞に弱いより堅牢な視覚表現を学習することができる。本稿では,言語指導型学習が単一段階多人数ポーズ推定の性能を高めることを示し,インスタンスレベルと共同レベルのプロンプトの両方がトレーニングに有用であることを示す。コードはhttps://github.com/shengnanh20/LAMPで公開されている。

関連論文リスト

PromptHMR: Promptable Human Mesh Recovery [68.65788167859817]
ヒューマン・ポーズ・アンド・シェイプ(HPS)推定は、混み合ったシーン、対人インタラクション、一視点再構築といった様々なシナリオにおける課題を提示する。本稿では,空間的および意味的なプロンプトを通じてHPS推定を再構成するトランスフォーマーに基づくプロンプトHMRを提案する。本手法はシーンコンテキストを維持するために全画像を処理し,複数の入力モダリティを受け入れる。
論文参考訳（メタデータ） (2025-04-08T19:38:04Z)
Visual Contexts Clarify Ambiguous Expressions: A Benchmark Dataset [0.39462888523270856]
VAGUEは3.9Kの間接的人間発話と対応するシーンを組み合わせたマルチモーダル・ベンチマークである。我々の研究は、モデルが間接的なコミュニケーションを理解する能力について深く掘り下げ、より洗練され人間的な対話が可能なモデルの開発に貢献することを目的としています。
論文参考訳（メタデータ） (2024-11-21T14:01:42Z)
Visual Grounding Helps Learn Word Meanings in Low-Data Regimes [47.7950860342515]
現代のニューラル言語モデル(LM)は、人間の文の生成と理解をモデル化するための強力なツールである。しかし、これらの結果を得るためには、LMは明らかに非人間的な方法で訓練されなければならない。より自然主義的に訓練されたモデルは、より人間らしい言語学習を示すのか? 本稿では,言語習得における重要なサブタスクである単語学習の文脈において,この問題を考察する。
論文参考訳（メタデータ） (2023-10-20T03:33:36Z)
PLIP: Language-Image Pre-training for Person Representation Learning [51.348303233290025]
個人表現学習のための新しい言語画像事前学習フレームワークPLIPを提案する。このフレームワークを実装するために,SynTH-PEDESという画像テキストペアを用いた大規模人物データセットを構築した。 PLIPはこれらのタスクの既存のメソッドを大幅に改善するだけでなく、ゼロショットやドメインの一般化設定でも優れた機能を示している。
論文参考訳（メタデータ） (2023-05-15T06:49:00Z)
Learning Transferable Pedestrian Representation from Multimodal Information Supervision [174.5150760804929]
VAL-PATは、移動可能な表現を学習し、様々な歩行者分析タスクをマルチモーダル情報で強化する新しいフレームワークである。まず、LUPerson-TAデータセットで事前トレーニングを行い、各画像にはテキストと属性アノテーションが含まれている。次に、学習した表現を、人物のreID、人物属性認識、テキストベースの人物検索など、さまざまな下流タスクに転送する。
論文参考訳（メタデータ） (2023-04-12T01:20:58Z)
Weakly-Supervised HOI Detection from Interaction Labels Only and Language/Vision-Language Priors [36.75629570208193]
人-物相互作用検出(Human-object Interaction, HOI)は、人-物対とその相互作用カテゴリを、与えられた自然な画像から抽出することを目的としている。本稿では,画像レベルのインタラクションラベルのみを用いて,文献における最も弱い監視設定によるHOI検出に取り組む。まず,非相互作用型人間とオブジェクトの提案を駆使して,バッグ内の正の対の質を高める手法を提案する。第2に、大きな言語モデルを使用して、人間とオブジェクトのカテゴリ間の相互作用を問合せし、モデルを強調しないよう強制する。
論文参考訳（メタデータ） (2023-03-09T19:08:02Z)
Word level Bangla Sign Language Dataset for Continuous BSL Recognition [0.0]
我々は,手話を通してコミュニケーションする個人のためのポーズ情報の時間的ダイナミクスを捉える,注目に基づくBi-GRUモデルを開発した。モデルの精度は85.64%と報告されている。
論文参考訳（メタデータ） (2023-02-22T18:55:54Z)
Universal Multimodal Representation for Language Understanding [110.98786673598015]
本研究は,一般的なNLPタスクの補助信号として視覚情報を利用する新しい手法を提案する。各文に対して、まず、既存の文-画像ペア上で抽出された軽トピック-画像検索テーブルから、フレキシブルな画像を検索する。そして、テキストと画像はそれぞれトランスフォーマーエンコーダと畳み込みニューラルネットワークによって符号化される。
論文参考訳（メタデータ） (2023-01-09T13:54:11Z)
MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文参考訳（メタデータ） (2022-10-06T17:59:56Z)
CLAMP: Prompt-based Contrastive Learning for Connecting Language and Animal Pose [70.59906971581192]
本稿では,言語とAniMal Poseを効果的に接続するための,新しいプロンプトベースのコントラスト学習手法を提案する。 CLAMPは、ネットワークトレーニング中にテキストプロンプトを動物のキーポイントに適応させることでギャップを埋めようとしている。実験結果から, 教師付き, 少数ショット, ゼロショット設定下での最先端性能が得られた。
論文参考訳（メタデータ） (2022-06-23T14:51:42Z)
Differentiable Multi-Granularity Human Representation Learning for Instance-Aware Human Semantic Parsing [131.97475877877608]
カテゴリーレベルの人間のセマンティックセグメンテーションとマルチパーソンポーズ推定を共同およびエンドツーエンドで学習するために,新たなボトムアップ方式を提案する。さまざまな人間の粒度にわたって構造情報を利用する、コンパクトで効率的で強力なフレームワークです。 3つのインスタンス認識型ヒューマンデータセットの実験は、我々のモデルがより効率的な推論で他のボトムアップの代替案よりも優れていることを示している。
論文参考訳（メタデータ） (2021-03-08T06:55:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。