論文の概要: VLPose: Bridging the Domain Gap in Pose Estimation with Language-Vision
Tuning
- arxiv url: http://arxiv.org/abs/2402.14456v1
- Date: Thu, 22 Feb 2024 11:21:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 15:35:09.584561
- Title: VLPose: Bridging the Domain Gap in Pose Estimation with Language-Vision
Tuning
- Title(参考訳): vlpose: 言語視点調整によるポーズ推定におけるドメインギャップの橋渡し
- Authors: Jingyao Li, Pengguang Chen, Xuan Ju, Hong Xu, Jiaya Jia
- Abstract要約: 我々は,効率的なチューニング戦略により,自然シナリオと人工シナリオのドメインギャップを埋める。
ポーズ推定モデルの一般化とロバスト性を拡張するために,VLPoseと呼ばれる新しいフレームワークを開発した。
我々はHumanArtとMSCOCOでそれぞれ2.26%と3.74%の改善を示した。
- 参考スコア(独自算出の注目度): 53.35114015288077
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Thanks to advances in deep learning techniques, Human Pose Estimation (HPE)
has achieved significant progress in natural scenarios. However, these models
perform poorly in artificial scenarios such as painting and sculpture due to
the domain gap, constraining the development of virtual reality and augmented
reality. With the growth of model size, retraining the whole model on both
natural and artificial data is computationally expensive and inefficient. Our
research aims to bridge the domain gap between natural and artificial scenarios
with efficient tuning strategies. Leveraging the potential of language models,
we enhance the adaptability of traditional pose estimation models across
diverse scenarios with a novel framework called VLPose. VLPose leverages the
synergy between language and vision to extend the generalization and robustness
of pose estimation models beyond the traditional domains. Our approach has
demonstrated improvements of 2.26% and 3.74% on HumanArt and MSCOCO,
respectively, compared to state-of-the-art tuning strategies.
- Abstract(参考訳): 深層学習技術の進歩により,Human Pose Estimation (HPE)は自然シナリオにおいて大きな進歩を遂げた。
しかし、これらのモデルは、領域ギャップによる絵画や彫刻などの人工シナリオでは不十分であり、仮想現実や拡張現実の開発を制約している。
モデルサイズの成長に伴い、モデル全体を自然データと人工データの両方で再トレーニングすることは計算コストが高く非効率である。
本研究の目的は,自然シナリオと人工シナリオのドメインギャップを効率的なチューニング戦略で埋めることである。
言語モデルの可能性を活用し、vlposeと呼ばれる新しいフレームワークを用いて、様々なシナリオにわたる従来のポーズ推定モデルの適応性を高める。
VLPoseは言語と視覚の相乗効果を利用して、伝統的なドメインを超えてポーズ推定モデルの一般化と堅牢性を拡張する。
提案手法は,最先端のチューニング戦略と比較して,humanartとmscocoでそれぞれ2.26%,3.74%の改善を示した。
関連論文リスト
- Has Your Pretrained Model Improved? A Multi-head Posterior Based
Approach [25.927323251675386]
我々は、世界的知識の源として各エンティティに関連するメタ機能を活用し、モデルからエンティティ表現を採用する。
本稿では,これらの表現とメタ機能との整合性を,事前学習モデルの評価指標として用いることを提案する。
提案手法の有効性は,関係データセットを用いたモデル,大規模言語モデル,画像モデルなど,様々な領域で実証されている。
論文 参考訳(メタデータ) (2024-01-02T17:08:26Z) - Layerwise complexity-matched learning yields an improved model of
cortical area V2 [9.818286941582672]
ディープニューラルネットワークは、人間の能力にアプローチするオブジェクト認識のためのエンドツーエンドを訓練した。
我々は,連続する層に独立して機能する自己指導型トレーニング手法を開発した。
本モデルは, 霊長類領域V2における選択性特性と神経活動に適合していることが示唆された。
論文 参考訳(メタデータ) (2023-12-18T18:37:02Z) - Recognize Any Regions [59.08881073582635]
RegionSpotは、ローカライゼーション基盤モデルから位置認識のローカライゼーション知識と、ViLモデルから抽出されたセマンティック情報を統合するように設計されている。
我々のモデルは平均的精度(mAP)でGLIPを6.5%上回り、より困難で稀なカテゴリーではさらに14.8%の差がある。
論文 参考訳(メタデータ) (2023-11-02T16:31:49Z) - Expedited Training of Visual Conditioned Language Generation via
Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。
提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文 参考訳(メタデータ) (2023-10-05T03:40:06Z) - Pseudo-Trilateral Adversarial Training for Domain Adaptive
Traversability Prediction [8.145900996884993]
トラバーサビリティ予測は、自律ナビゲーションの基本的な認識能力である。
非教師なしドメイン適応(UDA)を行うために、粗大なアライメント(CALI)を採用する新しい知覚モデルを提案する。
いくつかの挑戦的なドメイン適応設定において、提案したモデルが複数のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-26T00:39:32Z) - Robust Category-Level 3D Pose Estimation from Synthetic Data [17.247607850702558]
CADモデルから生成されたオブジェクトポーズ推定のための新しい合成データセットであるSyntheticP3Dを紹介する。
逆レンダリングによるポーズ推定を行うニューラルネットワークモデルをトレーニングするための新しいアプローチ(CC3D)を提案する。
論文 参考訳(メタデータ) (2023-05-25T14:56:03Z) - Style-Hallucinated Dual Consistency Learning: A Unified Framework for
Visual Domain Generalization [113.03189252044773]
本稿では,様々な視覚的タスクにおけるドメインシフトを処理するための統合フレームワークであるStyle-HAllucinated Dual consistEncy Learning (SHADE)を提案する。
我々の汎用SHADEは、画像分類、セマンティックセグメンテーション、オブジェクト検出など、様々な視覚認識タスクにおける一般化を著しく向上させることができる。
論文 参考訳(メタデータ) (2022-12-18T11:42:51Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - QAGAN: Adversarial Approach To Learning Domain Invariant Language
Features [0.76146285961466]
ドメイン不変の特徴を学習するための敵対的学習手法について検討する。
EMスコアが15.2%改善され、ドメイン外の検証データセットでF1スコアが5.6%向上しました。
論文 参考訳(メタデータ) (2022-06-24T17:42:18Z) - Style-Hallucinated Dual Consistency Learning for Domain Generalized
Semantic Segmentation [117.3856882511919]
本稿では、ドメインシフトを処理するためのStyle-HAllucinated Dual consistEncy Learning(SHADE)フレームワークを提案する。
SHADEは3つの実世界のデータセットの平均mIoUに対して5.07%と8.35%の精度で改善し、最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2022-04-06T02:49:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。