論文の概要: VLPose: Bridging the Domain Gap in Pose Estimation with Language-Vision
Tuning
- arxiv url: http://arxiv.org/abs/2402.14456v1
- Date: Thu, 22 Feb 2024 11:21:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 15:35:09.584561
- Title: VLPose: Bridging the Domain Gap in Pose Estimation with Language-Vision
Tuning
- Title(参考訳): vlpose: 言語視点調整によるポーズ推定におけるドメインギャップの橋渡し
- Authors: Jingyao Li, Pengguang Chen, Xuan Ju, Hong Xu, Jiaya Jia
- Abstract要約: 我々は,効率的なチューニング戦略により,自然シナリオと人工シナリオのドメインギャップを埋める。
ポーズ推定モデルの一般化とロバスト性を拡張するために,VLPoseと呼ばれる新しいフレームワークを開発した。
我々はHumanArtとMSCOCOでそれぞれ2.26%と3.74%の改善を示した。
- 参考スコア(独自算出の注目度): 53.35114015288077
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Thanks to advances in deep learning techniques, Human Pose Estimation (HPE)
has achieved significant progress in natural scenarios. However, these models
perform poorly in artificial scenarios such as painting and sculpture due to
the domain gap, constraining the development of virtual reality and augmented
reality. With the growth of model size, retraining the whole model on both
natural and artificial data is computationally expensive and inefficient. Our
research aims to bridge the domain gap between natural and artificial scenarios
with efficient tuning strategies. Leveraging the potential of language models,
we enhance the adaptability of traditional pose estimation models across
diverse scenarios with a novel framework called VLPose. VLPose leverages the
synergy between language and vision to extend the generalization and robustness
of pose estimation models beyond the traditional domains. Our approach has
demonstrated improvements of 2.26% and 3.74% on HumanArt and MSCOCO,
respectively, compared to state-of-the-art tuning strategies.
- Abstract(参考訳): 深層学習技術の進歩により,Human Pose Estimation (HPE)は自然シナリオにおいて大きな進歩を遂げた。
しかし、これらのモデルは、領域ギャップによる絵画や彫刻などの人工シナリオでは不十分であり、仮想現実や拡張現実の開発を制約している。
モデルサイズの成長に伴い、モデル全体を自然データと人工データの両方で再トレーニングすることは計算コストが高く非効率である。
本研究の目的は,自然シナリオと人工シナリオのドメインギャップを効率的なチューニング戦略で埋めることである。
言語モデルの可能性を活用し、vlposeと呼ばれる新しいフレームワークを用いて、様々なシナリオにわたる従来のポーズ推定モデルの適応性を高める。
VLPoseは言語と視覚の相乗効果を利用して、伝統的なドメインを超えてポーズ推定モデルの一般化と堅牢性を拡張する。
提案手法は,最先端のチューニング戦略と比較して,humanartとmscocoでそれぞれ2.26%,3.74%の改善を示した。
関連論文リスト
- High Quality Human Image Animation using Regional Supervision and Motion Blur Condition [97.97432499053966]
我々は、顔と手の忠実度を高めるために、詳細な地域に対する地域監督を活用している。
第二に、動作のぼかしを明示的にモデル化し、外観の質をさらに向上させる。
第3に,高精細な人体アニメーションのための新しいトレーニング戦略を探求し,全体の忠実度を向上する。
論文 参考訳(メタデータ) (2024-09-29T06:46:31Z) - ReVLA: Reverting Visual Domain Limitation of Robotic Foundation Models [55.07988373824348]
既存の3つのロボット基礎モデルの視覚的一般化能力について検討する。
本研究は,既存のモデルがドメイン外シナリオに対する堅牢性を示していないことを示す。
モデルマージに基づく段階的なバックボーンリバーサルアプローチを提案する。
論文 参考訳(メタデータ) (2024-09-23T17:47:59Z) - Regularized Training with Generated Datasets for Name-Only Transfer of Vision-Language Models [36.59260354292177]
近年のテキスト・画像生成の進歩により、研究者は生成モデルを用いて知覚モデルに適したデータセットを生成するようになった。
我々は、実際の画像にアクセスせずに、視覚言語モデルを特定の分類モデルに微調整することを目指している。
生成した画像の忠実度が高いにもかかわらず、生成したデータセットを用いてモデルを微調整すると、顕著な性能劣化が観測された。
論文 参考訳(メタデータ) (2024-06-08T10:43:49Z) - COPAL: Continual Pruning in Large Language Generative Models [23.747878534962663]
COPALは、連続的なモデル適応設定の下で、大規模言語生成モデルを解析するために開発されたアルゴリズムである。
LLMの様々なサイズに対する実験的な評価は,COPALがベースラインモデルより優れていることを示している。
論文 参考訳(メタデータ) (2024-05-02T18:24:41Z) - Language-Guided World Models: A Model-Based Approach to AI Control [31.9089380929602]
本稿では,LWM(Language-Guided World Models)の概念を紹介する。
LWMは、テキストを読むことで環境をシミュレートできる確率モデルである。
構成言語記述を一般化できる堅牢なLWMを開発するための最初のステップを採る。
論文 参考訳(メタデータ) (2024-01-24T03:11:36Z) - Has Your Pretrained Model Improved? A Multi-head Posterior Based
Approach [25.927323251675386]
我々は、世界的知識の源として各エンティティに関連するメタ機能を活用し、モデルからエンティティ表現を採用する。
本稿では,これらの表現とメタ機能との整合性を,事前学習モデルの評価指標として用いることを提案する。
提案手法の有効性は,関係データセットを用いたモデル,大規模言語モデル,画像モデルなど,様々な領域で実証されている。
論文 参考訳(メタデータ) (2024-01-02T17:08:26Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - Style-Hallucinated Dual Consistency Learning: A Unified Framework for
Visual Domain Generalization [113.03189252044773]
本稿では,様々な視覚的タスクにおけるドメインシフトを処理するための統合フレームワークであるStyle-HAllucinated Dual consistEncy Learning (SHADE)を提案する。
我々の汎用SHADEは、画像分類、セマンティックセグメンテーション、オブジェクト検出など、様々な視覚認識タスクにおける一般化を著しく向上させることができる。
論文 参考訳(メタデータ) (2022-12-18T11:42:51Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - QAGAN: Adversarial Approach To Learning Domain Invariant Language
Features [0.76146285961466]
ドメイン不変の特徴を学習するための敵対的学習手法について検討する。
EMスコアが15.2%改善され、ドメイン外の検証データセットでF1スコアが5.6%向上しました。
論文 参考訳(メタデータ) (2022-06-24T17:42:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。