Fugu-MT 論文翻訳(概要): VLPose: Bridging the Domain Gap in Pose Estimation with Language-Vision Tuning

論文の概要: VLPose: Bridging the Domain Gap in Pose Estimation with Language-Vision Tuning

arxiv url: http://arxiv.org/abs/2402.14456v1
Date: Thu, 22 Feb 2024 11:21:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-23 15:35:09.584561
Title: VLPose: Bridging the Domain Gap in Pose Estimation with Language-Vision Tuning
Title（参考訳）: vlpose: 言語視点調整によるポーズ推定におけるドメインギャップの橋渡し
Authors: Jingyao Li, Pengguang Chen, Xuan Ju, Hong Xu, Jiaya Jia
Abstract要約: 我々は,効率的なチューニング戦略により,自然シナリオと人工シナリオのドメインギャップを埋める。ポーズ推定モデルの一般化とロバスト性を拡張するために,VLPoseと呼ばれる新しいフレームワークを開発した。我々はHumanArtとMSCOCOでそれぞれ2.26%と3.74%の改善を示した。
参考スコア（独自算出の注目度）: 53.35114015288077
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Thanks to advances in deep learning techniques, Human Pose Estimation (HPE) has achieved significant progress in natural scenarios. However, these models perform poorly in artificial scenarios such as painting and sculpture due to the domain gap, constraining the development of virtual reality and augmented reality. With the growth of model size, retraining the whole model on both natural and artificial data is computationally expensive and inefficient. Our research aims to bridge the domain gap between natural and artificial scenarios with efficient tuning strategies. Leveraging the potential of language models, we enhance the adaptability of traditional pose estimation models across diverse scenarios with a novel framework called VLPose. VLPose leverages the synergy between language and vision to extend the generalization and robustness of pose estimation models beyond the traditional domains. Our approach has demonstrated improvements of 2.26% and 3.74% on HumanArt and MSCOCO, respectively, compared to state-of-the-art tuning strategies.
Abstract（参考訳）: 深層学習技術の進歩により,Human Pose Estimation (HPE)は自然シナリオにおいて大きな進歩を遂げた。しかし、これらのモデルは、領域ギャップによる絵画や彫刻などの人工シナリオでは不十分であり、仮想現実や拡張現実の開発を制約している。モデルサイズの成長に伴い、モデル全体を自然データと人工データの両方で再トレーニングすることは計算コストが高く非効率である。本研究の目的は,自然シナリオと人工シナリオのドメインギャップを効率的なチューニング戦略で埋めることである。言語モデルの可能性を活用し、vlposeと呼ばれる新しいフレームワークを用いて、様々なシナリオにわたる従来のポーズ推定モデルの適応性を高める。 VLPoseは言語と視覚の相乗効果を利用して、伝統的なドメインを超えてポーズ推定モデルの一般化と堅牢性を拡張する。提案手法は,最先端のチューニング戦略と比較して,humanartとmscocoでそれぞれ2.26%,3.74%の改善を示した。

関連論文リスト

Contextual Online Uncertainty-Aware Preference Learning for Human Feedback [13.478503755314344]
RLHF(Reinforcement Learning from Human Feedback)は人工知能において重要なパラダイムとなっている。最適モデルに基づくオンライン意思決定と統計的推測を同時に行うための新しい統計的枠組みを提案する。本稿では,大規模マルチタスク言語理解データセット上での大規模言語モデルのランク付けのための人間の嗜好データ分析に,提案手法を適用した。
論文参考訳（メタデータ） (2025-04-27T19:59:11Z)
Learning Transformer-based World Models with Contrastive Predictive Coding [58.0159270859475]
変換器の表現能力を十分に活用するには,次の状態予測目標が不十分であることを示す。本稿では,行動条件のContrastive Predictive Codingを用いた世界モデルであるTWISTERを導入することで,世界モデル予測をより長い時間的地平線まで拡張することを提案する。 TWISTERは、Atari 100kベンチマークで162%の人間正規化平均スコアを達成し、ルックアヘッド検索を使用しない最先端のメソッドの中で、新しい記録を樹立した。
論文参考訳（メタデータ） (2025-03-06T13:18:37Z)
High Quality Human Image Animation using Regional Supervision and Motion Blur Condition [97.97432499053966]
我々は、顔と手の忠実度を高めるために、詳細な地域に対する地域監督を活用している。第二に、動作のぼかしを明示的にモデル化し、外観の質をさらに向上させる。第3に,高精細な人体アニメーションのための新しいトレーニング戦略を探求し,全体の忠実度を向上する。
論文参考訳（メタデータ） (2024-09-29T06:46:31Z)
ReVLA: Reverting Visual Domain Limitation of Robotic Foundation Models [55.07988373824348]
既存の3つのロボット基礎モデルの視覚的一般化能力について検討する。本研究は,既存のモデルがドメイン外シナリオに対する堅牢性を示していないことを示す。モデルマージに基づく段階的なバックボーンリバーサルアプローチを提案する。
論文参考訳（メタデータ） (2024-09-23T17:47:59Z)
Regularized Training with Generated Datasets for Name-Only Transfer of Vision-Language Models [36.59260354292177]
近年のテキスト・画像生成の進歩により、研究者は生成モデルを用いて知覚モデルに適したデータセットを生成するようになった。我々は、実際の画像にアクセスせずに、視覚言語モデルを特定の分類モデルに微調整することを目指している。生成した画像の忠実度が高いにもかかわらず、生成したデータセットを用いてモデルを微調整すると、顕著な性能劣化が観測された。
論文参考訳（メタデータ） (2024-06-08T10:43:49Z)
COPAL: Continual Pruning in Large Language Generative Models [23.747878534962663]
COPALは、連続的なモデル適応設定の下で、大規模言語生成モデルを解析するために開発されたアルゴリズムである。 LLMの様々なサイズに対する実験的な評価は,COPALがベースラインモデルより優れていることを示している。
論文参考訳（メタデータ） (2024-05-02T18:24:41Z)
Language-Guided World Models: A Model-Based Approach to AI Control [31.9089380929602]
本稿では,LWM(Language-Guided World Models)の概念を紹介する。 LWMは、テキストを読むことで環境をシミュレートできる確率モデルである。構成言語記述を一般化できる堅牢なLWMを開発するための最初のステップを採る。
論文参考訳（メタデータ） (2024-01-24T03:11:36Z)
Has Your Pretrained Model Improved? A Multi-head Posterior Based Approach [25.927323251675386]
我々は、世界的知識の源として各エンティティに関連するメタ機能を活用し、モデルからエンティティ表現を採用する。本稿では,これらの表現とメタ機能との整合性を,事前学習モデルの評価指標として用いることを提案する。提案手法の有効性は,関係データセットを用いたモデル,大規模言語モデル,画像モデルなど,様々な領域で実証されている。
論文参考訳（メタデータ） (2024-01-02T17:08:26Z)
Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文参考訳（メタデータ） (2023-06-09T07:22:12Z)
Style-Hallucinated Dual Consistency Learning: A Unified Framework for Visual Domain Generalization [113.03189252044773]
本稿では,様々な視覚的タスクにおけるドメインシフトを処理するための統合フレームワークであるStyle-HAllucinated Dual consistEncy Learning (SHADE)を提案する。我々の汎用SHADEは、画像分類、セマンティックセグメンテーション、オブジェクト検出など、様々な視覚認識タスクにおける一般化を著しく向上させることができる。
論文参考訳（メタデータ） (2022-12-18T11:42:51Z)
Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-12-17T00:26:31Z)
QAGAN: Adversarial Approach To Learning Domain Invariant Language Features [0.76146285961466]
ドメイン不変の特徴を学習するための敵対的学習手法について検討する。 EMスコアが15.2%改善され、ドメイン外の検証データセットでF1スコアが5.6%向上しました。
論文参考訳（メタデータ） (2022-06-24T17:42:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。