論文の概要: Dynamic Pattern Alignment Learning for Pretraining Lightweight Human-Centric Vision Models
- arxiv url: http://arxiv.org/abs/2508.07144v1
- Date: Sun, 10 Aug 2025 02:27:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.726207
- Title: Dynamic Pattern Alignment Learning for Pretraining Lightweight Human-Centric Vision Models
- Title(参考訳): 軽量人中心視覚モデルの事前学習のための動的パターンアライメント学習
- Authors: Xuanhan Wang, Huimin Deng, Ke Liu, Jun Wang, Lianli Gao, Jingkuan Song,
- Abstract要約: 本研究では,軽量な人中心視覚モデルを効率的に学習するための動的パターンアライメント学習(DPAL)を提案する。
DPALは軽量なHVMをガイドし、大きなHVMから典型的な人間の視覚パターンをすべて学習し、様々な人間中心の視覚タスクに一般化することができる。
15の挑戦的なデータセットで実施された大規模な実験は、DPALの有効性を実証している。
- 参考スコア(独自算出の注目度): 84.30626369903221
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Human-centric vision models (HVMs) have achieved remarkable generalization due to large-scale pretraining on massive person images. However, their dependence on large neural architectures and the restricted accessibility of pretraining data significantly limits their practicality in real-world applications. To address this limitation, we propose Dynamic Pattern Alignment Learning (DPAL), a novel distillation-based pretraining framework that efficiently trains lightweight HVMs to acquire strong generalization from large HVMs. In particular, human-centric visual perception are highly dependent on three typical visual patterns, including global identity pattern, local shape pattern and multi-person interaction pattern. To achieve generalizable lightweight HVMs, we firstly design a dynamic pattern decoder (D-PaDe), acting as a dynamic Mixture of Expert (MoE) model. It incorporates three specialized experts dedicated to adaptively extract typical visual patterns, conditioned on both input image and pattern queries. And then, we present three levels of alignment objectives, which aims to minimize generalization gap between lightweight HVMs and large HVMs at global image level, local pixel level, and instance relation level. With these two deliberate designs, the DPAL effectively guides lightweight model to learn all typical human visual patterns from large HVMs, which can generalize to various human-centric vision tasks. Extensive experiments conducted on 15 challenging datasets demonstrate the effectiveness of the DPAL. Remarkably, when employing PATH-B as the teacher, DPAL-ViT/Ti (5M parameters) achieves surprising generalizability similar to existing large HVMs such as PATH-B (84M) and Sapiens-L (307M), and outperforms previous distillation-based pretraining methods including Proteus-ViT/Ti (5M) and TinyMiM-ViT/Ti (5M) by a large margin.
- Abstract(参考訳): HVM(Human-centric vision model)は、大量の人物画像に対する大規模な事前トレーニングにより、顕著な一般化を実現している。
しかし、大きなニューラルネットワークアーキテクチャへの依存と事前学習データのアクセス性制限により、現実のアプリケーションにおける実用性は著しく制限される。
この制限に対処するため,我々は,大規模HVMから強力な一般化を得るために,軽量HVMを効率的に訓練する,蒸留に基づく新しい事前学習フレームワークである動的パターンアライメント学習(DPAL)を提案する。
特に、人間中心の視覚知覚は、大域的なアイデンティティパターン、局所的な形状パターン、多対人インタラクションパターンを含む3つの典型的な視覚パターンに大きく依存している。
一般化可能な軽量HVMを実現するため,まず動的パターンデコーダ (D-PaDe) を設計し,Mixture of Expert (MoE) モデルとして機能する。
入力画像とパターンクエリの両方に条件付けされた、典型的な視覚パターンを適応的に抽出する専門的な3つの専門家が組み込まれている。
そこで我々は,グローバル画像レベル,局所画素レベル,インスタンス関係レベルにおいて,軽量HVMと大規模HVMとの一般化ギャップを最小化することを目的としたアライメント目標を3段階提示する。
これら2つの意図的な設計により、DPALはより軽量なモデルを用いて、大きなHVMから典型的な人間の視覚パターンをすべて学習し、様々な人間中心の視覚タスクに一般化することができる。
15の挑戦的なデータセットで実施された大規模な実験は、DPALの有効性を実証している。
注目すべきは、PATH-Bを教師として使用する場合、DPAL-ViT/Ti(5Mパラメータ)は、PATH-B(84M)やSapiens-L(307M)のような既存の大型HVMと同様の驚くほどの一般化性を達成し、Proteus-ViT/Ti(5M)やTinyMiM-ViT/Ti(5M)といった従来の蒸留による事前訓練方法よりも大きなマージンを達成していることである。
関連論文リスト
- Evo-0: Vision-Language-Action Model with Implicit Spatial Understanding [8.090058633054852]
ビジュアライゼーション・ランゲージ・アクション(VLA)モデルに3次元幾何学的特徴を暗黙的に注入するプラグイン・アンド・プレイ・モジュールを導入する。
提案手法は,様々なシナリオにおける最先端VLAモデルの性能を著しく向上させる。
論文 参考訳(メタデータ) (2025-07-01T04:05:47Z) - One RL to See Them All: Visual Triple Unified Reinforcement Learning [92.90120580989839]
V-Triuneは、視覚的推論と知覚タスクを1つのトレーニングパイプライン内で実現するビジュアルトリプル統一強化学習システムである。
V-Triuneは3つの補完的なコンポーネントで構成されている: Sample-Level Datashelf (多様なタスク入力を統一する)、Verifier-Level Reward (特殊検証を通じてカスタム報酬を提供する)。
本稿では,V-Triuneが処理する知覚タスクに対して適応的,進行的,明確なフィードバックを提供する,新しい動的IoU報酬を提案する。
論文 参考訳(メタデータ) (2025-05-23T17:41:14Z) - Scale-Aware Pre-Training for Human-Centric Visual Perception: Enabling Lightweight and Generalizable Models [88.3233363693087]
本研究では,人間中心の視覚知覚のための一般的なパターンを取得するために,SAIP(Scale-Aware Image Pretraining)を導入する。
SAIPは、クロススケール一貫性の原理に基づく3つの学習目標を取り入れている。
12のHVPデータセットで実施された実験では、SAIPは9つの人間中心の視覚タスクにまたがる顕著な能力を示す。
論文 参考訳(メタデータ) (2025-03-11T09:12:51Z) - Building 6G Radio Foundation Models with Transformer Architectures [6.70088826174291]
基礎深層学習(DL)モデルは、対象とするモダリティの一般的な、堅牢で適応可能な表現を学習するために設計されている。
これらのモデルは、自己教師付き学習(SSL)を使用して、大規模でラベルのないデータセットで事前訓練される
スペクトログラム学習のための無線基礎モデルとして視覚変換器(ViT)を提案する。
論文 参考訳(メタデータ) (2024-11-15T07:01:44Z) - DMT: Comprehensive Distillation with Multiple Self-supervised Teachers [27.037140667247208]
プレトレーニングモデル圧縮のためのDMT(Comprehensive Distillation with Multiple Self-supervised Teachers)を提案する。
評価実験の結果,提案手法は最先端の競合相手を大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2023-12-19T08:31:30Z) - UViM: A Unified Modeling Approach for Vision with Learned Guiding Codes [91.24112204588353]
我々は、幅広いコンピュータビジョンタスクをモデル化できる統一的なアプローチであるUViMを紹介する。
以前のモデルとは対照的に、UViMは全てのタスクに対して同じ機能を持つ。
多様な3つの視覚課題に対するUViMの有効性を実証する。
論文 参考訳(メタデータ) (2022-05-20T17:47:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。