論文の概要: Scale-Aware Pre-Training for Human-Centric Visual Perception: Enabling Lightweight and Generalizable Models
- arxiv url: http://arxiv.org/abs/2503.08201v1
- Date: Tue, 11 Mar 2025 09:12:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:43:28.800117
- Title: Scale-Aware Pre-Training for Human-Centric Visual Perception: Enabling Lightweight and Generalizable Models
- Title(参考訳): 人中心視覚知覚のためのスケールアウェア事前学習:軽量モデルと一般化可能なモデルの実現
- Authors: Xuanhan Wang, Huimin Deng, Lianli Gao, Jingkuan Song,
- Abstract要約: 我々は、軽量視覚モデルが人中心視覚知覚(HVP)の一般的なパターンを取得できるようにするために、SAIP(Scale-Aware Image Pretraining)を導入した。
SAIPは、クロススケール一貫性の原理に基づく3つの学習目標を取り入れている。
12のHVPデータセットで実施された実験により、SAIPは9つの人間中心の視覚タスクにまたがる顕著な一般化能力を示すことが示された。
- 参考スコア(独自算出の注目度): 88.3233363693087
- License:
- Abstract: Human-centric visual perception (HVP) has recently achieved remarkable progress due to advancements in large-scale self-supervised pretraining (SSP). However, existing HVP models face limitations in adapting to real-world applications, which require general visual patterns for downstream tasks while maintaining computationally sustainable costs to ensure compatibility with edge devices. These limitations primarily arise from two issues: 1) the pretraining objectives focus solely on specific visual patterns, limiting the generalizability of the learned patterns for diverse downstream tasks; and 2) HVP models often exhibit excessively large model sizes, making them incompatible with real-world applications. To address these limitations, we introduce Scale-Aware Image Pretraining (SAIP), a novel SSP framework enabling lightweight vision models to acquire general patterns for HVP. Specifically, SAIP incorporates three learning objectives based on the principle of cross-scale consistency: 1) Cross-scale Matching (CSM) which contrastively learns image-level invariant patterns from multi-scale single-person images; 2) Cross-scale Reconstruction (CSR) which learns pixel-level consistent visual structures from multi-scale masked single-person images; and 3) Cross-scale Search (CSS) which learns to capture diverse patterns from multi-scale multi-person images. Three objectives complement one another, enabling lightweight models to learn multi-scale generalizable patterns essential for HVP downstream tasks.Extensive experiments conducted across 12 HVP datasets demonstrate that SAIP exhibits remarkable generalization capabilities across 9 human-centric vision tasks. Moreover, it achieves significant performance improvements over existing methods, with gains of 3%-13% in single-person discrimination tasks, 1%-11% in dense prediction tasks, and 1%-6% in multi-person visual understanding tasks.
- Abstract(参考訳): HVP(Human-centric visual perception)は、近年、大規模自己監督型事前訓練(SSP)の進歩により、顕著な進歩を遂げている。
しかし、既存のHVPモデルは、エッジデバイスとの互換性を確保するために計算に持続的なコストを維持しながら、下流タスクの一般的な視覚パターンを必要とする現実世界のアプリケーションに適応する際の制限に直面している。
これらの制限は主に2つの問題から生じる。
1)事前学習対象は、特定の視覚的パターンにのみ焦点をあて、多様な下流課題に対する学習パターンの一般化性を制限する。
2) HVPモデルは、しばしば非常に大きなモデルサイズを示し、現実世界のアプリケーションと互換性がない。
これらの制約に対処するために、軽量ビジョンモデルでHVPの一般的なパターンを取得できる新しいSSPフレームワークであるSAIP(Scale-Aware Image Pretraining)を導入する。
具体的には, クロススケール一貫性の原理に基づく3つの学習目標を組み込んだ。
1)マルチスケール単一人物画像から画像レベルの不変パターンを対照的に学習するクロススケールマッチング(CSM)
2)マルチスケールマスク付き単体画像から画素レベルの一貫した視覚構造を学習するクロススケール再構成(CSR)
3)多人数画像から多様なパターンを抽出することを学ぶクロススケール検索(CSS)。
3つの目的が互いに補完し、軽量モデルがHVPダウンストリームタスクに不可欠なマルチスケールの一般化可能なパターンを学習できるようにし、12のHVPデータセットにまたがる包括的な実験により、SAIPは9つの人間中心の視覚タスクにまたがる顕著な一般化能力を示すことを示した。
さらに,個人識別タスクの3%-13%,密接な予測タスクの1%-11%,多人数視覚理解タスクの1%-6%など,従来の手法に比べて大幅な性能向上を実現している。
関連論文リスト
- Semi-supervised Semantic Segmentation for Remote Sensing Images via Multi-scale Uncertainty Consistency and Cross-Teacher-Student Attention [59.19580789952102]
本稿では,RS画像セマンティックセグメンテーションタスクのための,新しい半教師付きマルチスケール不確かさとクロスTeacher-Student Attention(MUCA)モデルを提案する。
MUCAは、マルチスケールの不確実性整合正則化を導入することにより、ネットワークの異なる層における特徴写像間の整合性を制限する。
MUCAは学生ネットワークの誘導にクロス教師・学生の注意機構を使用し、学生ネットワークにより差別的な特徴表現を構築するよう誘導する。
論文 参考訳(メタデータ) (2025-01-18T11:57:20Z) - Intra-task Mutual Attention based Vision Transformer for Few-Shot Learning [12.5354658533836]
人間は、ほんのわずかの例に晒された後に、新しい、目に見えない画像を正確に分類する能力を持っている。
人工ニューラルネットワークモデルでは、限られたサンプルを持つ2つのイメージを区別する最も関連性の高い特徴を決定することが課題である。
本稿では,サポートとクエリサンプルをパッチに分割するタスク内相互注意手法を提案する。
論文 参考訳(メタデータ) (2024-05-06T02:02:57Z) - PAD: Self-Supervised Pre-Training with Patchwise-Scale Adapter for
Infrared Images [45.507517332100804]
RGB画像に対する自己教師付き学習(SSL)は大きな成功を収めているが、赤外線画像に対するSSLの研究は限られている。
一般的な事前トレーニングタスクを描画する非非同期赤外線画像は、効果が低い。
きめ細かいテクスチャの不足は、一般的な画像の特徴を学ぶのを特に困難にしている。
論文 参考訳(メタデータ) (2023-12-13T14:57:28Z) - An Efficient General-Purpose Modular Vision Model via Multi-Task
Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。
提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文 参考訳(メタデータ) (2023-06-29T17:59:57Z) - Progressive Multi-view Human Mesh Recovery with Self-Supervision [68.60019434498703]
既存のソリューションは通常、新しい設定への一般化性能の低下に悩まされる。
マルチビューヒューマンメッシュリカバリのためのシミュレーションに基づく新しいトレーニングパイプラインを提案する。
論文 参考訳(メタデータ) (2022-12-10T06:28:29Z) - One-Time Model Adaptation to Heterogeneous Clients: An Intra-Client and
Inter-Image Attention Design [40.97593636235116]
既存のバックボーン認識モデルに新たなICIIAモジュールを提案する。
特に、特定のクライアントからのターゲット画像が与えられた場合、ICIIAはクライアントの歴史的未ラベル画像から関連画像を取得するために、マルチヘッド自己アテンションを導入する。
ICIIAを5つの代表的なデータセットに対して9つのバックボーンモデルを用いて3つの異なる認識タスクを用いて評価した。
論文 参考訳(メタデータ) (2022-11-11T15:33:21Z) - Scale Attention for Learning Deep Face Representation: A Study Against
Visual Scale Variation [69.45176408639483]
我々はスケール空間理論に頼って凸層を再構築する。
我々はSCale AttentioN Conv Neural Network(textbfSCAN-CNN)という新しいスタイルを構築した。
単発方式として、推論はマルチショット融合よりも効率的である。
論文 参考訳(メタデータ) (2022-09-19T06:35:04Z) - X-Learner: Learning Cross Sources and Tasks for Universal Visual
Representation [71.51719469058666]
本稿では,X-Learnerという表現学習フレームワークを提案する。
X-Learnerは、様々なソースによって管理される複数の視覚タスクの普遍的な特徴を学習する。
X-Learnerは、追加のアノテーションやモダリティ、計算コストを使わずに、様々なタスクで強力なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-03-16T17:23:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。