論文の概要: Hulk: A Universal Knowledge Translator for Human-Centric Tasks
- arxiv url: http://arxiv.org/abs/2312.01697v2
- Date: Tue, 5 Dec 2023 05:37:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 12:38:26.017630
- Title: Hulk: A Universal Knowledge Translator for Human-Centric Tasks
- Title(参考訳): Hulk:人間中心タスクのためのユニバーサル知識翻訳ツール
- Authors: Yizhou Wang, Yixuan Wu, Shixiang Tang, Weizhen He, Xun Guo, Feng Zhu,
Lei Bai, Rui Zhao, Jian Wu, Tong He, Wanli Ouyang
- Abstract要約: 我々は、最初のマルチモーダルな人間中心ジェネラリストモデルであるハルクを提示する。
2Dビジョン、3Dビジョン、スケルトンベース、視覚言語タスクをカバーしている。
ハルクは人間中心のタスクをモダリティの翻訳として扱い、幅広いタスクに知識を統合する。
- 参考スコア(独自算出の注目度): 71.93085044718397
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human-centric perception tasks, e.g., human mesh recovery, pedestrian
detection, skeleton-based action recognition, and pose estimation, have wide
industrial applications, such as metaverse and sports analysis. There is a
recent surge to develop human-centric foundation models that can benefit a
broad range of human-centric perception tasks. While many human-centric
foundation models have achieved success, most of them only excel in 2D vision
tasks or require extensive fine-tuning for practical deployment in real-world
scenarios. These limitations severely restrict their usability across various
downstream tasks and situations. To tackle these problems, we present Hulk, the
first multimodal human-centric generalist model, capable of addressing most of
the mainstream tasks simultaneously without task-specific finetuning, covering
2D vision, 3D vision, skeleton-based, and vision-language tasks. The key to
achieving this is condensing various task-specific heads into two general
heads, one for discrete representations, e.g., languages, and the other for
continuous representations, e.g., location coordinates. The outputs of two
heads can be further stacked into four distinct input and output modalities.
This uniform representation enables Hulk to treat human-centric tasks as
modality translation, integrating knowledge across a wide range of tasks. To
validate the effectiveness of our proposed method, we conduct comprehensive
experiments on 11 benchmarks across 8 human-centric tasks. Experimental results
surpass previous methods substantially, demonstrating the superiority of our
proposed method. The code will be available on
https://github.com/OpenGVLab/HumanBench.
- Abstract(参考訳): 人間中心の知覚タスク、例えば、人間のメッシュ回復、歩行者検出、骨格に基づく行動認識、ポーズ推定は、メタバースやスポーツ分析のような幅広い産業的応用を持つ。
近年、人間中心の知覚タスクに利益をもたらす人間中心の基礎モデルの開発が急増している。
多くの人間中心の基礎モデルが成功したが、その多くは2dビジョンタスクでのみ優れているか、現実のシナリオで実用的な配置のために広範囲な微調整を必要とする。
これらの制限は、様々な下流のタスクや状況におけるユーザビリティを著しく制限する。
これらの課題に対処するために,Hulkは,タスク固有の微調整を伴わずに,主要なタスクのほとんどに同時に対処可能な,最初のマルチモーダルな人間中心ジェネリストモデルである。
これを達成する鍵は、様々なタスク固有のヘッドを2つの一般的なヘッドにまとめることである。1つは離散表現、例えば言語、もう1つは連続表現、例えば位置座標である。
2つのヘッドの出力はさらに4つの異なる入力と出力のモダリティに積み重ねることができる。
この一様表現により、ハルクは人間中心のタスクをモダリティの翻訳として扱うことができ、幅広いタスクの知識を統合することができる。
提案手法の有効性を検証するため,人間中心の8つのタスクにまたがる11のベンチマークの総合的な実験を行った。
実験結果は従来の方法を大きく上回り,提案手法の優越性を示した。
コードはhttps://github.com/OpenGVLab/HumanBench.comで入手できる。
関連論文リスト
- HumanVLM: Foundation for Human-Scene Vision-Language Model [3.583459930633303]
ヒューマンシーンの視覚言語タスクは、多様な社会アプリケーションでますます普及している。
本研究では,HumanVLM(HumanVLM)というドメイン固有な大規模視覚言語モデルを提案する。
実験では, 様々な下流タスクにまたがってヒューマンVLMを評価し, 総合的な性能が向上することを示した。
論文 参考訳(メタデータ) (2024-11-05T12:14:57Z) - A Unified Framework for Human-centric Point Cloud Video Understanding [23.91555808792291]
人間中心のポイントクラウドビデオ理解(PVU)は、人間のポイントクラウドのシーケンスから人間に関連する特徴を抽出し、解釈することに焦点を当てた新興分野である。
本稿では,従来の知識を十分に活用する統一的なフレームワークを提案し,汎用的人間中心のクラウドビデオ理解のためのデータ自体の本質的特徴を探求する。
本手法は,動作認識や3次元ポーズ推定など,多種多様なヒューマンタスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-29T07:53:06Z) - CapHuman: Capture Your Moments in Parallel Universes [60.06408546134581]
CapHumanという新しいフレームワークを紹介します。
CapHumanはアイデンティティ機能をエンコードし、それを潜在空間に整列させることを学ぶ。
モデルに人間の頭部を柔軟で3D一貫性のある方法で制御させる前に、3D顔を導入する。
論文 参考訳(メタデータ) (2024-02-01T14:41:59Z) - EmbodiedScan: A Holistic Multi-Modal 3D Perception Suite Towards
Embodied AI [88.03089807278188]
EmbodiedScanはマルチモーダルでエゴ中心の3D知覚データセットであり、総合的な3Dシーン理解のためのベンチマークである。
1Mのエゴ中心のRGB-Dビューをカプセル化した5kスキャン、1Mの言語プロンプト、760以上のカテゴリにまたがる160kの3D指向ボックスを含んでいる。
このデータベースに基づいて、Embodied Perceptronというベースラインフレームワークを導入します。
任意の数のマルチモーダル入力を処理でき、顕著な3D知覚能力を示す。
論文 参考訳(メタデータ) (2023-12-26T18:59:11Z) - You Only Learn One Query: Learning Unified Human Query for Single-Stage Multi-Person Multi-Task Human-Centric Perception [37.667147915777534]
人間中心の知覚は、コンピュータビジョンの長年の問題である。
本稿では,一段階多人数マルチタスク人間中心認識(HCP)のための統合多目的フレームワーク(HQNet)を提案する。
Human Queryは、個人のための複雑なインスタンスレベルの機能をキャプチャし、複雑なマルチパーソンシナリオを分離する。
論文 参考訳(メタデータ) (2023-12-09T10:36:43Z) - Human-centric Scene Understanding for 3D Large-scale Scenarios [52.12727427303162]
本稿では,HuCenLifeという,人間中心のシーン理解のための大規模マルチモーダルデータセットを提案する。
私たちのHuCenLifeは、セグメンテーション、検出、アクション認識など、多くの3D認識タスクに役立ちます。
論文 参考訳(メタデータ) (2023-07-26T08:40:46Z) - HumanBench: Towards General Human-centric Perception with Projector
Assisted Pretraining [75.1086193340286]
汎用的な人中心下流作業のための一般的な事前訓練モデルを持つことが望ましい。
本研究では,既存のデータセットをベースとしたtextbfHumanBench を提案する。
我々のPATHは、17の下流データセットと他の2つのデータセットの中間結果に対して、最先端の新たな結果を達成する。
論文 参考訳(メタデータ) (2023-03-10T02:57:07Z) - UniHCP: A Unified Model for Human-Centric Perceptions [75.38263862084641]
我々は、人間中心知覚のための統一モデル(UniHCP)を提案する。
UniHCPは、単純なエンドツーエンドで広範囲の人間中心のタスクをプレーンビジョントランスフォーマーアーキテクチャと統合する。
33の人間中心のデータセットで大規模な共同トレーニングを行うことで、UniHCPは直接評価によって強いベースラインを上回ります。
論文 参考訳(メタデータ) (2023-03-06T07:10:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。