論文の概要: Hulk: A Universal Knowledge Translator for Human-Centric Tasks
- arxiv url: http://arxiv.org/abs/2312.01697v3
- Date: Wed, 27 Dec 2023 06:44:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 21:35:15.524302
- Title: Hulk: A Universal Knowledge Translator for Human-Centric Tasks
- Title(参考訳): Hulk:人間中心タスクのためのユニバーサル知識翻訳ツール
- Authors: Yizhou Wang, Yixuan Wu, Shixiang Tang, Weizhen He, Xun Guo, Feng Zhu,
Lei Bai, Rui Zhao, Jian Wu, Tong He, Wanli Ouyang
- Abstract要約: 我々は、最初のマルチモーダルな人間中心ジェネラリストモデルであるハルクを提示する。
Hulkは、タスク固有の微調整なしで、2D視覚、3D視覚、スケルトンベース、および視覚言語タスクに対処することができる。
- 参考スコア(独自算出の注目度): 71.93085044718397
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human-centric perception tasks, e.g., pedestrian detection, skeleton-based
action recognition, and pose estimation, have wide industrial applications,
such as metaverse and sports analysis. There is a recent surge to develop
human-centric foundation models that can benefit a broad range of human-centric
perception tasks. While many human-centric foundation models have achieved
success, they did not explore 3D and vision-language tasks for human-centric
and required task-specific finetuning. These limitations restrict their
application to more downstream tasks and situations. To tackle these problems,
we present Hulk, the first multimodal human-centric generalist model, capable
of addressing 2D vision, 3D vision, skeleton-based, and vision-language tasks
without task-specific finetuning. The key to achieving this is condensing
various task-specific heads into two general heads, one for discrete
representations, e.g., languages, and the other for continuous representations,
e.g., location coordinates. The outputs of two heads can be further stacked
into four distinct input and output modalities. This uniform representation
enables Hulk to treat diverse human-centric tasks as modality translation,
integrating knowledge across a wide range of tasks. Comprehensive evaluations
of Hulk on 12 benchmarks covering 8 human-centric tasks demonstrate the
superiority of our proposed method, achieving state-of-the-art performance in
11 benchmarks. The code will be available on
https://github.com/OpenGVLab/HumanBench.
- Abstract(参考訳): 人間中心の知覚タスク、例えば歩行者検出、スケルトンに基づく行動認識、ポーズ推定は、メタバースやスポーツ分析のような幅広い産業応用がある。
近年、人間中心の知覚タスクに利益をもたらす人間中心の基礎モデルの開発が急増している。
多くの人間中心の基礎モデルは成功したが、人間中心で必要なタスク固有の微調整のための3dおよび視覚言語タスクは探索しなかった。
これらの制限により、アプリケーションはより下流のタスクや状況に制限される。
これらの問題に対処するために,2次元視覚,3次元視覚,骨格ベース,視覚言語タスクをタスク固有の微調整なしで対応可能な,初のマルチモーダル人間中心のジェネラリストモデルであるhulkを提案する。
これを達成する鍵は、様々なタスク固有のヘッドを2つの一般的なヘッドにまとめることである。1つは離散表現、例えば言語、もう1つは連続表現、例えば位置座標である。
2つのヘッドの出力はさらに4つの異なる入力と出力のモダリティに積み重ねることができる。
この一様表現により、ハルクは多様な人間中心のタスクをモダリティ翻訳として扱い、幅広いタスクに知識を統合することができる。
ヒト中心タスクを8つ含む12のベンチマークにおけるハルクの総合的な評価は,提案手法の優位性を示し,11のベンチマークで最先端のパフォーマンスを達成する。
コードはhttps://github.com/OpenGVLab/HumanBench.comで入手できる。
関連論文リスト
- CapHuman: Capture Your Moments in Parallel Universes [64.43951107473325]
CapHumanという新しいフレームワークを紹介します。
CapHumanはアイデンティティ機能をエンコードし、それを潜在空間に整列させることを学ぶ。
モデルに人間の頭部を柔軟で3D一貫性のある方法で制御させる前に、3D顔を導入する。
論文 参考訳(メタデータ) (2024-02-01T14:41:59Z) - Generating Human-Centric Visual Cues for Human-Object Interaction
Detection via Large Vision-Language Models [59.611697856666304]
人-物対検出(Human-object Interaction:HOI)は、人-物対を検出し、その相互作用を予測することを目的とする。
我々はVLMを用いた3つのプロンプトを提案し、人間の複数の視点から画像内で人間中心の視覚的手がかりを生成する。
我々は,マルチトワーアーキテクチャを用いたトランスフォーマーベースのマルチモーダル融合モジュールを開発し,視覚的キュー機能をインスタンスと対話デコーダに統合する。
論文 参考訳(メタデータ) (2023-11-26T09:11:32Z) - Human-centric Scene Understanding for 3D Large-scale Scenarios [52.12727427303162]
本稿では,HuCenLifeという,人間中心のシーン理解のための大規模マルチモーダルデータセットを提案する。
私たちのHuCenLifeは、セグメンテーション、検出、アクション認識など、多くの3D認識タスクに役立ちます。
論文 参考訳(メタデータ) (2023-07-26T08:40:46Z) - Personality-aware Human-centric Multimodal Reasoning: A New Task,
Dataset and Baselines [32.82738983843281]
我々はPersonality-aware Human-centric Multimodal Reasoning (PHMR) (T1)と呼ばれる新しいタスクを導入する。
課題は、過去の事例から得たマルチモーダル情報を用いて、個性要素を統合しながら、特定の個人の将来行動を予測することである。
実験の結果,性格特性を取り入れることで,人間中心の多モーダル推論性能が向上することが示された。
論文 参考訳(メタデータ) (2023-04-05T09:09:10Z) - Object-Centric Multi-Task Learning for Human Instances [8.035105819936808]
オブジェクト中心学習によって複数のタスクのパラメータを最大に共有する,コンパクトなマルチタスクネットワークアーキテクチャについて検討する。
我々は、人中心クエリ(HCQ)と呼ばれる、人間のインスタンス情報を効果的に符号化する新しいクエリ設計を提案する。
実験結果から,提案したマルチタスクネットワークは,最先端タスク固有モデルに匹敵する精度を実現することがわかった。
論文 参考訳(メタデータ) (2023-03-13T01:10:50Z) - HumanBench: Towards General Human-centric Perception with Projector
Assisted Pretraining [75.1086193340286]
汎用的な人中心下流作業のための一般的な事前訓練モデルを持つことが望ましい。
本研究では,既存のデータセットをベースとしたtextbfHumanBench を提案する。
我々のPATHは、17の下流データセットと他の2つのデータセットの中間結果に対して、最先端の新たな結果を達成する。
論文 参考訳(メタデータ) (2023-03-10T02:57:07Z) - UniHCP: A Unified Model for Human-Centric Perceptions [75.38263862084641]
我々は、人間中心知覚のための統一モデル(UniHCP)を提案する。
UniHCPは、単純なエンドツーエンドで広範囲の人間中心のタスクをプレーンビジョントランスフォーマーアーキテクチャと統合する。
33の人間中心のデータセットで大規模な共同トレーニングを行うことで、UniHCPは直接評価によって強いベースラインを上回ります。
論文 参考訳(メタデータ) (2023-03-06T07:10:07Z) - Deep Learning Technique for Human Parsing: A Survey and Outlook [5.236995853909988]
本調査では,1人のパース,複数人のパース,ビデオ人間のパースという3つのサブタスクを総合的にレビューする。
我々はトランスフォーマーに基づくヒューマンパーシングフレームワークを提案し、フォローアップ研究のための高性能なベースラインを提供する。
この分野では未検討のオープンな課題の集合を指摘し、今後の研究に向けた新たな方向性を提案する。
論文 参考訳(メタデータ) (2023-01-01T12:39:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。