論文の概要: Hulk: A Universal Knowledge Translator for Human-Centric Tasks
- arxiv url: http://arxiv.org/abs/2312.01697v5
- Date: Wed, 06 Aug 2025 10:40:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.229163
- Title: Hulk: A Universal Knowledge Translator for Human-Centric Tasks
- Title(参考訳): ハルク:人間中心タスクのための普遍的知識翻訳装置
- Authors: Yizhou Wang, Yixuan Wu, Weizhen He, Xun Guo, Feng Zhu, Lei Bai, Rui Zhao, Jian Wu, Tong He, Wanli Ouyang, Shixiang Tang,
- Abstract要約: 我々は、最初のマルチモーダルな人間中心ジェネラリストモデルであるハルクを提示する。
2Dビジョン、3Dビジョン、スケルトンベース、そしてタスク固有の微調整なしで視覚言語タスクに対処する。
Hulkは11のベンチマークで最先端のパフォーマンスを達成した。
- 参考スコア(独自算出の注目度): 69.8518392427151
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human-centric perception tasks, e.g., pedestrian detection, skeleton-based action recognition, and pose estimation, have wide industrial applications, such as metaverse and sports analysis. There is a recent surge to develop human-centric foundation models that can benefit a broad range of human-centric perception tasks. While many human-centric foundation models have achieved success, they did not explore 3D and vision-language tasks for human-centric and required task-specific finetuning. These limitations restrict their application to more downstream tasks and situations. To tackle these problems, we present Hulk, the first multimodal human-centric generalist model, capable of addressing 2D vision, 3D vision, skeleton-based, and vision-language tasks without task-specific finetuning. The key to achieving this is condensing various task-specific heads into two general heads, one for discrete representations, \emph{e.g.,} languages, and the other for continuous representations, \emph{e.g.,} location coordinates. The outputs of two heads can be further stacked into four distinct input and output modalities. This uniform representation enables Hulk to treat diverse human-centric tasks as modality translation, integrating knowledge across a wide range of tasks. Comprehensive evaluations of Hulk on 12 benchmarks covering 8 human-centric tasks demonstrate the superiority of our proposed method, achieving state-of-the-art performance in 11 benchmarks. The code will be available on https://github.com/OpenGVLab/Hulk.
- Abstract(参考訳): 例えば、歩行者検出、骨格に基づく行動認識、ポーズ推定といった人間中心の知覚タスクは、メタバースやスポーツ分析といった幅広い産業的応用を持つ。
近年、人間中心の知覚タスクの幅広い分野に利益をもたらすような、人間中心の基盤モデルの開発が急増している。
多くの人間中心の基礎モデルは成功したが、人間中心で要求されるタスク固有の微調整のための3Dおよび視覚言語タスクを探索しなかった。
これらの制限により、アプリケーションはより下流のタスクや状況に制限される。
これらの課題に対処するために,タスク固有の微調整を伴わずに2次元視覚,3次元視覚,骨格ベース,視覚言語タスクに対処可能な,最初のマルチモーダルな人間中心ジェネリストモデルであるHulkを提案する。
これを達成するための鍵は、様々なタスク固有のヘッドを2つの一般的なヘッドに凝縮することであり、1つは離散表現、もう1つは連続表現、そしてもう1つは位置座標である \emph{e g ,} である。
2つのヘッドの出力はさらに4つの異なる入力と出力のモダリティに積み重ねることができる。
この一様表現により、ハルクは多種多様な人間中心のタスクをモダリティの翻訳として扱うことができ、幅広いタスクに知識を統合することができる。
ヒト中心タスクを8つ含む12のベンチマークにおけるハルクの総合評価は、提案手法の優位性を実証し、11のベンチマークで最先端のパフォーマンスを達成する。
コードはhttps://github.com/OpenGVLab/Hulk.comで入手できる。
関連論文リスト
- HIS-GPT: Towards 3D Human-In-Scene Multimodal Understanding [57.763735969891286]
具体的エージェントに対するヒューマン・イン・シーン・サーチ・アンサーリング(HIS-QA)のためのヒューマン・イン・シーン・理解のベンチマークのための新しいタスクを提案する。
HIS-QAは、エージェントが人間の状態や行動を理解し、周囲の環境を判断し、シーン内の人間関連の質問に答えることを要求する。
広帯域でのHIS理解を体系的に評価するマルチモーダル・ベンチマークであるHIS-Benchを提案する。
論文 参考訳(メタデータ) (2025-03-17T09:10:50Z) - Referring to Any Person [15.488874769107092]
既存のモデルは現実のユーザビリティを達成できず、現在のベンチマークは1対1の参照に集中することによって制限される。
我々は、これらの課題に対処し、現実世界のアプリケーションをよりよく反映するように設計された、新しいデータセットであるHumanRefを紹介します。
モデル設計の観点からは、マルチモーダルな大規模言語モデルとオブジェクト検出フレームワークを統合し、RexSeekという名前の堅牢な参照モデルを構築する。
論文 参考訳(メタデータ) (2025-03-11T14:57:14Z) - HumanOmni: A Large Vision-Speech Language Model for Human-Centric Video Understanding [16.93348898548816]
ヒューマン・オムニ(Human Omni)は、オムニ・マルチモーダル(Omni-multimodal)の言語モデルである。
我々は、細かなキャプションと1400万以上の指示を含む、240万以上の人間中心のビデオクリップを含むデータセットを構築した。
実験では,人間中心のシーンを多種多様なタスクで扱う上で,ヒト・オムニの高度な能力を検証した。
論文 参考訳(メタデータ) (2025-01-25T07:26:37Z) - RefHCM: A Unified Model for Referring Perceptions in Human-Centric Scenarios [60.772871735598706]
RefHCM(Referring Human-Centric Model)は、人間中心の幅広い参照タスクを統合するためのフレームワークである。
RefHCMは、画像、テキスト、座標、パースマップを含む生のマルチモーダルデータをセマンティックトークンに変換するためにシーケンスマージを採用している。
この研究は、一般的なフレームワークで人間の知覚を参照しようとする最初の試みである。
論文 参考訳(メタデータ) (2024-12-19T08:51:57Z) - HumanVLM: Foundation for Human-Scene Vision-Language Model [3.583459930633303]
ヒューマンシーンの視覚言語タスクは、多様な社会アプリケーションでますます普及している。
本研究では,HumanVLM(HumanVLM)というドメイン固有な大規模視覚言語モデルを提案する。
実験では, 様々な下流タスクにまたがってヒューマンVLMを評価し, 総合的な性能が向上することを示した。
論文 参考訳(メタデータ) (2024-11-05T12:14:57Z) - A Unified Framework for Human-centric Point Cloud Video Understanding [23.91555808792291]
人間中心のポイントクラウドビデオ理解(PVU)は、人間のポイントクラウドのシーケンスから人間に関連する特徴を抽出し、解釈することに焦点を当てた新興分野である。
本稿では,従来の知識を十分に活用する統一的なフレームワークを提案し,汎用的人間中心のクラウドビデオ理解のためのデータ自体の本質的特徴を探求する。
本手法は,動作認識や3次元ポーズ推定など,多種多様なヒューマンタスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-29T07:53:06Z) - CapHuman: Capture Your Moments in Parallel Universes [60.06408546134581]
CapHumanという新しいフレームワークを紹介します。
CapHumanはアイデンティティ機能をエンコードし、それを潜在空間に整列させることを学ぶ。
モデルに人間の頭部を柔軟で3D一貫性のある方法で制御させる前に、3D顔を導入する。
論文 参考訳(メタデータ) (2024-02-01T14:41:59Z) - EmbodiedScan: A Holistic Multi-Modal 3D Perception Suite Towards
Embodied AI [88.03089807278188]
EmbodiedScanはマルチモーダルでエゴ中心の3D知覚データセットであり、総合的な3Dシーン理解のためのベンチマークである。
1Mのエゴ中心のRGB-Dビューをカプセル化した5kスキャン、1Mの言語プロンプト、760以上のカテゴリにまたがる160kの3D指向ボックスを含んでいる。
このデータベースに基づいて、Embodied Perceptronというベースラインフレームワークを導入します。
任意の数のマルチモーダル入力を処理でき、顕著な3D知覚能力を示す。
論文 参考訳(メタデータ) (2023-12-26T18:59:11Z) - You Only Learn One Query: Learning Unified Human Query for Single-Stage Multi-Person Multi-Task Human-Centric Perception [37.667147915777534]
人間中心の知覚は、コンピュータビジョンの長年の問題である。
本稿では,一段階多人数マルチタスク人間中心認識(HCP)のための統合多目的フレームワーク(HQNet)を提案する。
Human Queryは、個人のための複雑なインスタンスレベルの機能をキャプチャし、複雑なマルチパーソンシナリオを分離する。
論文 参考訳(メタデータ) (2023-12-09T10:36:43Z) - Human-centric Scene Understanding for 3D Large-scale Scenarios [52.12727427303162]
本稿では,HuCenLifeという,人間中心のシーン理解のための大規模マルチモーダルデータセットを提案する。
私たちのHuCenLifeは、セグメンテーション、検出、アクション認識など、多くの3D認識タスクに役立ちます。
論文 参考訳(メタデータ) (2023-07-26T08:40:46Z) - HumanBench: Towards General Human-centric Perception with Projector
Assisted Pretraining [75.1086193340286]
汎用的な人中心下流作業のための一般的な事前訓練モデルを持つことが望ましい。
本研究では,既存のデータセットをベースとしたtextbfHumanBench を提案する。
我々のPATHは、17の下流データセットと他の2つのデータセットの中間結果に対して、最先端の新たな結果を達成する。
論文 参考訳(メタデータ) (2023-03-10T02:57:07Z) - UniHCP: A Unified Model for Human-Centric Perceptions [75.38263862084641]
我々は、人間中心知覚のための統一モデル(UniHCP)を提案する。
UniHCPは、単純なエンドツーエンドで広範囲の人間中心のタスクをプレーンビジョントランスフォーマーアーキテクチャと統合する。
33の人間中心のデータセットで大規模な共同トレーニングを行うことで、UniHCPは直接評価によって強いベースラインを上回ります。
論文 参考訳(メタデータ) (2023-03-06T07:10:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。