Fugu-MT 論文翻訳(概要): Hulk: A Universal Knowledge Translator for Human-Centric Tasks

論文の概要: Hulk: A Universal Knowledge Translator for Human-Centric Tasks

arxiv url: http://arxiv.org/abs/2312.01697v1
Date: Mon, 4 Dec 2023 07:36:04 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-05 15:46:39.163448
Title: Hulk: A Universal Knowledge Translator for Human-Centric Tasks
Title（参考訳）: Hulk:人間中心タスクのためのユニバーサル知識翻訳ツール
Authors: Yizhou Wang, Yixuan Wu, Shixiang Tang, Weizhen He, Xun Guo, Feng Zhu, Lei Bai, Rui Zhao, Jian Wu, Tong He, Wanli Ouyang
Abstract要約: 我々は、最初のマルチモーダルな人間中心ジェネラリストモデルであるハルクを提示する。 2Dビジョン、3Dビジョン、スケルトンベース、視覚言語タスクをカバーしている。ハルクは人間中心のタスクをモダリティの翻訳として扱い、幅広いタスクに知識を統合する。
参考スコア（独自算出の注目度）: 71.93085044718397
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Human-centric perception tasks, e.g., human mesh recovery, pedestrian detection, skeleton-based action recognition, and pose estimation, have wide industrial applications, such as metaverse and sports analysis. There is a recent surge to develop human-centric foundation models that can benefit a broad range of human-centric perception tasks. While many human-centric foundation models have achieved success, most of them only excel in 2D vision tasks or require extensive fine-tuning for practical deployment in real-world scenarios. These limitations severely restrict their usability across various downstream tasks and situations. To tackle these problems, we present Hulk, the first multimodal human-centric generalist model, capable of addressing most of the mainstream tasks simultaneously without task-specific finetuning, covering 2D vision, 3D vision, skeleton-based, and vision-language tasks. The key to achieving this is condensing various task-specific heads into two general heads, one for discrete representations, e.g., languages, and the other for continuous representations, e.g., location coordinates. The outputs of two heads can be further stacked into four distinct input and output modalities. This uniform representation enables Hulk to treat human-centric tasks as modality translation, integrating knowledge across a wide range of tasks. To validate the effectiveness of our proposed method, we conduct comprehensive experiments on 11 benchmarks across 8 human-centric tasks. Experimental results surpass previous methods substantially, demonstrating the superiority of our proposed method. The code will be available on https://github.com/OpenGVLab/HumanBench.
Abstract（参考訳）: 人間中心の知覚タスク、例えば、人間のメッシュ回復、歩行者検出、骨格に基づく行動認識、ポーズ推定は、メタバースやスポーツ分析のような幅広い産業的応用を持つ。近年、人間中心の知覚タスクに利益をもたらす人間中心の基礎モデルの開発が急増している。多くの人間中心の基礎モデルが成功したが、その多くは2dビジョンタスクでのみ優れているか、現実のシナリオで実用的な配置のために広範囲な微調整を必要とする。これらの制限は、様々な下流のタスクや状況におけるユーザビリティを著しく制限する。これらの課題に対処するために,Hulkは,タスク固有の微調整を伴わずに,主要なタスクのほとんどに同時に対処可能な,最初のマルチモーダルな人間中心ジェネリストモデルである。これを達成する鍵は、様々なタスク固有のヘッドを2つの一般的なヘッドにまとめることである。1つは離散表現、例えば言語、もう1つは連続表現、例えば位置座標である。 2つのヘッドの出力はさらに4つの異なる入力と出力のモダリティに積み重ねることができる。この一様表現により、ハルクは人間中心のタスクをモダリティの翻訳として扱うことができ、幅広いタスクの知識を統合することができる。提案手法の有効性を検証するため,人間中心の8つのタスクにまたがる11のベンチマークの総合的な実験を行った。実験結果は従来の方法を大きく上回り,提案手法の優越性を示した。コードはhttps://github.com/OpenGVLab/HumanBench.comで入手できる。

関連論文リスト

Human-MME: A Holistic Evaluation Benchmark for Human-Centric Multimodal Large Language Models [118.44328586173556]
MLLM(Multimodal Large Language Models)は視覚的理解タスクにおいて大きな進歩を見せている。 Human-MMEは、人間中心のシーン理解におけるMLLMのより総合的な評価を提供するために設計された、キュレートされたベンチマークである。我々のベンチマークは、単一対象の理解を多対多の相互理解に拡張する。
論文参考訳（メタデータ） (2025-09-30T12:20:57Z)
HumanoidVerse: A Versatile Humanoid for Vision-Language Guided Multi-Object Rearrangement [51.16740261131198]
視覚言語誘導型ヒューマノイド制御のための新しいフレームワークであるHumanoidVerseを紹介する。 HumanoidVerseは、自然言語命令と自我中心のカメラRGB観測のみでガイドされる複数のオブジェクトの連続的な操作をサポートする。我々の研究は、現実の知覚的制約の下で複雑なシーケンシャルなタスクを実行できる、堅牢で汎用的なヒューマノイドエージェントに向けた重要なステップである。
論文参考訳（メタデータ） (2025-08-23T08:23:14Z)
HumanPCR: Probing MLLM Capabilities in Diverse Human-Centric Scenes [72.26829188852139]
HumanPCRは、人間の視覚的コンテキストに関するMLLMの能力を調べるための評価スイートである。 Human-P、HumanThought-C、Human-Rは、6,000以上の人間認証された複数の選択質問を特徴としている。 Human-Rは、手動でキュレートされたビデオ推論テストを提供する。
論文参考訳（メタデータ） (2025-08-19T09:52:04Z)
HIS-GPT: Towards 3D Human-In-Scene Multimodal Understanding [57.763735969891286]
具体的エージェントに対するヒューマン・イン・シーン・サーチ・アンサーリング(HIS-QA)のためのヒューマン・イン・シーン・理解のベンチマークのための新しいタスクを提案する。 HIS-QAは、エージェントが人間の状態や行動を理解し、周囲の環境を判断し、シーン内の人間関連の質問に答えることを要求する。広帯域でのHIS理解を体系的に評価するマルチモーダル・ベンチマークであるHIS-Benchを提案する。
論文参考訳（メタデータ） (2025-03-17T09:10:50Z)
Referring to Any Person [15.488874769107092]
既存のモデルは現実のユーザビリティを達成できず、現在のベンチマークは1対1の参照に集中することによって制限される。我々は、これらの課題に対処し、現実世界のアプリケーションをよりよく反映するように設計された、新しいデータセットであるHumanRefを紹介します。モデル設計の観点からは、マルチモーダルな大規模言語モデルとオブジェクト検出フレームワークを統合し、RexSeekという名前の堅牢な参照モデルを構築する。
論文参考訳（メタデータ） (2025-03-11T14:57:14Z)
HumanOmni: A Large Vision-Speech Language Model for Human-Centric Video Understanding [16.93348898548816]
ヒューマン・オムニ(Human Omni)は、オムニ・マルチモーダル(Omni-multimodal)の言語モデルである。我々は、細かなキャプションと1400万以上の指示を含む、240万以上の人間中心のビデオクリップを含むデータセットを構築した。実験では,人間中心のシーンを多種多様なタスクで扱う上で,ヒト・オムニの高度な能力を検証した。
論文参考訳（メタデータ） (2025-01-25T07:26:37Z)
RefHCM: A Unified Model for Referring Perceptions in Human-Centric Scenarios [60.772871735598706]
RefHCM(Referring Human-Centric Model)は、人間中心の幅広い参照タスクを統合するためのフレームワークである。 RefHCMは、画像、テキスト、座標、パースマップを含む生のマルチモーダルデータをセマンティックトークンに変換するためにシーケンスマージを採用している。この研究は、一般的なフレームワークで人間の知覚を参照しようとする最初の試みである。
論文参考訳（メタデータ） (2024-12-19T08:51:57Z)
HumanVLM: Foundation for Human-Scene Vision-Language Model [3.583459930633303]
ヒューマンシーンの視覚言語タスクは、多様な社会アプリケーションでますます普及している。本研究では,HumanVLM(HumanVLM)というドメイン固有な大規模視覚言語モデルを提案する。実験では, 様々な下流タスクにまたがってヒューマンVLMを評価し, 総合的な性能が向上することを示した。
論文参考訳（メタデータ） (2024-11-05T12:14:57Z)
A Unified Framework for Human-centric Point Cloud Video Understanding [23.91555808792291]
人間中心のポイントクラウドビデオ理解(PVU)は、人間のポイントクラウドのシーケンスから人間に関連する特徴を抽出し、解釈することに焦点を当てた新興分野である。本稿では,従来の知識を十分に活用する統一的なフレームワークを提案し,汎用的人間中心のクラウドビデオ理解のためのデータ自体の本質的特徴を探求する。本手法は,動作認識や3次元ポーズ推定など,多種多様なヒューマンタスクにおける最先端性能を実現する。
論文参考訳（メタデータ） (2024-03-29T07:53:06Z)
CapHuman: Capture Your Moments in Parallel Universes [60.06408546134581]
CapHumanという新しいフレームワークを紹介します。 CapHumanはアイデンティティ機能をエンコードし、それを潜在空間に整列させることを学ぶ。モデルに人間の頭部を柔軟で3D一貫性のある方法で制御させる前に、3D顔を導入する。
論文参考訳（メタデータ） (2024-02-01T14:41:59Z)
EmbodiedScan: A Holistic Multi-Modal 3D Perception Suite Towards Embodied AI [88.03089807278188]
EmbodiedScanはマルチモーダルでエゴ中心の3D知覚データセットであり、総合的な3Dシーン理解のためのベンチマークである。 1Mのエゴ中心のRGB-Dビューをカプセル化した5kスキャン、1Mの言語プロンプト、760以上のカテゴリにまたがる160kの3D指向ボックスを含んでいる。このデータベースに基づいて、Embodied Perceptronというベースラインフレームワークを導入します。任意の数のマルチモーダル入力を処理でき、顕著な3D知覚能力を示す。
論文参考訳（メタデータ） (2023-12-26T18:59:11Z)
You Only Learn One Query: Learning Unified Human Query for Single-Stage Multi-Person Multi-Task Human-Centric Perception [37.667147915777534]
人間中心の知覚は、コンピュータビジョンの長年の問題である。本稿では,一段階多人数マルチタスク人間中心認識(HCP)のための統合多目的フレームワーク(HQNet)を提案する。 Human Queryは、個人のための複雑なインスタンスレベルの機能をキャプチャし、複雑なマルチパーソンシナリオを分離する。
論文参考訳（メタデータ） (2023-12-09T10:36:43Z)
Human-centric Scene Understanding for 3D Large-scale Scenarios [52.12727427303162]
本稿では,HuCenLifeという,人間中心のシーン理解のための大規模マルチモーダルデータセットを提案する。私たちのHuCenLifeは、セグメンテーション、検出、アクション認識など、多くの3D認識タスクに役立ちます。
論文参考訳（メタデータ） (2023-07-26T08:40:46Z)
HumanBench: Towards General Human-centric Perception with Projector Assisted Pretraining [75.1086193340286]
汎用的な人中心下流作業のための一般的な事前訓練モデルを持つことが望ましい。本研究では,既存のデータセットをベースとしたtextbfHumanBench を提案する。我々のPATHは、17の下流データセットと他の2つのデータセットの中間結果に対して、最先端の新たな結果を達成する。
論文参考訳（メタデータ） (2023-03-10T02:57:07Z)
UniHCP: A Unified Model for Human-Centric Perceptions [75.38263862084641]
我々は、人間中心知覚のための統一モデル(UniHCP)を提案する。 UniHCPは、単純なエンドツーエンドで広範囲の人間中心のタスクをプレーンビジョントランスフォーマーアーキテクチャと統合する。 33の人間中心のデータセットで大規模な共同トレーニングを行うことで、UniHCPは直接評価によって強いベースラインを上回ります。
論文参考訳（メタデータ） (2023-03-06T07:10:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。