論文の概要: HumanVLM: Foundation for Human-Scene Vision-Language Model
- arxiv url: http://arxiv.org/abs/2411.03034v1
- Date: Tue, 05 Nov 2024 12:14:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-06 14:59:12.916696
- Title: HumanVLM: Foundation for Human-Scene Vision-Language Model
- Title(参考訳): Human-Scene Vision-Language ModelのためのHumanVLM
- Authors: Dawei Dai, Xu Long, Li Yutang, Zhang Yuanhui, Shuyin Xia,
- Abstract要約: ヒューマンシーンの視覚言語タスクは、多様な社会アプリケーションでますます普及している。
本研究では,HumanVLM(HumanVLM)というドメイン固有な大規模視覚言語モデルを提案する。
実験では, 様々な下流タスクにまたがってヒューマンVLMを評価し, 総合的な性能が向上することを示した。
- 参考スコア(独自算出の注目度): 3.583459930633303
- License:
- Abstract: Human-scene vision-language tasks are increasingly prevalent in diverse social applications, yet recent advancements predominantly rely on models specifically tailored to individual tasks. Emerging research indicates that large vision-language models (VLMs) can enhance performance across various downstream vision-language understanding tasks. However, general-domain models often underperform in specialized fields. This study introduces a domain-specific Large Vision-Language Model, Human-Scene Vision-Language Model (HumanVLM), designed to provide a foundation for human-scene Vision-Language tasks. Specifically, (1) we create a large-scale human-scene multimodal image-text dataset (HumanCaption-10M) sourced from the Internet to facilitate domain-specific alignment; (2) develop a captioning approach for human-centered images, capturing human faces, bodies, and backgrounds, and construct a high-quality Human-Scene image-text dataset (HumanCaptionHQ, about 311k pairs) that contain as much detailed information as possible about human; (3) Using HumanCaption-10M and HumanCaptionHQ, we train a HumanVLM. In the experiments, we then evaluate our HumanVLM across varous downstream tasks, where it demonstrates superior overall performance among multimodal models of comparable scale, particularly excelling in human-related tasks and significantly outperforming similar models, including Qwen2VL and ChatGPT-4o. HumanVLM, alongside the data introduced, will stimulate the research in human-around fields.
- Abstract(参考訳): 人間シーンの視覚言語タスクは、様々な社会アプリケーションでますます普及しているが、近年の進歩は、主に個々のタスクに特化されたモデルに依存している。
大規模視覚言語モデル(VLM)は、様々な下流視覚言語理解タスクのパフォーマンスを向上させることができる。
しかし、一般ドメインモデルは、しばしば特殊分野において性能が劣る。
本研究では,ヒューマン・シーン・ビジョン・ランゲージ・モデル(Human-Scene Vision-Language Model,HumanVLM)を提案する。
具体的には,(1)インターネットから提供された大規模ヒューマンシーンのマルチモーダル画像テキストデータセット(HumanCaption-10M)を作成し,ドメイン固有のアライメントを促進すること,(2)人間の顔,体,背景を捉え,高品質なヒューマンシーン画像テキストデータセット(HumanCaptionHQ,約311kペア)を構築すること,(3)HumanCaption-10MとHumanCaptionHQを用いてヒューマンVLMを訓練する。
実験では,マルチモーダルモデル,特に人間関連タスクに優れ,Qwen2VLやChatGPT-4oなどの類似モデルよりも優れた性能を示す。
紹介されたデータとともに、HumanVLMは人間を取り巻く分野の研究を刺激する。
関連論文リスト
- Human-Centric Foundation Models: Perception, Generation and Agentic Modeling [79.97999901785772]
人間中心のファンデーションモデルは、多様な人間中心のタスクを単一のフレームワークに統合します。
我々は,現在のアプローチを4つのグループに分類する分類法を提案することで,HcFMの包括的概要を示す。
この調査は、より堅牢で汎用的でインテリジェントなデジタルヒューマン・エンボディメントモデリングを目指す研究者や実践者のロードマップとして機能することを目的としている。
論文 参考訳(メタデータ) (2025-02-12T16:38:40Z) - HumanOmni: A Large Vision-Speech Language Model for Human-Centric Video Understanding [16.93348898548816]
ヒューマン・オムニ(Human Omni)は、オムニ・マルチモーダル(Omni-multimodal)の言語モデルである。
我々は、細かなキャプションと1400万以上の指示を含む、240万以上の人間中心のビデオクリップを含むデータセットを構築した。
実験では,人間中心のシーンを多種多様なタスクで扱う上で,ヒト・オムニの高度な能力を検証した。
論文 参考訳(メタデータ) (2025-01-25T07:26:37Z) - HumanVBench: Exploring Human-Centric Video Understanding Capabilities of MLLMs with Synthetic Benchmark Data [55.739633494946204]
我々は,ビデオMLLMの評価において,ギャップを埋めるために巧みに構築された,革新的なベンチマークであるHumanVBenchを紹介する。
HumanVBenchは、17の慎重に設計されたタスクで構成されており、内的感情と外的表現、静的、動的、基本的、複雑にまたがる、シングルモーダルとクロスモーダルという2つの主要な側面を探索する。
論文 参考訳(メタデータ) (2024-12-23T13:45:56Z) - Human Multi-View Synthesis from a Single-View Model:Transferred Body and Face Representations [7.448124739584319]
人体と顔の表現を多視点合成に活用する革新的枠組みを提案する。
具体的には、大規模人間のデータセットに事前訓練された単一ビューモデルを用いて、多視点ボディ表現を開発する。
提案手法は現状の手法よりも優れており,多視点人間合成において優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-12-04T04:02:17Z) - High-Dimension Human Value Representation in Large Language Models [60.33033114185092]
大規模言語モデル(LLM)における人的価値分布の高次元表現であるUniVaRを提案する。
我々は,UniVaRが,異なるLLMに埋め込まれた人間の値と異なる言語源との分布を比較する強力なツールであることを示す。
論文 参考訳(メタデータ) (2024-04-11T16:39:00Z) - Move as You Say, Interact as You Can: Language-guided Human Motion Generation with Scene Affordance [48.986552871497]
本稿では,シーンアベイランスを中間表現として活用する新しい2段階フレームワークを提案する。
シーンアベイランスマップを活用することで,マルチモーダルな条件下での人間の動きを再現する難しさを克服する。
我々のアプローチは、HumanML3DやHUMANISEなど、確立されたベンチマークのベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2024-03-26T18:41:07Z) - MVHumanNet: A Large-scale Dataset of Multi-view Daily Dressing Human
Captures [44.172804112944625]
MVHumanNetは4,500人の身元からなる多視点人間の行動系列からなるデータセットである。
我々のデータセットには、人のマスク、カメラパラメータ、2Dおよび3Dキーポイント、SMPL/SMPLXパラメータ、および対応するテキスト記述を含む、9000の日次服、6万のモーションシーケンス、645万の豊富なアノテーションが含まれています。
論文 参考訳(メタデータ) (2023-12-05T18:50:12Z) - Hulk: A Universal Knowledge Translator for Human-Centric Tasks [69.8518392427151]
我々は、最初のマルチモーダルな人間中心ジェネラリストモデルであるハルクを提示する。
2Dビジョン、3Dビジョン、スケルトンベース、そしてタスク固有の微調整なしで視覚言語タスクに対処する。
Hulkは11のベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2023-12-04T07:36:04Z) - Human-centric Scene Understanding for 3D Large-scale Scenarios [52.12727427303162]
本稿では,HuCenLifeという,人間中心のシーン理解のための大規模マルチモーダルデータセットを提案する。
私たちのHuCenLifeは、セグメンテーション、検出、アクション認識など、多くの3D認識タスクに役立ちます。
論文 参考訳(メタデータ) (2023-07-26T08:40:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。