論文の概要: Human-Centric Foundation Models: Perception, Generation and Agentic Modeling
- arxiv url: http://arxiv.org/abs/2502.08556v1
- Date: Wed, 12 Feb 2025 16:38:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-13 13:50:56.043404
- Title: Human-Centric Foundation Models: Perception, Generation and Agentic Modeling
- Title(参考訳): 人間中心基礎モデル:知覚・生成・エージェントモデリング
- Authors: Shixiang Tang, Yizhou Wang, Lu Chen, Yuan Wang, Sida Peng, Dan Xu, Wanli Ouyang,
- Abstract要約: 人間中心のファンデーションモデルは、多様な人間中心のタスクを単一のフレームワークに統合します。
我々は,現在のアプローチを4つのグループに分類する分類法を提案することで,HcFMの包括的概要を示す。
この調査は、より堅牢で汎用的でインテリジェントなデジタルヒューマン・エンボディメントモデリングを目指す研究者や実践者のロードマップとして機能することを目的としている。
- 参考スコア(独自算出の注目度): 79.97999901785772
- License:
- Abstract: Human understanding and generation are critical for modeling digital humans and humanoid embodiments. Recently, Human-centric Foundation Models (HcFMs) inspired by the success of generalist models, such as large language and vision models, have emerged to unify diverse human-centric tasks into a single framework, surpassing traditional task-specific approaches. In this survey, we present a comprehensive overview of HcFMs by proposing a taxonomy that categorizes current approaches into four groups: (1) Human-centric Perception Foundation Models that capture fine-grained features for multi-modal 2D and 3D understanding. (2) Human-centric AIGC Foundation Models that generate high-fidelity, diverse human-related content. (3) Unified Perception and Generation Models that integrate these capabilities to enhance both human understanding and synthesis. (4) Human-centric Agentic Foundation Models that extend beyond perception and generation to learn human-like intelligence and interactive behaviors for humanoid embodied tasks. We review state-of-the-art techniques, discuss emerging challenges and future research directions. This survey aims to serve as a roadmap for researchers and practitioners working towards more robust, versatile, and intelligent digital human and embodiments modeling.
- Abstract(参考訳): 人間の理解と生成は、デジタル人間とヒューマノイドのエンボディメントをモデル化するために重要である。
近年,大規模言語やビジョンモデルといった汎用モデルの成功に触発されたHcFM(Human-centric Foundation Models)が,従来のタスク固有のアプローチを超越した,多種多様なタスクをひとつのフレームワークに統合するようになっている。
本調査では,HcFMを包括的に概観し,現状のアプローチを4つのグループに分類する分類法を提案する。
2) 高忠実で多様な人間関連コンテンツを生成する人間中心型AIGCファンデーションモデル。
(3)人間の理解と合成の両面を強化するためにこれらの能力を統合した統一知覚・生成モデル。
(4)人間中心のエージェント・ファンデーション・モデルでは,人間のような知性や対話的な行動を学ぶために知覚や生成を超えて,人間中心のエージェント・ファンデーション・モデルを構築する。
我々は、最先端技術についてレビューし、新たな課題と今後の研究方向性について論じる。
この調査は、より堅牢で汎用的でインテリジェントなデジタルヒューマン・エンボディメントモデリングを目指す研究者や実践者のロードマップとして機能することを目的としている。
関連論文リスト
- Human Multi-View Synthesis from a Single-View Model:Transferred Body and Face Representations [7.448124739584319]
人体と顔の表現を多視点合成に活用する革新的枠組みを提案する。
具体的には、大規模人間のデータセットに事前訓練された単一ビューモデルを用いて、多視点ボディ表現を開発する。
提案手法は現状の手法よりも優れており,多視点人間合成において優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-12-04T04:02:17Z) - Human Modelling and Pose Estimation Overview [0.0]
人間のモデリングとポーズ推定は、コンピュータビジョン、コンピュータグラフィックス、機械学習の交差点に立っている。
本稿では,この学際分野を網羅的に研究し,様々なアルゴリズム,方法論,実践的応用について検討する。
論文 参考訳(メタデータ) (2024-06-27T16:04:41Z) - Human Factors in Model-Driven Engineering: Future Research Goals and Initiatives for MDE [15.661925949062843]
GI-Dagstuhlセミナーにおけるモデリングにおける人的要因に関する話題について論じる。
5つのトピックは、人間の側面をモデル化すること、モデラー体験の要因、MDEにおける多様性と包摂性、コラボレーションとMDE、人間を意識したMDEの教育である。
論文 参考訳(メタデータ) (2024-04-29T13:27:20Z) - Data Augmentation in Human-Centric Vision [54.97327269866757]
本研究では,人間中心型視覚タスクにおけるデータ拡張手法の包括的分析を行う。
それは、人物のReID、人間のパーシング、人間のポーズ推定、歩行者検出など、幅広い研究領域に展開している。
我々の研究は、データ拡張手法をデータ生成とデータ摂動の2つの主なタイプに分類する。
論文 参考訳(メタデータ) (2024-03-13T16:05:18Z) - Trends, Applications, and Challenges in Human Attention Modelling [65.61554471033844]
人間の注意モデリングは視覚探索の基礎となる認知過程を理解するのに特に有用であることが証明されている。
画像やビデオ処理、視覚・言語アプリケーション、言語モデリングなど、さまざまな領域の問題を解決することを目的とした人工知能モデルのサポートを提供する。
論文 参考訳(メタデータ) (2024-02-28T19:35:30Z) - Foundation Models for Decision Making: Problems, Methods, and
Opportunities [124.79381732197649]
大規模に多様なデータに基づいて事前訓練された基礎モデルは、幅広いビジョンと言語タスクにおいて異常な能力を示してきた。
ファンデーションモデルをトレーニングし、他のエージェントと対話し、長期的な推論を行うための新しいパラダイムが生まれている。
基礎モデルと意思決定の交わりにおける研究は、強力な新しいシステムを作るための大きな約束である。
論文 参考訳(メタデータ) (2023-03-07T18:44:07Z) - Human Image Generation: A Comprehensive Survey [44.204029557298476]
本稿では,人間の画像生成技術を3つのパラダイム,すなわちデータ駆動手法,知識誘導手法,ハイブリッド手法に分割する。
異なる手法の利点と特徴はモデルアーキテクチャの観点から要約される。
広範囲の応用可能性により、合成された人間の画像の典型的な下流使用法がカバーされている。
論文 参考訳(メタデータ) (2022-12-17T15:19:45Z) - StyleGAN-Human: A Data-Centric Odyssey of Human Generation [96.7080874757475]
この研究は、データ中心の観点から、"データエンジニアリング"における複数の重要な側面を調査します。
さまざまなポーズやテクスチャを抽出した230万以上のサンプルで、大規模な人間の画像データセットを収集し、注釈付けします。
本稿では,データサイズ,データ分布,データアライメントといった,スタイルGANに基づく人為的生成のためのデータ工学における3つの重要な要素について精査する。
論文 参考訳(メタデータ) (2022-04-25T17:55:08Z) - DIME: Fine-grained Interpretations of Multimodal Models via Disentangled
Local Explanations [119.1953397679783]
我々は,マルチモーダルモデルの解釈における最先端化に注力する。
提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
論文 参考訳(メタデータ) (2022-03-03T20:52:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。