Fugu-MT 論文翻訳(概要): THFM: A Unified Video Foundation Model for 4D Human Perception and Beyond

論文の概要: THFM: A Unified Video Foundation Model for 4D Human Perception and Beyond

arxiv url: http://arxiv.org/abs/2603.25892v1
Date: Thu, 26 Mar 2026 20:28:40 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-30 21:49:48.267154
Title: THFM: A Unified Video Foundation Model for 4D Human Perception and Beyond
Title（参考訳）: THFM:4D人間の知覚とそれを超えるもののための統合ビデオファンデーションモデル
Authors: Letian Wang, Andrei Zanfir, Eduard Gabriel Bazavan, Misha Andriluka, Cristian Sminchisescu,
Abstract要約: 人中心認識のための統合ビデオ基盤モデルTHFMを提案する。我々のモデルは、様々なベンチマークで最先端の専門モデルを超えているか、あるいは超えている。例えば、シーン内の1人の人間で動画をトレーニングしたモデルは、複数の人間や、人為的なキャラクターや動物のような他のオブジェクトクラスに一般化する。
参考スコア（独自算出の注目度）: 22.66024130777808
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present THFM, a unified video foundation model for human-centric perception that jointly addresses dense tasks (depth, normals, segmentation, dense pose) and sparse tasks (2d/3d keypoint estimation) within a single architecture. THFM is derived from a pretrained text-to-video diffusion model, repurposed as a single-forward-pass perception model and augmented with learnable tokens for sparse predictions. Modulated by the text prompt, our single unified model is capable of performing various perception tasks. Crucially, our model is on-par or surpassing state-of-the-art specialized models on a variety of benchmarks despite being trained exclusively on synthetic data (i.e.~without training on real-world or benchmark specific data). We further highlight intriguing emergent properties of our model, which we attribute to the underlying diffusion-based video representation. For example, our model trained on videos with a single human in the scene generalizes to multiple humans and other object classes such as anthropomorphic characters and animals -- a capability that hasn't been demonstrated in the past.
Abstract（参考訳）: THFMは人間中心の認識のための統合的ビデオ基盤モデルであり、単一のアーキテクチャ内で密なタスク(深度、正規度、セグメンテーション、密なポーズ)とスパースタスク(2d/3dキーポイント推定)を共同で扱う。 THFMは、事前訓練されたテキスト-ビデオ拡散モデルから派生し、単一のフォワードパス認識モデルとして再利用され、スパース予測のための学習可能なトークンで拡張される。テキストプロンプトによって変調された1つの統一モデルは、様々な知覚タスクを実行することができる。重要な点として、我々のモデルは、合成データにのみ訓練されているにもかかわらず、様々なベンチマークで最先端の専門モデルを上回るか、あるいは超越している(実世界やベンチマーク特有のデータに関するトレーニングは行わない)。さらに,拡散に基づく映像表現に起因した,本モデルの創発的特性を強調した。例えば、シーンに1人の人間がいるビデオでトレーニングされたモデルは、複数の人間や他の人格的キャラクターや動物のようなオブジェクトクラスに一般化します。

関連論文リスト

Human-Object Interaction Detection Collaborated with Large Relation-driven Diffusion Models [65.82564074712836]
テキストと画像の拡散モデルに光を流す新しいHOI検出器であるDIFfusionHOIを紹介する。まず、埋め込み空間における人間と物体の関係パターンの表現をインバージョンベースで学習する戦略を考案する。これらの学習された関係埋め込みはテキストのプロンプトとして機能し、スタイア拡散モデルが特定の相互作用を記述する画像を生成する。
論文参考訳（メタデータ） (2024-10-26T12:00:33Z)
VLOGGER: Multimodal Diffusion for Embodied Avatar Synthesis [40.869862603815875]
VLOGGER (VLOGGER) は、単一の入力画像から音声駆動のヒューマンビデオを生成する方法である。空間的および時間的制御の両面からテキスト・ツー・イメージ・モデルを拡張する新しい拡散型アーキテクチャを用いている。ビデオ編集やパーソナライズにおける応用例を示す。
論文参考訳（メタデータ） (2024-03-13T17:59:02Z)
NViST: In the Wild New View Synthesis from a Single Image with Transformers [8.361847255300846]
単一画像からの効率的なノベルビュー合成のためのトランスフォーマーベースモデルであるNViSTを提案する。 NViSTは、カジュアルにキャプチャされた現実世界のビデオの大規模なデータセットであるMVImgNetでトレーニングされている。 MVImgNetからの未確認オブジェクトやカテゴリ,さらにはカジュアル電話のキャプチャへの一般化結果を示す。
論文参考訳（メタデータ） (2023-12-13T23:41:17Z)
Cross-view and Cross-pose Completion for 3D Human Understanding [22.787947086152315]
画像のみを用いて人間中心のデータを扱う自己教師付き学習に基づく事前学習手法を提案する。身体中心タスクのためのモデルと手中心タスクのためのモデルを事前訓練する。汎用的なトランスフォーマーアーキテクチャでは、これらのモデルは、広範囲の人間中心の下流タスクにおいて、既存の自己教師付き事前学習方法より優れている。
論文参考訳（メタデータ） (2023-11-15T16:51:18Z)
Human Performance Capture from Monocular Video in the Wild [50.34917313325813]
本研究では,挑戦的な身体ポーズを特徴とするモノクロ映像から動的3次元人体形状をキャプチャする手法を提案する。本手法は,現在開発中の3DPWビデオデータセットにおいて,最先端の手法よりも優れる。
論文参考訳（メタデータ） (2021-11-29T16:32:41Z)
Unsupervised Object Learning via Common Fate [61.14802390241075]
ビデオから生成オブジェクトモデルを学習することは、長い問題であり、因果的シーンモデリングに必要である。この問題を3つの簡単なサブタスクに分解し、それぞれに候補解を提供する。提案手法は,入力ビデオのオクルージョンを超えて一般化された生成モデルを学習することができることを示す。
論文参考訳（メタデータ） (2021-10-13T08:22:04Z)
imGHUM: Implicit Generative Models of 3D Human Shape and Articulated Pose [42.4185273307021]
人間の3次元形状とポーズの合成モデルImGHUMについて述べる。人間の全身をゼロレベルの関数として暗黙的にモデル化し、明示的なテンプレートメッシュを使用しない。
論文参考訳（メタデータ） (2021-08-24T17:08:28Z)
Learning Local Recurrent Models for Human Mesh Recovery [50.85467243778406]
本稿では,人間のメッシュを標準的な骨格モデルに従って複数の局所的に分割するビデオメッシュ復元手法を提案する。次に、各局所部分の力学を別個のリカレントモデルでモデル化し、各モデルは、人体の既知の運動構造に基づいて適切に条件付けする。これにより、構造的インフォームドな局所的再帰学習アーキテクチャが実現され、アノテーションを使ってエンドツーエンドでトレーニングすることができる。
論文参考訳（メタデータ） (2021-07-27T14:30:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。