Fugu-MT 論文翻訳(概要): UniPose: A Unified Multimodal Framework for Human Pose Comprehension, Generation and Editing

論文の概要: UniPose: A Unified Multimodal Framework for Human Pose Comprehension, Generation and Editing

arxiv url: http://arxiv.org/abs/2411.16781v1
Date: Mon, 25 Nov 2024 08:06:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:50.962992
Title: UniPose: A Unified Multimodal Framework for Human Pose Comprehension, Generation and Editing
Title（参考訳）: UniPose: ヒューマンメッセージの理解、生成、編集のための統一されたマルチモーダルフレームワーク
Authors: Yiheng Li, Ruibing Hou, Hong Chang, Shiguang Shan, Xilin Chen,
Abstract要約: さまざまなモダリティにまたがって人間のポーズを理解し、生成し、編集するためのフレームワークであるUniPoseを提案する。具体的には、3Dポーズを個別のポーズトークンに変換するためにポーズトークンライザを適用し、統一語彙内のLCMへのシームレスな統合を可能にする。統一的な学習戦略から恩恵を受けるUniPoseは、さまざまなポーズ関連タスク間で知識を効果的に伝達し、目に見えないタスクに適応し、拡張された能力を示す。
参考スコア（独自算出の注目度）: 79.68232381605661
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Human pose plays a crucial role in the digital age. While recent works have achieved impressive progress in understanding and generating human poses, they often support only a single modality of control signals and operate in isolation, limiting their application in real-world scenarios. This paper presents UniPose, a framework employing Large Language Models (LLMs) to comprehend, generate, and edit human poses across various modalities, including images, text, and 3D SMPL poses. Specifically, we apply a pose tokenizer to convert 3D poses into discrete pose tokens, enabling seamless integration into the LLM within a unified vocabulary. To further enhance the fine-grained pose perception capabilities, we facilitate UniPose with a mixture of visual encoders, among them a pose-specific visual encoder. Benefiting from a unified learning strategy, UniPose effectively transfers knowledge across different pose-relevant tasks, adapts to unseen tasks, and exhibits extended capabilities. This work serves as the first attempt at building a general-purpose framework for pose comprehension, generation, and editing. Extensive experiments highlight UniPose's competitive and even superior performance across various pose-relevant tasks.
Abstract（参考訳）: 人間のポーズはデジタル時代において重要な役割を果たす。最近の研究は人間のポーズの理解と生成において目覚ましい進歩を遂げているが、それらはしばしば制御信号の単一のモダリティしかサポートせず、単独で動作し、現実のシナリオでの応用を制限する。画像やテキスト,3D SMPLのポーズなど,さまざまなモードで人間のポーズを理解し,生成し,編集するために,LLM(Large Language Models)を用いたフレームワークであるUniPoseを提案する。具体的には、3Dポーズを個別のポーズトークンに変換するためにポーズトークンライザを適用し、統一語彙内のLCMへのシームレスな統合を可能にする。より精細なポーズ認識能力を向上するため、視覚エンコーダを混合したUniPoseを、ポーズ固有の視覚エンコーダとして促進する。統一的な学習戦略から恩恵を受けるUniPoseは、さまざまなポーズ関連タスク間で知識を効果的に伝達し、目に見えないタスクに適応し、拡張された能力を示す。この作品は、理解、生成、編集を行うための汎用フレームワークを構築するための最初の試みである。大規模な実験では、様々なポーズ関連タスクにおけるUniPoseの競争力と優れたパフォーマンスが強調されている。

関連論文リスト

UniReal: Universal Image Generation and Editing via Learning Real-world Dynamics [74.10447111842504]
UniRealは、様々な画像生成および編集タスクに対処するために設計された統一されたフレームワークである。近年の映像生成モデルに着想を得て,画像レベルのタスクを不連続な映像生成として扱う統一的手法を提案する。画像レベルのタスク用に設計されているが、ユニバーサルな監視のためのスケーラブルなソースとしてビデオを活用している。
論文参考訳（メタデータ） (2024-12-10T18:59:55Z)
PoseEmbroider: Towards a 3D, Visual, Semantic-aware Human Pose Representation [38.958695275774616]
検索方式で訓練された新しいトランスフォーマーモデルを導入し、上記のモダリティの組み合わせを任意の入力として利用できるようにする。本稿では,(1)オプションのテキストキューによる画像からのSMPL回帰と(2)きめ細かな命令生成のタスクに対する,そのような埋め込みされたポーズ表現の可能性を示す。
論文参考訳（メタデータ） (2024-09-10T14:09:39Z)
QPoser: Quantized Explicit Pose Prior Modeling for Controllable Pose Generation [27.93210245241248]
望ましい明示的な事前ポーズは、3つの望ましい能力を満たすべきである。 QPoserは、正確性と表現性を保証する制御可能な明示的なポーズ先行モデルである。 QPoserは、表現力と正しいポーズを表現する最先端のアプローチを著しく上回っている。
論文参考訳（メタデータ） (2023-12-02T10:44:34Z)
ChatPose: Chatting about 3D Human Pose [47.70287492050979]
ChatPoseは、画像やテキスト記述から3Dの人間のポーズを理解し、推論するためのフレームワークである。我々の研究は、一つの画像や簡単な説明から姿勢を直感的に理解する能力によって動機付けられています。
論文参考訳（メタデータ） (2023-11-30T18:59:52Z)
VINECS: Video-based Neural Character Skinning [82.39776643541383]
ポーズ依存のスキン重みを持つ完全リップ文字を作成するための完全自動アプローチを提案する。提案手法は高密度4Dスキャンに頼らず,最先端技術よりも優れていることを示す。
論文参考訳（メタデータ） (2023-07-03T08:35:53Z)
PoseVocab: Learning Joint-structured Pose Embeddings for Human Avatar Modeling [30.93155530590843]
提案するPoseVocabは,高忠実度人間の細部をエンコードできる新しいポーズ符号化手法である。キャラクターのマルチビューRGBビデオが与えられた後、PoseVocabはトレーニングポーズに基づいてキーポーズと潜在埋め込みを構築する。実験により,本手法は他の最先端のベースラインよりも優れていることが示された。
論文参考訳（メタデータ） (2023-04-25T17:25:36Z)
Real-Time Neural Character Rendering with Pose-Guided Multiplane Images [75.62730144924566]
リアルなシーンでアニマタブルなキャラクタをフォトリアリスティックな画質でレンダリングできるポーズ誘導多面体画像(MPI)合成を提案する。我々は、移動物体の駆動信号とともに多視点画像をキャプチャするために、ポータブルカメラリグを使用します。
論文参考訳（メタデータ） (2022-04-25T17:51:38Z)
Unsupervised Cross-Modal Alignment for Multi-Person 3D Pose Estimation [52.94078950641959]
マルチパーソン・ヒューマン・ポーズ推定のためのデプロイフレンドリーで高速なボトムアップ・フレームワークを提案する。我々は,人物の位置を対応する3Dポーズ表現と統一する,多人数の3Dポーズのニューラル表現を採用する。ペア化された2Dまたは3Dポーズアノテーションが利用できない実用的な配置パラダイムを提案する。
論文参考訳（メタデータ） (2020-08-04T07:54:25Z)
Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image Synthesis [72.34794624243281]
ラベルのないビデオフレームからバリエーションを分離する自己教師付き学習フレームワークを提案する。 3Dポーズと空間部分マップの表現ギャップを埋める、微分可能な形式化により、多様なカメラの動きを持つビデオで操作できる。
論文参考訳（メタデータ） (2020-04-09T07:55:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。