論文の概要: Pose-RFT: Enhancing MLLMs for 3D Pose Generation via Hybrid Action Reinforcement Fine-Tuning
- arxiv url: http://arxiv.org/abs/2508.07804v1
- Date: Mon, 11 Aug 2025 09:44:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:29.031938
- Title: Pose-RFT: Enhancing MLLMs for 3D Pose Generation via Hybrid Action Reinforcement Fine-Tuning
- Title(参考訳): Pose-RFT:ハイブリッドアクション強化ファインチューニングによる3次元ポーズ生成のためのMLLMの強化
- Authors: Bao Li, Xiaomei Zhang, Miao Xu, Zhaoxin Fan, Xiangyu Zhu, Zhen Lei,
- Abstract要約: Pose-RFTはMLLMの3次元ポーズ生成に適した強化微調整フレームワークである。
本稿では,HyGRPOを提案する。HyGRPOは,サンプル応答に対してグループワイド報酬正規化を行うハイブリッド強化学習アルゴリズムである。
複数のポーズ生成ベンチマークの実験により、Pose-RFTは既存のポーズ固有のMLLMよりも性能を大幅に向上することが示された。
- 参考スコア(独自算出の注目度): 36.35364256178837
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating 3D human poses from multimodal inputs such as images or text requires models to capture both rich spatial and semantic correspondences. While pose-specific multimodal large language models (MLLMs) have shown promise in this task, they are typically trained with supervised objectives such as SMPL parameter regression or token-level prediction, which struggle to model the inherent ambiguity and achieve task-specific alignment required for accurate 3D pose generation. To address these limitations, we propose Pose-RFT, a reinforcement fine-tuning framework tailored for 3D human pose generation in MLLMs. We formulate the task as a hybrid action reinforcement learning problem that jointly optimizes discrete language prediction and continuous pose generation. To this end, we introduce HyGRPO, a hybrid reinforcement learning algorithm that performs group-wise reward normalization over sampled responses to guide joint optimization of discrete and continuous actions. Pose-RFT further incorporates task-specific reward functions to guide optimization towards spatial alignment in image-to-pose generation and semantic consistency in text-to-pose generation. Extensive experiments on multiple pose generation benchmarks demonstrate that Pose-RFT significantly improves performance over existing pose-specific MLLMs, validating the effectiveness of hybrid action reinforcement fine-tuning for 3D pose generation.
- Abstract(参考訳): 画像やテキストなどのマルチモーダル入力から3次元の人間のポーズを生成するには、豊かな空間的および意味的対応の両方をキャプチャするモデルが必要である。
ポーズ特化多モーダル大言語モデル(MLLM)はこのタスクにおいて有望であることを示しているが、通常はSMPLパラメータ回帰やトークンレベルの予測のような教師付き目的で訓練されており、それは固有の曖昧さをモデル化し、正確な3Dポーズ生成に必要なタスク特化アライメントを達成するのに苦労している。
MLLMにおける3次元ポーズ生成に適した強化微調整フレームワークであるPose-RFTを提案する。
離散言語予測と連続ポーズ生成を協調的に最適化するハイブリッドアクション強化学習問題としてタスクを定式化する。
この目的のためにHyGRPOというハイブリッド強化学習アルゴリズムを導入し、サンプル応答に対するグループワイド報酬正規化を行い、離散的かつ連続的な動作の協調最適化を導出する。
Pose-RFTはさらにタスク固有の報酬関数を導入し、画像から目的までの空間的アライメントとテキストから目的までのセマンティック一貫性を導く。
複数のポーズ生成ベンチマークにおいて、Pose-RFTは既存のポーズ特異的MLLMよりも性能を著しく向上し、3次元ポーズ生成のためのハイブリッドアクション強化微調整の有効性が検証された。
関連論文リスト
- SeqAffordSplat: Scene-level Sequential Affordance Reasoning on 3D Gaussian Splatting [85.87902260102652]
本稿では, 連続3次元ガウシアン・アフラマンス推論の課題について紹介する。
次に,SeqSplatNetを提案する。SqSplatNetは,命令を直接3Dアベイランスマスクのシーケンスにマッピングするエンドツーエンドフレームワークである。
本手法は,1段階のインタラクションから,シーンレベルでの複雑なシーケンシャルなタスクへの可利用性推論を効果的に向上させる。
論文 参考訳(メタデータ) (2025-07-31T17:56:55Z) - CoherenDream: Boosting Holistic Text Coherence in 3D Generation via Multimodal Large Language Models Feedback [40.163073128022944]
テキストコヒーレントスコア蒸留(TCSD)は多モード大言語モデル(MLLM)からのアライメントフィードバックを統合する
3DLLaVA-CRITIC(3DLLaVA-CRITIC)は、3次元世代におけるマルチビューテキストアライメントを評価するための微調整MLLMである。
CoherenDreamは、複数のベンチマークでテキスト整列した3D生成における最先端のパフォーマンスを確立する。
論文 参考訳(メタデータ) (2025-04-28T14:50:45Z) - SIGMAN:Scaling 3D Human Gaussian Generation with Millions of Assets [72.26350984924129]
本稿では,3次元デジタル化のための潜在空間生成パラダイムを提案する。
我々は,不適切な低次元から高次元のマッピング問題を学習可能な分布シフトに変換する。
我々は、HGS-1Mデータセットを構築するために、合成データと組み合わせた多視点最適化アプローチを採用する。
論文 参考訳(メタデータ) (2025-04-09T15:38:18Z) - StdGEN: Semantic-Decomposed 3D Character Generation from Single Images [28.302030751098354]
StdGENは、単一の画像から意味的に高品質な3D文字を生成する革新的なパイプラインである。
3分で体、衣服、毛髪などの分離した意味成分を持つ複雑な3D文字を生成する。
StdGENは、使えるセマンティック分解された3D文字を提供し、幅広いアプリケーションに対して柔軟なカスタマイズを可能にする。
論文 参考訳(メタデータ) (2024-11-08T17:54:18Z) - AdaptivePose++: A Powerful Single-Stage Network for Multi-Person Pose
Regression [66.39539141222524]
そこで本研究では,ヒトの部位を適応点として表現し,微細な身体表現法を提案する。
提案するボディ表現では,AdaptivePoseと呼ばれる,コンパクトなシングルステージ多人数ポーズ回帰ネットワークを提供する。
本稿では,AdaptivePoseの有効性を検証するために,2D/3D多人数ポーズ推定タスクにAdaptivePoseを用いる。
論文 参考訳(メタデータ) (2022-10-08T12:54:20Z) - Distribution-Aware Single-Stage Models for Multi-Person 3D Pose
Estimation [29.430404703883084]
本稿では,多人数の3Dポーズ推定問題に対処する新しいDASモデルを提案する。
提案するDASモデルでは,3次元カメラ空間における人物位置と人体関節をワンパスで同時に位置決めする。
CMU Panoptic と MuPoTS-3D のベンチマークに関する総合的な実験は、提案したDASモデルの優れた効率を実証している。
論文 参考訳(メタデータ) (2022-03-15T07:30:27Z) - 3D Pose Estimation and Future Motion Prediction from 2D Images [26.28886209268217]
本稿では,3次元人物のポーズを推定し,RGB画像列から将来の3次元動作を予測するという,高相関な課題に共同で取り組むことを検討する。
リー代数のポーズ表現に基づいて、人間の運動キネマティクスを自然に保存する新しい自己投射機構が提案されている。
論文 参考訳(メタデータ) (2021-11-26T01:02:00Z) - Direct Multi-view Multi-person 3D Pose Estimation [138.48139701871213]
マルチビュー画像からマルチパーソン3Dポーズを推定するためのMulti-view Pose Transformer(MvP)を提案する。
MvPは、中間タスクに頼ることなく、複数の人物の3Dポーズを直接クリーンで効率的な方法で回帰する。
我々は,MvPモデルがより効率的でありながら,いくつかのベンチマークにおいて最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-07T13:09:20Z) - PaMIR: Parametric Model-Conditioned Implicit Representation for
Image-based Human Reconstruction [67.08350202974434]
本研究では,パラメトリックボディモデルと自由形深部暗黙関数を組み合わせたパラメトリックモデル記述型暗黙表現(PaMIR)を提案する。
本手法は, 挑戦的なポーズや衣料品のタイプにおいて, 画像に基づく3次元再構築のための最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-08T02:26:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。