論文の概要: MotionGRPO: Overcoming Low Intra-Group Diversity in GRPO-Based Egocentric Motion Recovery
- arxiv url: http://arxiv.org/abs/2605.05680v2
- Date: Tue, 12 May 2026 12:30:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 18:21:06.715981
- Title: MotionGRPO: Overcoming Low Intra-Group Diversity in GRPO-Based Egocentric Motion Recovery
- Title(参考訳): MotionGRPO: GRPOに基づく自我中心運動回復における低グループ内多様性を克服する
- Authors: Nanjie Yao, Junlong Ren, Wenhao Shen, Hao Wang,
- Abstract要約: 本稿では,頭部搭載デバイス信号からのフルボディ3次元人間の動作回復について検討する。
拡散過程に微粒なガイダンスを注入するための強化学習後学習を活用した新しいフレームワークであるMotionGRPOを提案する。
- 参考スコア(独自算出の注目度): 5.543659429888525
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper studies full-body 3D human motion recovery from head-mounted device signals. Existing diffusion-based methods often rely on global distribution matching, leading to local joint reconstruction errors. We propose MotionGRPO, a novel framework leveraging reinforcement learning post-training to inject fine-grained guidance into the diffusion process. Technically, we model diffusion sampling as a Markov decision process optimized via Group Relative Policy Optimization (GRPO). To this end, we introduce a hybrid reward mechanism that combines a learned conditioned perceptual model for global visual plausibility and explicit constraints for local joint precision. Our key technical insight is that policy optimization in diffusion-based recovery suffers from vanishing gradients due to limited intra-group sample diversity. To address this, we further introduce a noise-injection strategy that explicitly increases sample variance and stabilizes learning. Extensive experiments demonstrate that MotionGRPO achieves state-of-the-art performance with superior visual fidelity
- Abstract(参考訳): 本稿では,頭部搭載デバイス信号からのフルボディ3次元人間の動作回復について検討する。
既存の拡散法は、しばしばグローバルな分布マッチングに頼り、局所的な関節再建誤差を引き起こす。
拡散過程に微粒なガイダンスを注入するための強化学習のポストトレーニングを利用した新しいフレームワークであるMotionGRPOを提案する。
技術的には,拡散サンプリングをグループ相対政策最適化(GRPO)によって最適化されたマルコフ決定プロセスとしてモデル化する。
そこで本稿では,グローバルな視覚的可視性に対する学習条件付き知覚モデルと,局所的な関節精度に対する明示的な制約を組み合わせたハイブリッド報酬機構を提案する。
我々の重要な技術的洞察は、拡散に基づくリカバリにおける政策最適化は、グループ内サンプルの多様性の制限によって消失する勾配に苦しむことである。
これを解決するために,サンプルの分散を明示的に増加させ,学習を安定させるノイズ注入戦略を導入する。
広汎な実験により、MotionGRPOはより優れた視覚的忠実度で最先端のパフォーマンスを達成する
関連論文リスト
- V-GRPO: Online Reinforcement Learning for Denoising Generative Models Is Easier than You Think [90.69263509098948]
本稿では,ELBOをベースとしたサロゲートとグループ相対ポリシー最適化アルゴリズムを統合した変分GRPOを提案する。
V-GRPOはテキストと画像の合成において最先端のパフォーマンスを実現し、MixGRPOよりも2倍のスピードアップ、DiffusionNFTより3倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2026-04-25T17:03:21Z) - Too Correct to Learn: Reinforcement Learning on Saturated Reasoning Data [55.84428098924793]
構造保存探索を行うためのパラメータ自由復号法である Constrained Uniform Top-K Smpling (CUTS) を提案する。
グループ内の利点分散を増幅するために、エクスプロイトと探索的なロールアウトを相乗化するためのトレーニングフレームワークであるMixed-CUTSに統合する。
特にMixed-CUTSは、AIME25ベンチマークのPass@1の精度を標準のGRPOよりも15.1%向上している。
論文 参考訳(メタデータ) (2026-04-20T16:43:28Z) - S-GRPO: Unified Post-Training for Large Vision-Language Models [11.901218794806796]
我々はLVLM(Large Vision-Language Models)適応のためのS-GRPO(Supervised Group Relative Policy Optimization)を提案する。
S-GRPOは、模擬学習の指導を選好最適化の多軌道探索に統合する。
監督ファインチューニング(SFT)と強化学習(RL)のギャップを優雅に埋める
論文 参考訳(メタデータ) (2026-04-17T08:39:07Z) - SetPO: Set-Level Policy Optimization for Diversity-Preserving LLM Reasoning [50.93295951454092]
本稿では,カーネル化類似性を用いたサンプル軌道上で定義された設定レベル多様性の目的について紹介する。
提案手法は,各サンプル軌跡に対する余剰余剰貢献を導出し,この目的を政策最適化のためのプラグイン・アドバンテージ・シェーピング用語として統合する。
様々なモデルスケールで実験を行い、提案アルゴリズムの有効性を示し、様々なベンチマークでPass@1とPass@Kの双方において、強いベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2026-02-01T07:13:20Z) - G$^2$RPO: Granular GRPO for Precise Reward in Flow Models [74.21206048155669]
本稿では,サンプリング方向の高精度かつ包括的な報酬評価を実現する新しいグラニュラー-GRPO(G$2$RPO)フレームワークを提案する。
複数の拡散スケールで計算された利点を集約するマルチグラニュラリティ・アドバンテージ・インテグレーション・モジュールを導入する。
G$2$RPOは既存のフローベースGRPOベースラインを著しく上回る。
論文 参考訳(メタデータ) (2025-10-02T12:57:12Z) - GEPO: Group Expectation Policy Optimization for Stable Heterogeneous Reinforcement Learning [43.46954951944727]
パラメータ学習とロールアウトサンプリングを分離する異種RLアーキテクチャであるHeteroRLを提案する。
コアコンポーネントは、レイテンシに堅牢な非同期RLアルゴリズムであるグループ期待ポリシー最適化(GEPO)である。
GEPOが優れた安定性を実現していることを示す実験は、オンラインから1800年代のレイテンシまで、わずか3%のパフォーマンス低下である。
論文 参考訳(メタデータ) (2025-08-25T09:57:35Z) - Divergence Minimization Preference Optimization for Diffusion Model Alignment [66.31417479052774]
Divergence Minimization Preference Optimization (DMPO) は、逆KL分散を最小化して拡散モデルを整列する原理的手法である。
DMPOは、異なるベースモデルとテストセットで既存のテクニックを一貫して上回り、適合させることができる。
論文 参考訳(メタデータ) (2025-07-10T07:57:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。