論文の概要: MotionRFT: Unified Reinforcement Fine-Tuning for Text-to-Motion Generation
- arxiv url: http://arxiv.org/abs/2603.27185v1
- Date: Sat, 28 Mar 2026 08:10:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.834851
- Title: MotionRFT: Unified Reinforcement Fine-Tuning for Text-to-Motion Generation
- Title(参考訳): MotionRFT:テキスト・トゥ・モーション・ジェネレーションのための統一強化ファインチューニング
- Authors: Xiaofeng Tan, Wanjiang Weng, Hongsong Wang, Fang Zhao, Xin Geng, Liang Wang,
- Abstract要約: 本稿では,テキスト・ツー・モーション生成モデルのための強化微調整フレームワークを提案する。
MotionRewardは異質な動きをテキストで固定された共有セマンティック空間にマッピングする。
自己精製 優先度学習は、追加のアノテーションなしでセマンティクスを強化する。
MLDモデルではFID 0.132を22.10GBのピークメモリで達成し,最大15.22GBをDRaFTで保存する実験を行った。
- 参考スコア(独自算出の注目度): 36.11192536249353
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Text-to-motion generation has advanced with diffusion- and flow-based generative models, yet supervised pretraining remains insufficient to align models with high-level objectives such as semantic consistency, realism, and human preference. Existing post-training methods have key limitations: they (1) target a specific motion representation, such as joints, (2) optimize a particular aspect, such as text-motion alignment, and may compromise other factors; and (3) incur substantial computational overhead, data dependence, and coarse-grained optimization. We present a reinforcement fine-tuning framework that comprises a heterogeneous-representation, multi-dimensional reward model, MotionReward, and an efficient, fine-grained fine-tuning method, EasyTune. To obtain a unified semantics representation, MotionReward maps heterogeneous motions into a shared semantic space anchored by text, enabling multidimensional reward learning; Self-refinement Preference Learning further enhances semantics without additional annotations. For efficient and effective fine-tuning, we identify the recursive gradient dependence across denoising steps as the key bottleneck, and propose EasyTune, which optimizes step-wise rather than over the full trajectory, yielding dense, fine-grained, and memory-efficient updates. Extensive experiments validate the effectiveness of our framework, achieving FID 0.132 at 22.10 GB peak memory for MLD model and saving up to 15.22 GB over DRaFT. It reduces FID by 22.9% on joint-based ACMDM, and achieves a 12.6% R-Precision gain and 23.3% FID improvement on rotation-based HY Motion. Our project page with code is publicly available.
- Abstract(参考訳): テキスト・トゥ・モーション・ジェネレーションは拡散とフローに基づく生成モデルによって進歩してきたが、教師付き事前学習は、セマンティック・一貫性、リアリズム、人間の嗜好といった高レベルな目標とモデルを整合させるには不十分である。
既存のポストトレーニング手法には、(1)関節などの特定の動作表現を目標とし、(2)テキスト・モーションアライメントなどの特定の側面を最適化し、他の要因を損なう可能性がある、(3)かなりの計算オーバーヘッド、データ依存、粗い粒度の最適化など、重要な制限がある。
ヘテロジニアス表現、多次元報酬モデル、MotionReward、および効率的できめ細かい微調整方法、EasyTuneを含む強化微調整フレームワークを提案する。
統一意味論表現を得るために、MotionRewardは異種運動をテキストで固定された共有意味空間にマッピングし、多次元の報酬学習を可能にする。
効率的かつ効果的な微調整を行うため,デノナイズステップ間の再帰的勾配依存性を重要なボトルネックとして同定し,全軌道よりもステップワイズを最適化し,密度が高くきめ細粒度でメモリ効率の高い更新を実現するEasyTuneを提案する。
MLDモデルではFID 0.132を22.10GBのピークメモリで達成し,最大15.22GBをDRaFTで保存する。
関節ベースのACMDMではFIDを22.9%削減し、回転ベースのHYモーションでは12.6%の精度向上と23.3%のFID改善を実現している。
コード付きのプロジェクトページが公開されている。
関連論文リスト
- Harnessing Lightweight Transformer with Contextual Synergic Enhancement for Efficient 3D Medical Image Segmentation [59.711744386226194]
モデル効率を実現するための軽量トランスであるLight-UNETRを提案する。
Light-UNETRは軽量次元減少(LIDR)モジュールを備えており、空間次元とチャネル次元を減少させる。
また,変換器のデータ効率向上を目的としたCSE学習戦略も導入した。
論文 参考訳(メタデータ) (2026-03-24T16:24:19Z) - Preference Score Distillation: Leveraging 2D Rewards to Align Text-to-3D Generation with Human Preference [69.34278282513593]
Preference Score Distillation (PSD) は、3Dトレーニングデータなしでテキストから3D合成を行うための最適化ベースのフレームワークである。
我々の重要な洞察は、ピクセルレベルの勾配の不整合性に起因している。
我々は、好みスコアと負のテキスト埋め込みを協調最適化するための適応戦略を導入する。
論文 参考訳(メタデータ) (2026-03-02T08:23:36Z) - ReMoT: Reinforcement Learning with Motion Contrast Triplets [37.29312323908102]
本稿では,VLMの時間的欠陥に対処する統合トレーニングパラダイムであるReMoTを提案する。
ルールベースの自動フレームワークはビデオメタアノテーションから大規模(1K)モーションコントラスト三重項であるReMoT-16K三重項を生成する。
また, 微妙な識別のVLMを測定するために, 微粒な動きコントラスト三重項に対する最初のベンチマークを構築した。
論文 参考訳(メタデータ) (2026-02-28T04:42:34Z) - EasyTune: Efficient Step-Aware Fine-Tuning for Diffusion-Based Motion Generation [6.674252840296312]
そこで我々は,全軌道上ではなく,各聴覚ステップで微細な音の拡散を行う EasyTune を提案する。
また,選好ペアを動的に識別し,選好学習を行う自己修正選好学習機構を導入する。
実験により、EasyTuneはDRaFT-50を8.2%改善した(MM-Dist)。
論文 参考訳(メタデータ) (2026-02-08T13:29:46Z) - Merging Beyond: Streaming LLM Updates via Activation-Guided Rotations [55.047454145941366]
Streaming Mergingは、反復最適化プロセスとしてマージを概念化する革新的なモデル更新パラダイムである。
ARMは勾配勾配勾配のダイナミクスを近似するために設計された戦略である。
ARMは初期のSFTチェックポイントしか必要とせず、反復的なマージによって完全に収束したSFTモデルを上回る。
論文 参考訳(メタデータ) (2026-02-03T08:15:57Z) - ReCoM: Realistic Co-Speech Motion Generation with Recurrent Embedded Transformer [58.49950218437718]
音声に同期した高忠実で一般化可能な人体動作を生成するための効率的なフレームワークであるReCoMを提案する。
Recurrent Embedded Transformer (RET)は、動的埋め込み正規化(DER)をViT(Vit)コアアーキテクチャに統合する。
モデルロバスト性を高めるため,ノイズ抵抗とクロスドメイン一般化の二重性を持つモデルに,提案したDER戦略を取り入れた。
論文 参考訳(メタデータ) (2025-03-27T16:39:40Z) - Towards Generalizable Trajectory Prediction Using Dual-Level Representation Learning And Adaptive Prompting [107.4034346788744]
既存の車両軌道予測モデルは、一般化可能性、予測の不確実性、複雑な相互作用を扱う。
本研究では,(1)自己拡張(SD)とマスドレコンストラクション(MR)による二重レベル表現学習,グローバルコンテキストと細部の詳細の収集,(2)レジスタベースのクエリと事前学習の強化,クラスタリングと抑圧の必要性の排除,(3)微調整中の適応型プロンプトチューニング,メインアーキテクチャの凍結,および少数のプロンプトの最適化といった,新たなトラジェクタ予測フレームワークであるPerceiverを提案する。
論文 参考訳(メタデータ) (2025-01-08T20:11:09Z) - ALOcc: Adaptive Lifting-Based 3D Semantic Occupancy and Cost Volume-Based Flow Predictions [91.55655961014027]
シーン理解には3次元セマンティック占有とフロー予測が不可欠である。
本稿では,3つの改善点を目標とした視覚ベースのフレームワークを提案する。
我々の純粋な畳み込みアーキテクチャは、セマンティック占有率とジョイントセマンティックフロー予測の両方のために、複数のベンチマーク上で新しいSOTA性能を確立する。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - DWRSeg: Rethinking Efficient Acquisition of Multi-scale Contextual
Information for Real-time Semantic Segmentation [10.379708894083217]
本研究では,元の単一ステップ法を2段階に分割し,高効率なマルチスケール特徴抽出手法を提案する。
NVIDIA GeForce GTX 1080 TiカードのCityscapesテストセットの72.7%のmIoUを319.5 FPSで達成し、69.5 FPSと0.8% mIoUの最新の手法を超える。
論文 参考訳(メタデータ) (2022-12-02T13:55:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。