論文の概要: SoPo: Text-to-Motion Generation Using Semi-Online Preference Optimization
- arxiv url: http://arxiv.org/abs/2412.05095v1
- Date: Fri, 06 Dec 2024 14:50:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-09 15:56:02.520896
- Title: SoPo: Text-to-Motion Generation Using Semi-Online Preference Optimization
- Title(参考訳): SoPo:半オンライン選好最適化を用いたテキスト・ツー・モーション生成
- Authors: Xiaofeng Tan, Hongsong Wang, Xin Geng, Pan Zhou,
- Abstract要約: 我々は、高品質で人間の好む動きを常に好むように微調整されたテキスト・トゥ・モーションモデルに焦点を当てる。
本研究では,オンライン設定とオフライン設定の両方でDPOを理論的に検討する。
そこで本研究では,DPOに基づくテキスト・ツー・モーションモデルのトレーニング手法であるSemi-online Preference Optimization (SoPo)を紹介する。
- 参考スコア(独自算出の注目度): 82.83603957387442
- License:
- Abstract: Text-to-motion generation is essential for advancing the creative industry but often presents challenges in producing consistent, realistic motions. To address this, we focus on fine-tuning text-to-motion models to consistently favor high-quality, human-preferred motions, a critical yet largely unexplored problem. In this work, we theoretically investigate the DPO under both online and offline settings, and reveal their respective limitation: overfitting in offline DPO, and biased sampling in online DPO. Building on our theoretical insights, we introduce Semi-online Preference Optimization (SoPo), a DPO-based method for training text-to-motion models using "semi-online" data pair, consisting of unpreferred motion from online distribution and preferred motion in offline datasets. This method leverages both online and offline DPO, allowing each to compensate for the other's limitations. Extensive experiments demonstrate that SoPo outperforms other preference alignment methods, with an MM-Dist of 3.25% (vs e.g. 0.76% of MoDiPO) on the MLD model, 2.91% (vs e.g. 0.66% of MoDiPO) on MDM model, respectively. Additionally, the MLD model fine-tuned by our SoPo surpasses the SoTA model in terms of R-precision and MM Dist. Visualization results also show the efficacy of our SoPo in preference alignment. Our project page is https://sopo-motion.github.io.
- Abstract(参考訳): テキスト・トゥ・モーション・ジェネレーションは創造的産業の発展に不可欠であるが、一貫性のある現実的な動きを生み出す上での課題をしばしば提示する。
この問題に対処するために、我々は高品質で人間に好まれる動きを常に好むように微調整されたテキスト・トゥ・モーションモデルに焦点を当てた。
本研究では、オンラインとオフラインの両方でDPOを理論的に検討し、オフラインDPOにおける過度な適合とオンラインDPOにおけるバイアスサンプリングの限界を明らかにする。
セミオンラインデータペアを用いたDPOベースのテキスト・トゥ・モーションモデルのトレーニング手法であるSemi-online Preference Optimization (SoPo)を導入する。
この方法はオンラインとオフラインの両方のDPOを利用しており、それぞれが相手の制限を補うことができる。
MLDモデルではMM-Distが3.25%(MoDiPOのvs e g 0.76%)、MDMモデルでは2.91%(MoDiPOのvs e g 0.66%)である。
さらに、SoPoによって微調整されたMDDモデルは、R精度とMM Distの点でSoTAモデルを上回る。
可視化の結果,SoPoの選好アライメント効果も示された。
私たちのプロジェクトページはhttps://sopo-motion.github.io.comです。
関連論文リスト
- CHiP: Cross-modal Hierarchical Direct Preference Optimization for Multimodal LLMs [107.21334626890713]
MLLM(Multimodal Large Language Models)は、その優れた能力にもかかわらず、幻覚に苦しむ。
本稿では,これらの制約に対処するクロスモーダル階層型直接選好最適化(CHiP)を提案する。
定量的および定性的な分析によってCHiPを評価し,幻覚の低減効果を複数のベンチマークで実証した。
論文 参考訳(メタデータ) (2025-01-28T02:05:38Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z) - MoDiPO: text-to-motion alignment via AI-feedback-driven Direct Preference Optimization [6.147750347011554]
そこで本研究では,テキスト・トゥ・モーション・モデルを調整するためのMoDiPO(Motion Diffusion DPO)を提案する。
AIフィードバックを活用することで、DPOに必要な人間の嗜好を収集する、残酷で高価なプロセスを合理化します。
我々は,定性的かつ定量的に,提案手法がより現実的な動作をもたらすことを示す。
論文 参考訳(メタデータ) (2024-05-06T19:19:20Z) - Weak-to-Strong Extrapolation Expedites Alignment [135.12769233630362]
モデルと人間の嗜好との整合性を高めるために,ExPOと呼ばれる手法を提案する。
ExPOは市販のDPO/RLHFモデルを一貫して改善することを示した。
我々は、アライメントトレーニング中に学んだ報酬信号を増幅するExPOの本質に光を当てた。
論文 参考訳(メタデータ) (2024-04-25T17:39:50Z) - Human Alignment of Large Language Models through Online Preference
Optimisation [50.52545798589968]
最近のアライメント手法であるアイデンティティポリシー最適化(IPO)とNash Mirror Descent(Nash-MD)の等価性を示す。
この等価性は、オンラインバージョンのIPOを考えると証明できる。これは、両方の世代がオンラインポリシーによってサンプルされ、訓練された選好モデルによって注釈付けされる時である。
本稿では,一般的なNash-MDアルゴリズムと同様に,オンラインポリシと参照ポリシの混在したデータを生成するIPO-MDアルゴリズムを紹介する。
論文 参考訳(メタデータ) (2024-03-13T15:47:26Z) - Smaug: Fixing Failure Modes of Preference Optimisation with DPO-Positive [15.066029556877721]
理論上、標準的なDPO損失は、モデルが好むサンプルの可能性を減少させる可能性があることを示す。
DPO-Positive (DPOP) は,この障害モードを回避する新しい損失関数とトレーニング手順である。
意外なことに、DPOPはさまざまなデータセットや下流タスクでDPOやその他の微調整手順より優れています。
論文 参考訳(メタデータ) (2024-02-20T18:42:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。