論文の概要: MoDiPO: text-to-motion alignment via AI-feedback-driven Direct Preference Optimization
- arxiv url: http://arxiv.org/abs/2405.03803v1
- Date: Mon, 6 May 2024 19:19:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-08 18:04:44.981717
- Title: MoDiPO: text-to-motion alignment via AI-feedback-driven Direct Preference Optimization
- Title(参考訳): MoDiPO: AI-feedback-driven Direct Preference Optimizationによるテキスト間アライメント
- Authors: Massimiliano Pappa, Luca Collorone, Giovanni Ficarra, Indro Spinelli, Fabio Galasso,
- Abstract要約: そこで本研究では,テキスト・トゥ・モーション・モデルを調整するためのMoDiPO(Motion Diffusion DPO)を提案する。
AIフィードバックを活用することで、DPOに必要な人間の嗜好を収集する、残酷で高価なプロセスを合理化します。
我々は,定性的かつ定量的に,提案手法がより現実的な動作をもたらすことを示す。
- 参考スコア(独自算出の注目度): 6.147750347011554
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion Models have revolutionized the field of human motion generation by offering exceptional generation quality and fine-grained controllability through natural language conditioning. Their inherent stochasticity, that is the ability to generate various outputs from a single input, is key to their success. However, this diversity should not be unrestricted, as it may lead to unlikely generations. Instead, it should be confined within the boundaries of text-aligned and realistic generations. To address this issue, we propose MoDiPO (Motion Diffusion DPO), a novel methodology that leverages Direct Preference Optimization (DPO) to align text-to-motion models. We streamline the laborious and expensive process of gathering human preferences needed in DPO by leveraging AI feedback instead. This enables us to experiment with novel DPO strategies, using both online and offline generated motion-preference pairs. To foster future research we contribute with a motion-preference dataset which we dub Pick-a-Move. We demonstrate, both qualitatively and quantitatively, that our proposed method yields significantly more realistic motions. In particular, MoDiPO substantially improves Frechet Inception Distance (FID) while retaining the same RPrecision and Multi-Modality performances.
- Abstract(参考訳): 拡散モデルは、自然言語条件付けによる例外的な生成品質ときめ細かい制御性を提供することによって、人間の運動生成の分野に革命をもたらした。
彼らの固有の確率性は、単一の入力から様々な出力を生成する能力であり、その成功の鍵である。
しかし、この多様性は、不可能な世代に繋がる可能性があるため、制限されてはいけない。
代わりに、テキスト整列および現実的な世代の境界内に閉じ込めるべきである。
そこで本研究では,DPO(Direct Preference Optimization)を利用してテキスト・ツー・モーション・モデルを調整する手法であるMoDiPO(Motion Diffusion DPO)を提案する。
代わりにAIフィードバックを活用することで、DPOに必要な人間の嗜好を収集する、残酷で高価なプロセスを合理化します。
これにより、オンラインとオフラインの両方で生成された動き参照ペアを使用して、新しいDPO戦略を試すことができる。
将来の研究を促進するために、我々はPick-a-Moveをダブするモーション参照データセットにコントリビュートする。
我々は,定性的かつ定量的に,提案手法がより現実的な動作をもたらすことを示す。
特に、MoDiPOはFrechet Inception Distance(FID)を大幅に改善し、RPrecisionとMulti-Modalityのパフォーマンスを維持している。
関連論文リスト
- GDPO: Learning to Directly Align Language Models with Diversity Using GFlowNets [19.485572131953937]
本稿では,GFlowNet-DPO (GDPO) と呼ばれる多様性探索型RLアルゴリズムのオフライン優先アライメント設定における実用的応用を提案する。
実証的な結果から、GDPOはベースライン法よりもはるかに多様な応答を生成できることが示された。
論文 参考訳(メタデータ) (2024-10-19T13:07:52Z) - Simultaneous Reward Distillation and Preference Learning: Get You a Language Model Who Can Do Both [6.102274021710727]
ダイレクトリワード蒸留とポリシー最適化(DRDO)は、知識蒸留に基づく選好アライメント手法である。
DRDOは、新規な嗜好確率の定式化から人間の嗜好を学習しながら、託宣によって割り当てられた報酬を直接模倣する。
Ultrafeedback と TL;DR データセットに関する実験結果から,DRDO を用いてトレーニングしたポリシーが従来の手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-10-11T02:19:11Z) - Diffusion-RPO: Aligning Diffusion Models through Relative Preference Optimization [68.69203905664524]
拡散に基づくT2Iモデルと人間の嗜好をより効率的に整合させる新しい手法であるDiffusion-RPOを紹介する。
我々は,高いコストと低い解釈可能性の課題を克服することを目的とした,新しい評価基準であるスタイルアライメントを開発した。
その結果,拡散-RPO は安定拡散バージョン1.5 と XL-1.0 の調整において超微調整や拡散-DPO などの確立された手法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-10T15:42:03Z) - Exploratory Preference Optimization: Harnessing Implicit Q*-Approximation for Sample-Efficient RLHF [82.7679132059169]
人間のフィードバックから強化学習が言語モデルのアライメントのための中心的なツールとして登場した。
我々は、RLHFにおけるオンライン探索のための新しいアルゴリズム、Exploratory Preference Optimization (XPO)を提案する。
XPOは証明可能な最強の保証と有望な経験的パフォーマンスを享受しています。
論文 参考訳(メタデータ) (2024-05-31T17:39:06Z) - Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z) - Robust Preference Optimization through Reward Model Distillation [68.65844394615702]
言語モデル (LM) は、好みのアノテーションから派生した報酬関数を最大化する。
DPOは、報酬モデルや強化学習を適用することなく、優先データに直接ポリシーを訓練する一般的なオフラインアライメント手法である。
この現象を解析し, 生成対よりも真の嗜好分布のより良いプロキシを得るため, 蒸留を提案する。
論文 参考訳(メタデータ) (2024-05-29T17:39:48Z) - Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。
得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。
MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:29:04Z) - Direct Preference Optimization With Unobserved Preference Heterogeneity [16.91835461818937]
本稿では,生成モデルと人間の嗜好を一致させる新しい手法を提案する。
そこで我々はDPOに対する期待最大化適応を提案し、アノテータの潜在選好型に基づくモデルの混合を生成する。
我々のアルゴリズムはDPOの単純さを生かし、多様な好みを調節する。
論文 参考訳(メタデータ) (2024-05-23T21:25:20Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - Aligning Large Language Models with Counterfactual DPO [1.8130068086063336]
本稿では,人的介入に頼らずにモデルスタイルを整列させる反事実的プロンプトの利用について検討する。
本研究では,この手法が望ましい行動を効果的に抑制し,望ましくない行動を緩和し,不適切な指示を無視するようモデルに促すことを実証する。
論文 参考訳(メタデータ) (2024-01-17T19:43:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。