論文の概要: Implicit Preference Alignment for Human Image Animation
- arxiv url: http://arxiv.org/abs/2605.07545v1
- Date: Fri, 08 May 2026 10:19:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.988373
- Title: Implicit Preference Alignment for Human Image Animation
- Title(参考訳): 人間の画像アニメーションにおける暗黙の選好アライメント
- Authors: Yuanzhi Wang, Xuhua Ren, Jiaxiang Cheng, Bing Ma, Kai Yu, Tianxiang Zheng, Qinglin Lu, Zhen Cui,
- Abstract要約: Implicit Preference Alignment (IPA)は、ペア化された嗜好データを必要としない、データ効率のよいポストトレーニングフレームワークである。
IPAは、自己生成した高品質なサンプルの可能性を最大化しつつ、事前訓練済みの偏差をペナルティ化することでモデルを整合させる。
実験により,IPAは手作り品質を向上させるために効果的な選好最適化を実現するとともに,選好データ構築の障壁を著しく低減することが示された。
- 参考スコア(独自算出の注目度): 29.485868361572084
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human image animation has witnessed significant advancements, yet generating high-fidelity hand motions remains a persistent challenge due to their high degrees of freedom and motion complexity. While reinforcement learning from human feedback, particularly direct preference optimization, offers a potential solution, it necessitates the construction of strict preference pairs. However, curating such pairs for dynamic hand regions is prohibitively expensive and often impractical due to frame-wise inconsistencies. In this paper, we propose Implicit Preference Alignment (IPA), a data-efficient post-training framework that eliminates the need for paired preference data. Theoretically grounded in implicit reward maximization, IPA aligns the model by maximizing the likelihood of self-generated high-quality samples while penalizing deviations from the pretrained prior. Furthermore, we introduce a Hand-Aware Local Optimization mechanism to explicitly steer the alignment process toward hand regions. Experiments demonstrate that our method achieves effective preference optimization to enhance hand generation quality, while significantly lowering the barrier for constructing preference data. Codes are released at https://github.com/mdswyz/IPA
- Abstract(参考訳): 人間の画像アニメーションは大きな進歩をみせてきたが、高い自由度と動きの複雑さのために、高忠実な手の動きが持続的な課題である。
人間のフィードバックからの強化学習、特に直接選好最適化は潜在的な解決策を提供するが、厳密な選好ペアを構築する必要がある。
しかし、動的ハンド領域に対するそのようなペアのキュレーションは、フレームワイドの不整合のため、違法に高価であり、しばしば非現実的である。
本稿では,ペア化された嗜好データを必要としないデータ効率のよいポストトレーニングフレームワークであるImplicit Preference Alignment (IPA)を提案する。
理論上は暗黙の報酬の最大化に基礎を置いており、IPAは事前訓練された偏差を罰しながら自己生成した高品質なサンプルの可能性を最大化することでモデルを整列させる。
さらに,ハンドアウェア局所最適化機構を導入し,ハンド領域へのアライメントプロセスを明示的に制御する。
提案手法は,手作り品質を向上させるために効果的な選好最適化を実現するとともに,選好データ構築の障壁を著しく低減することを示した。
コードはhttps://github.com/mdswyz/IPAで公開されている。
関連論文リスト
- Preference Score Distillation: Leveraging 2D Rewards to Align Text-to-3D Generation with Human Preference [69.34278282513593]
Preference Score Distillation (PSD) は、3Dトレーニングデータなしでテキストから3D合成を行うための最適化ベースのフレームワークである。
我々の重要な洞察は、ピクセルレベルの勾配の不整合性に起因している。
我々は、好みスコアと負のテキスト埋め込みを協調最適化するための適応戦略を導入する。
論文 参考訳(メタデータ) (2026-03-02T08:23:36Z) - Positive-Unlabeled Reinforcement Learning Distillation for On-Premise Small Models [130.8912476550625]
そこで本研究では, 現場での小型モデル展開のための正の無ラベル(PU)強化学習蒸留法を提案する。
本手法は,教師の好み最適化能力をブラックボックス世代から地元の訓練可能な学生に蒸留する。
実験により,本手法は低コストで一貫した強靭な性能を実現することを示す。
論文 参考訳(メタデータ) (2026-01-28T15:14:50Z) - Finetuning-Free Personalization of Text to Image Generation via Hypernetworks [15.129799519953139]
被写体画像から直接LoRA適応重量を予測するHypernetworksによる微調整不要なパーソナライゼーションを提案する。
提案手法はパーソナライズ性能を向上し,オープンカテゴリパーソナライズのためのスケーラブルで効果的な方向としてのハイパーネットワークの約束を強調する。
論文 参考訳(メタデータ) (2025-11-05T03:31:33Z) - Smoothed Preference Optimization via ReNoise Inversion for Aligning Diffusion Models with Varied Human Preferences [13.588231827053923]
直接選好最適化(DPO)は、テキスト・ツー・イメージ(T2I)生成モデルと、ペアの選好データを用いた人間の選好を一致させる。
本稿では, DPO の目的を改善するために, 好み分布をモデル化する新しい手法である SmPO-Diffusion を提案する。
提案手法は,既存手法における過度な最適化と客観的なミスアライメントの問題を効果的に軽減する。
論文 参考訳(メタデータ) (2025-06-03T09:47:22Z) - Diffusion-NPO: Negative Preference Optimization for Better Preference Aligned Generation of Diffusion Models [32.586647934400105]
既存の選好アライメント手法は、無条件/負条件の出力を扱う重要な役割を欠いていると論じる。
我々は、ネガティブな嗜好に特化して訓練されたモデルを訓練する、単純だが汎用的な効果的なアプローチを提案する。
提案手法は,SD1.5,SDXL,動画拡散モデル,選好最適化モデルなどのモデルとシームレスに統合する。
論文 参考訳(メタデータ) (2025-05-16T13:38:23Z) - Refining Alignment Framework for Diffusion Models with Intermediate-Step Preference Ranking [50.325021634589596]
拡散モデルと人間の嗜好を整合させるためのTalored Optimization Preference(TailorPO)フレームワークを提案する。
提案手法は,ステップワイド報酬に基づいて,中間雑音のサンプルを直接ランク付けし,勾配方向の問題を効果的に解決する。
実験結果から,本手法は審美的,人為的な画像生成能力を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2025-02-01T16:08:43Z) - Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。
本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。
提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文 参考訳(メタデータ) (2024-06-04T20:33:22Z) - Robust Preference Optimization through Reward Model Distillation [68.65844394615702]
Direct Preference Optimization (DPO) は、プライオリティデータに基づいてポリシーを直接訓練する一般的なオフラインアライメント手法である。
我々はこの現象を分析し、蒸留を用いて生成対よりも真の嗜好分布のより良いプロキシを得る。
以上の結果から,このような報酬モデルからの蒸留は,優先アノテーションの分布変化に対するロバスト性の向上につながることが示唆された。
論文 参考訳(メタデータ) (2024-05-29T17:39:48Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。