論文の概要: APEX: Learning Adaptive Priorities for Multi-Objective Alignment in Vision-Language Generation
- arxiv url: http://arxiv.org/abs/2601.06574v1
- Date: Sat, 10 Jan 2026 13:43:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.88414
- Title: APEX: Learning Adaptive Priorities for Multi-Objective Alignment in Vision-Language Generation
- Title(参考訳): APEX:視覚言語生成における多目的アライメントのための適応的優先度学習
- Authors: Dongliang Chen, Xinlin Zhuang, Junjie Xu, Luojian Xie, Zehui Wang, Jiaxi Zhuang, Haolin Yang, Liang Dou, Xiao He, Xingjiao Wu, Ying Qian,
- Abstract要約: テキスト・ツー・イメージ生成のための多目的アライメントは、静的線形スカラー化によって一般的に実装されるが、固定重み付けは不均一な報酬の下で失敗することが多い。
本稿では,二段階適応正規化と動的スケジュールにより不均一報酬を安定化するAPEXを提案する。
- 参考スコア(独自算出の注目度): 15.972820204753196
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-objective alignment for text-to-image generation is commonly implemented via static linear scalarization, but fixed weights often fail under heterogeneous rewards, leading to optimization imbalance where models overfit high-variance, high-responsiveness objectives (e.g., OCR) while under-optimizing perceptual goals. We identify two mechanistic causes: variance hijacking, where reward dispersion induces implicit reweighting that dominates the normalized training signal, and gradient conflicts, where competing objectives produce opposing update directions and trigger seesaw-like oscillations. We propose APEX (Adaptive Priority-based Efficient X-objective Alignment), which stabilizes heterogeneous rewards with Dual-Stage Adaptive Normalization and dynamically schedules objectives via P^3 Adaptive Priorities that combine learning potential, conflict penalty, and progress need. On Stable Diffusion 3.5, APEX achieves improved Pareto trade-offs across four heterogeneous objectives, with balanced gains of +1.31 PickScore, +0.35 DeQA, and +0.53 Aesthetics while maintaining competitive OCR accuracy, mitigating the instability of multi-objective alignment.
- Abstract(参考訳): テキスト・ツー・イメージ生成のための多目的アライメントは、静的線形スカラー化によって一般的に実装されるが、固定重み付けは不均一な報酬の下でしばしば失敗し、モデルが知覚目標を過度に最適化しながら高分散、高応答性目標(OCR)を過度に適合させる最適化の不均衡をもたらす。
報酬分散が正規化学習信号を支配する暗黙的な再重み付けを誘導する分散ハイジャックと、競合する目標が反対の更新方向を生成してシーソーのような振動を誘発する勾配競合の2つのメカニズム的原因を同定する。
本稿では,2段階適応正規化による不均一報酬を安定化し,学習可能性,紛争罰,進歩ニーズを組み合わせたP^3適応優先度を用いて目的を動的にスケジュールするAPEX(Adaptive Priority-based Efficient X-objective Alignment)を提案する。
安定拡散3.5では、APEXは、多目的アライメントの不安定性を軽減しつつ、競争力のあるOCR精度を維持しながら、+1.31 PickScore、+0.35 DeQA、+0.53 Aestheticsのバランスの取れたゲインを持つ4つの異種目的のパレートトレードオフを達成している。
関連論文リスト
- MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization [56.074760766965085]
大規模言語モデル(LLM)の整合性のための効率的なパラダイムとしてグループ相対政策最適化が登場している。
我々は,報酬スカラー化を動的潜在ポリシーとして扱い,モデルの終端隠蔽状態を意味的ボトルネックとして活用するMAESTROを提案する。
本稿では,軽量コンダクタネットワークがメタリワード信号としてグループ相対的優位性を生かしてポリシと共進化する,双方向最適化フレームワークにおけるコンテキスト的帯域幅問題としてこれを定式化する。
論文 参考訳(メタデータ) (2026-01-12T05:02:48Z) - Anchoring Values in Temporal and Group Dimensions for Flow Matching Model Alignment [61.80228667422234]
VGPOは時間次元とグループ次元の両方で値の推定を再定義する。
スパース端末の報酬を密度の高いプロセス認識値推定に変換する。
標準群正規化を絶対値によって強化された新しいプロセスに置き換え、安定した最適化信号を維持する。
論文 参考訳(メタデータ) (2025-12-13T16:31:26Z) - SONA: Learning Conditional, Unconditional, and Mismatching-Aware Discriminator [54.562217603802075]
帰納的バイアスを伴う最終層において,自然性(美容性)とアライメントを別々に投影するSONA(Sum of Naturalness and Alignment)を導入する。
クラス条件生成タスクの実験により、SONAは最先端の手法に比べて優れたサンプル品質と条件アライメントを達成することが示された。
論文 参考訳(メタデータ) (2025-10-06T08:26:06Z) - APFEx: Adaptive Pareto Front Explorer for Intersectional Fairness [16.993547305381327]
本稿では,共同最適化問題として,交差フェアネスを明示的にモデル化する最初のフレームワークであるAPFExを紹介する。
APFExは、適応的な多目的性、勾配重み付け、探索戦略を組み合わせて、公正さと精度のトレードオフをナビゲートする。
4つの実世界のデータセットの実験は、APFExの優位性を示し、競争精度を維持しながら公正な違反を減らす。
論文 参考訳(メタデータ) (2025-09-17T11:13:22Z) - Controllable Preference Optimization: Toward Controllable Multi-Objective Alignment [103.12563033438715]
人工知能におけるアライメントは、モデル応答と人間の好みと値の一貫性を追求する。
既存のアライメント技術は、主に一方向であり、様々な目的に対して、最適以下のトレードオフと柔軟性の低下につながる。
制御可能な選好最適化(CPO)を導入し、異なる目的に対する選好スコアを明確に指定する。
論文 参考訳(メタデータ) (2024-02-29T12:12:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。