論文の概要: LeanPO: Lean Preference Optimization for Likelihood Alignment in Video-LLMs
- arxiv url: http://arxiv.org/abs/2506.05260v1
- Date: Thu, 05 Jun 2025 17:21:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.845882
- Title: LeanPO: Lean Preference Optimization for Likelihood Alignment in Video-LLMs
- Title(参考訳): LeanPO: ビデオLLMにおける類似のアライメントのためのリーン優先最適化
- Authors: Xiaodong Wang, Jinfa Huang, Li Yuan, Peixi Peng,
- Abstract要約: 本稿では,暗黙的な報酬を応答の確率の平均値として再構成する参照のない手法であるemphLean Preference Optimization (LeanPO)を提案する。
LeanPOは、ビデオ-LLMの好みと人間の信頼性を調整するための、シンプルで効果的なソリューションを提供する。
- 参考スコア(独自算出の注目度): 21.2850475101785
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most Video Large Language Models (Video-LLMs) adopt preference alignment techniques, e.g., DPO~\citep{rafailov2024dpo}, to optimize the reward margin between a winning response ($y_w$) and a losing response ($y_l$). However, the likelihood displacement observed in DPO indicates that both $\log \pi_\theta (y_w\mid x)$ and $\log \pi_\theta (y_l\mid x) $ often decrease during training, inadvertently boosting the probabilities of non-target responses. In this paper, we systematically revisit this phenomenon from LLMs to Video-LLMs, showing that it intensifies when dealing with the redundant complexity of video content. To alleviate the impact of this phenomenon, we propose \emph{Lean Preference Optimization} (LeanPO), a reference-free approach that reformulates the implicit reward as the average likelihood of the response with respect to the policy model. A key component of LeanPO is the reward-trustworthiness correlated self-generated preference data pipeline, which carefully infuses relevant prior knowledge into the model while continuously refining the preference data via self-reflection. This allows the policy model to obtain high-quality paired data and accurately estimate the newly defined reward, thus mitigating the unintended drop. In addition, we introduce a dynamic label smoothing strategy that mitigates the impact of noise in responses from diverse video content, preventing the model from overfitting to spurious details. Extensive experiments demonstrate that LeanPO significantly enhances the performance of state-of-the-art Video-LLMs, consistently boosting baselines of varying capacities with minimal additional training overhead. Moreover, LeanPO offers a simple yet effective solution for aligning Video-LLM preferences with human trustworthiness, paving the way toward the reliable and efficient Video-LLMs.
- Abstract(参考訳): ほとんどのビデオ大言語モデル(ビデオ-LLMs)は、勝利したレスポンス(y_w$)と負けたレスポンス(y_l$)の間の報酬マージンを最適化するために、好みのアライメント技術(例えば、DPO~\citep{rafailov2024dpo})を採用している。
しかし、DPOで観測された確率変位は、訓練中に$\log \pi_\theta (y_w\mid x)$と$\log \pi_\theta (y_l\mid x)$の両方が減少し、非標的応答の確率が必然的に増加することを示している。
本稿では,この現象をLLMからビデオLLMに体系的に再検討し,ビデオコンテンツの冗長な複雑さに対処する際の効果を示す。
この現象の影響を軽減するために、政策モデルに対する応答の平均確率として暗黙的な報酬を再構成する参照のないアプローチである「emph{Lean Preference Optimization} (LeanPO)」を提案する。
LeanPOの重要なコンポーネントは、報酬-信頼関係の相関した自己生成の嗜好データパイプラインである。
これにより、ポリシーモデルは高品質なペア化されたデータを取得し、新しく定義された報酬を正確に見積もることができ、意図しない損失を軽減できる。
さらに,多様な映像コンテンツからの応答におけるノイズの影響を緩和し,モデルが過度に収まらないようにするための動的ラベル平滑化戦略を導入する。
大規模な実験によると、LeanPOは最先端のVideo-LLMのパフォーマンスを大幅に向上し、トレーニングのオーバーヘッドを最小限に抑えながら、さまざまな能力のベースラインを継続的に向上させる。
さらにLeanPOは、ビデオ-LLMの好みを人間の信頼性と整合させ、信頼性と効率的なビデオ-LLMへの道を歩むための、シンプルで効果的なソリューションを提供する。
関連論文リスト
- Lean and Mean: Decoupled Value Policy Optimization with Global Value Guidance [52.65461207786633]
政策に基づく人間からのフィードバックからの強化学習は、大きな言語モデルと人間の嗜好の整合に不可欠である。
俳優と批評家の合同トレーニングと、事前訓練された一定の報酬モデルによる指導が必要である。
従来の報酬モデリングを事前訓練されたEmphglobal Value Model(GVM)に置き換えるリーンフレームワークである textbfDecoupled Value Policy Optimization (DVPO) を提案する。
論文 参考訳(メタデータ) (2025-02-24T08:11:33Z) - $α$-DPO: Adaptive Reward Margin is What Direct Preference Optimization Needs [45.46582930202524]
$alpha$-DPOは、大規模言語モデルの適応的優先最適化アルゴリズムである。
ポリシーモデルと参照モデルのバランスを取り、パーソナライズされた報酬マージンを達成する。
さまざまなモデル設定でDPOとSimPOを一貫して上回ります。
論文 参考訳(メタデータ) (2024-10-14T04:29:57Z) - Self-Evolutionary Large Language Models through Uncertainty-Enhanced Preference Optimization [9.618391485742968]
反復的選好最適化は、最近、大規模言語モデル(LLM)のデファクトトレーニングパラダイムの1つになっている。
我々は、信頼性の高いフィードバックでLLMを自己進化させる不確実性のあるtextbfPreference textbfOptimizationフレームワークを提案する。
筆者らのフレームワークは,ノイズ問題を大幅に軽減し,反復的選好最適化の性能を向上させる。
論文 参考訳(メタデータ) (2024-09-17T14:05:58Z) - Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z) - Provably Robust DPO: Aligning Language Models with Noisy Feedback [10.523790076060171]
ランダムな選好フリップが存在する場合に、ポリシー最適化のための一般的なフレームワークを導入する。
本研究では,ノイズが平均値に与える影響を非バイアス化する新しい損失関数を設計し,その損失を騒音に頑健に抑えることで訓練を行う。
IMDb 感情生成と Anthropic's useful-harmless データセットを用いた実験により,rDPO はバニラ DPO と比較して好みラベルのノイズに対して頑健であることが示された。
論文 参考訳(メタデータ) (2024-03-01T09:55:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。