論文の概要: Learning Dynamics of VLM Finetuning
- arxiv url: http://arxiv.org/abs/2510.11978v1
- Date: Mon, 13 Oct 2025 22:22:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.10542
- Title: Learning Dynamics of VLM Finetuning
- Title(参考訳): VLMファインタニングの学習ダイナミクス
- Authors: Jusheng Zhang, Kaitong Cai, Jing Yang, Keze Wang,
- Abstract要約: 参照に基づく視覚言語モデル(VLM)の微調整は脆弱である。
我々は2段階のレシピである textbfCooling-Weighted DPO (CW-DPO) を導入する。
CW-DPOは、SFT専用やバニラDPOよりも、textbfmore の安定な最適化、textbfbetterキャリブレーション、textbfhigh のペアの勝利率を得る。
- 参考スコア(独自算出の注目度): 12.966077380225856
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Preference-based finetuning of vision--language models (VLMs) is brittle: trivially wrong negatives inject uninformative gradients that destabilize training. We recast alignment as \textbf{learning-dynamics--aware optimization} and introduce \textbf{Cooling-Weighted DPO (CW-DPO)}, a two-stage recipe that explicitly models and exploits the training trajectory. \textbf{Stage 1} performs supervised finetuning with \textbf{gentle negatives}: \textbf{low-weight smoothed supervision} that regularizes the base policy and curbs overconfidence without explicit penalties. \textbf{Stage 2} applies a DPO objective in which the \textbf{negative term is scaled by a cooling weight} computed from the model's \textbf{average token log-probability} on each negative, suppressing uninformative gradients from easy or off-distribution samples while preserving signal from hard negatives. In practice, we emphasize \textbf{on-policy negatives} and allow \textbf{mixed negatives} by blending a controllable fraction of dataset negatives to maintain contrast freshness. Throughout, we instrument training with $\Delta\!\log p$ probes on positives and negatives as first-class signals for early stopping, curriculum design, and failure diagnosis. Across diverse VLM tasks, CW-DPO yields \textbf{more stable optimization}, \textbf{better calibration}, and \textbf{higher pairwise win-rates} than SFT-only and vanilla DPO, while \textbf{converging in fewer steps}. Ablations isolate the \textbf{cooling-weight mechanism} as the primary driver of these gains and show complementary benefits from mixing on-policy and dataset negatives. Taken together, our results show that \textbf{smoothing learning dynamics before cooling preferences} is a simple, general principle for robust VLM alignment.
- Abstract(参考訳): 視覚言語モデル(VLM)の嗜好に基づく微調整は不安定である。
我々は、アライメントを \textbf{cooling-Weighted DPO (CW-DPO) として再キャストし、トレーニング軌跡を明示的にモデル化し、活用する2段階のレシピを紹介した。
\textbf{Stage 1} は、ベースポリシーを規則化し、明示的な罰則なしで過度に自信を抑える、 \textbf{gentle negatives}: \textbf{low-weight smoothed supervision} で教師付き微調整を行う。
\textbf{Stage 2} は、各負のモデルの \textbf{average token log-probability} から計算された冷却重みによって \textbf{ negative 項がスケールされる DPO の目的を適用し、硬い負の信号を保持しながら、簡単または非分布のサンプルから不正な勾配を抑える。
実際、我々は、データセットの負の制御可能な断片を混合することで、コントラストの鮮度を維持することで、 \textbf{on-policy negatives} を強調し、 \textbf{mixed negatives} を許容する。
全体としては、$\Delta\!
\log p$は、早期停止、カリキュラム設計、障害診断のための第一級信号として、正と負をプローブする。
様々な VLM タスク全体にわたって、CW-DPO は SFT-only と vanilla DPO よりも \textbf{more stable optimization} と \textbf{better calibration} と \textbf{higher pairwise win-rates} を、より少ないステップで \textbf{converging を出力する。
アブレーションは、これらの利得の第一の要因として \textbf{cooling-weight mechanism} を分離し、政治とデータセットの負の混合による相補的な利点を示す。
以上の結果から, 冷却選好前の学習力学は, 堅牢なVLMアライメントのための単純で一般的な原理であることがわかった。
関連論文リスト
- Rethinking Preference Alignment for Diffusion Models with Classifier-Free Guidance [8.038055165320195]
ベースモデルを再訓練することなくアライメントを改善する簡単な手法を提案する。
一般化をさらに高めるため、選好学習を正と負のデータに基づいて訓練された2つのモジュールに分離する。
我々はPick-a-Pic v2およびHPDv3を用いた安定拡散1.5および安定拡散XLの評価を行い、一貫した定量的および定性的な利得を示した。
論文 参考訳(メタデータ) (2026-02-21T11:18:52Z) - Improving LLM-based Recommendation with Self-Hard Negatives from Intermediate Layers [80.55429742713623]
ILRecはLLMベースのレコメンデーションシステムのための新しい好みの微調整フレームワークである。
負の信号に対してトークンレベルの報酬を割り当てるための軽量な協調フィルタリングモデルを提案する。
3つのデータセットの実験は、LLMベースのレコメンデータシステムの性能向上におけるILRecの有効性を示している。
論文 参考訳(メタデータ) (2026-02-19T14:37:43Z) - Correct and Weight: A Simple Yet Effective Loss for Implicit Feedback Recommendation [36.820719132176315]
本稿では,CW損失(Corrected and Weighted, CW損失)という,新規で原則化された損失関数を提案する。
CW損失は訓練対象内の偽陰性の影響を体系的に補正する。
4つの大規模でスパースなベンチマークデータセットで実施された実験は、提案した損失の優越性を実証している。
論文 参考訳(メタデータ) (2026-01-07T15:20:27Z) - MaP: A Unified Framework for Reliable Evaluation of Pre-training Dynamics [72.00014675808228]
大規模言語モデルの不安定性評価プロセスは、真の学習力学を曖昧にする。
textbfMaPは、アンダーラインMergingアンダーラインとアンダーラインPass@kメトリックを統合するフレームワークです。
実験により、MaPはよりスムーズな性能曲線を示し、ラン間分散を低減し、より一貫性のあるランキングを保証する。
論文 参考訳(メタデータ) (2025-10-10T11:40:27Z) - Don't Waste Mistakes: Leveraging Negative RL-Groups via Confidence Reweighting [24.822152032771736]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデルを改善するための標準的なレシピとなっている。
負の集団は、余分な監督なしに活用できることが示される。
論文 参考訳(メタデータ) (2025-10-09T18:01:44Z) - Margin Adaptive DPO: Leveraging Reward Model for Granular Control in Preference Optimization [0.0]
Margin-Adaptive Direct Preference Optimizationは、安定的で、データ保存、インスタンスレベルのソリューションを提供する。
我々は、MADPOが優れた最適化環境を持っていることを証明し、包括的な理論的解析を行う。
ハイクオリティデータでは+33.3%、低クオリティデータでは+10.5%というパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-10-06T20:09:37Z) - From Noisy Traces to Stable Gradients: Bias-Variance Optimized Preference Optimization for Aligning Large Reasoning Models [90.45197506653341]
大規模推論モデルは最終回答を生成する前に中間的推論トレースを生成する。
LRMと人間の好みの整合性は、モデルデプロイメントにとって重要な前提条件であり、まだ過小評価されていない。
共通の回避策は1つのサンプル軌道を最適化し、トレースサンプリングからかなり勾配のばらつきをもたらす。
論文 参考訳(メタデータ) (2025-10-06T17:58:01Z) - Reinforcement Learning with Verifiable yet Noisy Rewards under Imperfect Verifiers [90.50039419576807]
RLVR(Reinforcement Learning with Verifiable Rewards)は、人為的なラベル付けを避けるために、自動検証に対するポリシーを訓練する。
認証ハッキングの脆弱性を軽減するため、多くのRLVRシステムはトレーニング中にバイナリ$0,1$の報酬を破棄する。
この選択にはコストがかかる:textitfalse negatives(正しい回答、FNを拒絶)とtextitfalse positives(間違った回答、FPを受け入れる)を導入する。
論文 参考訳(メタデータ) (2025-10-01T13:56:44Z) - Winning the Pruning Gamble: A Unified Approach to Joint Sample and Token Pruning for Efficient Supervised Fine-Tuning [71.30276778807068]
サンプルプルーニングとトークンプルーニングを戦略的に協調する統合フレームワークを提案する。
Q-Tuningは、トレーニングデータの12.5%しか使用せず、全データSFTベースラインに対する平均38%の改善を実現している。
論文 参考訳(メタデータ) (2025-09-28T13:27:38Z) - GrAInS: Gradient-based Attribution for Inference-Time Steering of LLMs and VLMs [56.93583799109029]
GrAInSは推論時ステアリングのアプローチで、言語のみのモデルと視覚言語の両方のモデルとタスクで動作する。
推論中、GrAInSはトークンレベルの属性信号によって誘導されるトランスフォーマー層で隠されたアクティベーションを隠蔽し、アクティベーションを正規化し、表現スケールを保存する。
微調整と既存のステアリングベースラインの両方を一貫して上回る。
論文 参考訳(メタデータ) (2025-07-24T02:34:13Z) - SPPD: Self-training with Process Preference Learning Using Dynamic Value Margin [16.346540681903804]
我々はtextbfDynamic value margin (SPPD) を用いた textbfProcess textbfPreference Learning を統合した textbfSelf-training フレームワークを提案する。
7Bスケールモデルの実験は、ドメイン内およびドメイン外の数学ベンチマークで優れた性能を示す。
論文 参考訳(メタデータ) (2025-02-19T08:11:26Z) - Minusformer: Improving Time Series Forecasting by Progressively Learning Residuals [14.741951369068877]
ユビキタス時系列(TS)予測モデルでは,過度なオーバーフィッティングが生じる傾向にある。
本稿では,深層的なブースティング・アンサンブル学習手法である二重ストリーム・サブトラクション機構を提案する。
提案手法は既存の最先端手法よりも優れており,各データセットの平均性能は11.9%向上した。
論文 参考訳(メタデータ) (2024-02-04T03:54:31Z) - Prototypical Contrastive Learning through Alignment and Uniformity for
Recommendation [6.790779112538357]
提案するアンダーライン・アライメントとアンダーライン・ユニフォーマル性によるインダーライン型コントラスト学習について述べる。
具体的には、まず、原点グラフから異なる拡張点間の整合性を確保するために、潜時空間としてプロトタイプを提案する。
明示的な負の欠如は、インスタンスとプロトタイプ間の整合性損失を直接最適化することで、次元的な崩壊の問題が容易に生じることを意味する。
論文 参考訳(メタデータ) (2024-02-03T08:19:26Z) - Coupling Global Context and Local Contents for Weakly-Supervised
Semantic Segmentation [54.419401869108846]
Weakly Supervised Semantic (WSSS)モデルを提案する。
グローバルなオブジェクトコンテキストを異なる粒度空間でキャプチャするために,フレキシブルなコンテキストアグリゲーションモジュールを提案する。
局所的な細粒度を集約するために、ボトムアップパラメータ学習可能な方法で意味的に一貫した特徴融合モジュールを提案する。
論文 参考訳(メタデータ) (2023-04-18T15:29:23Z) - Feature-Level Debiased Natural Language Understanding [86.8751772146264]
既存の自然言語理解(NLU)モデルは、特定のデータセットで高いパフォーマンスを達成するために、データセットバイアスに依存することが多い。
本稿では, バイアスの潜在特性を緩和し, バイアスの動的性質を無視するために, DCT(Debiasing contrastive learning)を提案する。
DCTは、ディストリビューション内のパフォーマンスを維持しながら、アウトオブディストリビューションデータセットの最先端のベースラインを上回ります。
論文 参考訳(メタデータ) (2022-12-11T06:16:14Z) - Debiased Contrastive Learning of Unsupervised Sentence Representations [88.58117410398759]
コントラスト学習は、事前訓練された言語モデル(PLM)を改善し、高品質な文表現を導き出すのに有効である。
以前の作業は、主にランダムにトレーニングデータからバッチ内陰性またはサンプルを採用する。
我々はこれらの不適切な負の影響を軽減するための新しいフレームワーク textbfDCLR を提案する。
論文 参考訳(メタデータ) (2022-05-02T05:07:43Z) - Sequential Recommendation via Stochastic Self-Attention [68.52192964559829]
Transformerベースのアプローチでは、アイテムをベクトルとして埋め込んで、ドット積の自己アテンションを使用してアイテム間の関係を測定する。
本稿では,これらの問題を克服するための新しいtextbfStochastic textbfSelf-textbfAttention (STOSA) を提案する。
我々は、アイテムと項目の位置関係を列で特徴づける新しいワッサースタイン自己保持モジュールを考案した。
論文 参考訳(メタデータ) (2022-01-16T12:38:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。