論文の概要: Learning Dynamics of VLM Finetuning
- arxiv url: http://arxiv.org/abs/2510.11978v1
- Date: Mon, 13 Oct 2025 22:22:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.10542
- Title: Learning Dynamics of VLM Finetuning
- Title(参考訳): VLMファインタニングの学習ダイナミクス
- Authors: Jusheng Zhang, Kaitong Cai, Jing Yang, Keze Wang,
- Abstract要約: 参照に基づく視覚言語モデル(VLM)の微調整は脆弱である。
我々は2段階のレシピである textbfCooling-Weighted DPO (CW-DPO) を導入する。
CW-DPOは、SFT専用やバニラDPOよりも、textbfmore の安定な最適化、textbfbetterキャリブレーション、textbfhigh のペアの勝利率を得る。
- 参考スコア(独自算出の注目度): 12.966077380225856
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Preference-based finetuning of vision--language models (VLMs) is brittle: trivially wrong negatives inject uninformative gradients that destabilize training. We recast alignment as \textbf{learning-dynamics--aware optimization} and introduce \textbf{Cooling-Weighted DPO (CW-DPO)}, a two-stage recipe that explicitly models and exploits the training trajectory. \textbf{Stage 1} performs supervised finetuning with \textbf{gentle negatives}: \textbf{low-weight smoothed supervision} that regularizes the base policy and curbs overconfidence without explicit penalties. \textbf{Stage 2} applies a DPO objective in which the \textbf{negative term is scaled by a cooling weight} computed from the model's \textbf{average token log-probability} on each negative, suppressing uninformative gradients from easy or off-distribution samples while preserving signal from hard negatives. In practice, we emphasize \textbf{on-policy negatives} and allow \textbf{mixed negatives} by blending a controllable fraction of dataset negatives to maintain contrast freshness. Throughout, we instrument training with $\Delta\!\log p$ probes on positives and negatives as first-class signals for early stopping, curriculum design, and failure diagnosis. Across diverse VLM tasks, CW-DPO yields \textbf{more stable optimization}, \textbf{better calibration}, and \textbf{higher pairwise win-rates} than SFT-only and vanilla DPO, while \textbf{converging in fewer steps}. Ablations isolate the \textbf{cooling-weight mechanism} as the primary driver of these gains and show complementary benefits from mixing on-policy and dataset negatives. Taken together, our results show that \textbf{smoothing learning dynamics before cooling preferences} is a simple, general principle for robust VLM alignment.
- Abstract(参考訳): 視覚言語モデル(VLM)の嗜好に基づく微調整は不安定である。
我々は、アライメントを \textbf{cooling-Weighted DPO (CW-DPO) として再キャストし、トレーニング軌跡を明示的にモデル化し、活用する2段階のレシピを紹介した。
\textbf{Stage 1} は、ベースポリシーを規則化し、明示的な罰則なしで過度に自信を抑える、 \textbf{gentle negatives}: \textbf{low-weight smoothed supervision} で教師付き微調整を行う。
\textbf{Stage 2} は、各負のモデルの \textbf{average token log-probability} から計算された冷却重みによって \textbf{ negative 項がスケールされる DPO の目的を適用し、硬い負の信号を保持しながら、簡単または非分布のサンプルから不正な勾配を抑える。
実際、我々は、データセットの負の制御可能な断片を混合することで、コントラストの鮮度を維持することで、 \textbf{on-policy negatives} を強調し、 \textbf{mixed negatives} を許容する。
全体としては、$\Delta\!
\log p$は、早期停止、カリキュラム設計、障害診断のための第一級信号として、正と負をプローブする。
様々な VLM タスク全体にわたって、CW-DPO は SFT-only と vanilla DPO よりも \textbf{more stable optimization} と \textbf{better calibration} と \textbf{higher pairwise win-rates} を、より少ないステップで \textbf{converging を出力する。
アブレーションは、これらの利得の第一の要因として \textbf{cooling-weight mechanism} を分離し、政治とデータセットの負の混合による相補的な利点を示す。
以上の結果から, 冷却選好前の学習力学は, 堅牢なVLMアライメントのための単純で一般的な原理であることがわかった。
関連論文リスト
- MaP: A Unified Framework for Reliable Evaluation of Pre-training Dynamics [72.00014675808228]
大規模言語モデルの不安定性評価プロセスは、真の学習力学を曖昧にする。
textbfMaPは、アンダーラインMergingアンダーラインとアンダーラインPass@kメトリックを統合するフレームワークです。
実験により、MaPはよりスムーズな性能曲線を示し、ラン間分散を低減し、より一貫性のあるランキングを保証する。
論文 参考訳(メタデータ) (2025-10-10T11:40:27Z) - Don't Waste Mistakes: Leveraging Negative RL-Groups via Confidence Reweighting [24.822152032771736]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデルを改善するための標準的なレシピとなっている。
負の集団は、余分な監督なしに活用できることが示される。
論文 参考訳(メタデータ) (2025-10-09T18:01:44Z) - Reinforcement Learning with Verifiable yet Noisy Rewards under Imperfect Verifiers [90.50039419576807]
RLVR(Reinforcement Learning with Verifiable Rewards)は、人為的なラベル付けを避けるために、自動検証に対するポリシーを訓練する。
認証ハッキングの脆弱性を軽減するため、多くのRLVRシステムはトレーニング中にバイナリ$0,1$の報酬を破棄する。
この選択にはコストがかかる:textitfalse negatives(正しい回答、FNを拒絶)とtextitfalse positives(間違った回答、FPを受け入れる)を導入する。
論文 参考訳(メタデータ) (2025-10-01T13:56:44Z) - GrAInS: Gradient-based Attribution for Inference-Time Steering of LLMs and VLMs [56.93583799109029]
GrAInSは推論時ステアリングのアプローチで、言語のみのモデルと視覚言語の両方のモデルとタスクで動作する。
推論中、GrAInSはトークンレベルの属性信号によって誘導されるトランスフォーマー層で隠されたアクティベーションを隠蔽し、アクティベーションを正規化し、表現スケールを保存する。
微調整と既存のステアリングベースラインの両方を一貫して上回る。
論文 参考訳(メタデータ) (2025-07-24T02:34:13Z) - SPPD: Self-training with Process Preference Learning Using Dynamic Value Margin [16.346540681903804]
我々はtextbfDynamic value margin (SPPD) を用いた textbfProcess textbfPreference Learning を統合した textbfSelf-training フレームワークを提案する。
7Bスケールモデルの実験は、ドメイン内およびドメイン外の数学ベンチマークで優れた性能を示す。
論文 参考訳(メタデータ) (2025-02-19T08:11:26Z) - Prototypical Contrastive Learning through Alignment and Uniformity for
Recommendation [6.790779112538357]
提案するアンダーライン・アライメントとアンダーライン・ユニフォーマル性によるインダーライン型コントラスト学習について述べる。
具体的には、まず、原点グラフから異なる拡張点間の整合性を確保するために、潜時空間としてプロトタイプを提案する。
明示的な負の欠如は、インスタンスとプロトタイプ間の整合性損失を直接最適化することで、次元的な崩壊の問題が容易に生じることを意味する。
論文 参考訳(メタデータ) (2024-02-03T08:19:26Z) - Coupling Global Context and Local Contents for Weakly-Supervised
Semantic Segmentation [54.419401869108846]
Weakly Supervised Semantic (WSSS)モデルを提案する。
グローバルなオブジェクトコンテキストを異なる粒度空間でキャプチャするために,フレキシブルなコンテキストアグリゲーションモジュールを提案する。
局所的な細粒度を集約するために、ボトムアップパラメータ学習可能な方法で意味的に一貫した特徴融合モジュールを提案する。
論文 参考訳(メタデータ) (2023-04-18T15:29:23Z) - Debiased Contrastive Learning of Unsupervised Sentence Representations [88.58117410398759]
コントラスト学習は、事前訓練された言語モデル(PLM)を改善し、高品質な文表現を導き出すのに有効である。
以前の作業は、主にランダムにトレーニングデータからバッチ内陰性またはサンプルを採用する。
我々はこれらの不適切な負の影響を軽減するための新しいフレームワーク textbfDCLR を提案する。
論文 参考訳(メタデータ) (2022-05-02T05:07:43Z) - Sequential Recommendation via Stochastic Self-Attention [68.52192964559829]
Transformerベースのアプローチでは、アイテムをベクトルとして埋め込んで、ドット積の自己アテンションを使用してアイテム間の関係を測定する。
本稿では,これらの問題を克服するための新しいtextbfStochastic textbfSelf-textbfAttention (STOSA) を提案する。
我々は、アイテムと項目の位置関係を列で特徴づける新しいワッサースタイン自己保持モジュールを考案した。
論文 参考訳(メタデータ) (2022-01-16T12:38:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。