論文の概要: Bayesian Natural Gradient Fine-Tuning of CLIP Models via Kalman Filtering
- arxiv url: http://arxiv.org/abs/2511.01694v1
- Date: Mon, 03 Nov 2025 16:00:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.317203
- Title: Bayesian Natural Gradient Fine-Tuning of CLIP Models via Kalman Filtering
- Title(参考訳): カルマンフィルタによるCLIPモデルのベイズ自然勾配微調整
- Authors: Hossein Abdi, Mingfei Sun, Wei Pan,
- Abstract要約: 視覚言語による事前学習モデルにおいて、最適性能を達成する上で大きな課題となる微調整は少ない。
本稿では,CLIPモデルに対するカルマンフィルタを用いた自然明度(NGD)のベイズ近似を提案する。
我々のアルゴリズムは、最先端のベースラインよりも優れた、もしくは同等のID性能を一貫して達成する。
- 参考スコア(独自算出の注目度): 4.681301898136104
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language pre-trained models, such as CLIP, have established new benchmarks in multimodal data mining. In such models, few-shot fine-tuning is a major challenge to achieve optimal performance on both in-distribution (ID) and out-of-distribution (OOD) datasets, especially when labeled data is scarce. Most existing fine-tuning approaches rely on first-order gradient-based optimizers, which typically suffer from slow convergence, sensitivity to step-size hyperparameters, and poor generalization in OOD settings. In contrast, second-order methods utilize local curvature information of the loss landscape to adjust the update step size. This is particularly beneficial for CLIP models, whose non-convex loss functions often contain sharp critical points. In such cases, natural gradient direction can offer more substantial and efficient per-iteration updates when fine-tuning with limited data. Natural Gradient Descent (NGD) is obtained by preconditioning the standard gradient with the inverse Fisher Information Matrix (FIM), which is computationally expensive for large models. To address this, we propose a Bayesian approximation of NGD using a Kalman filter for CLIP models. Our method combines the benefits of second-order optimization with Bayesian inference, which enhances generalization while providing uncertainty quantification. Extensive experiments conducted on diverse image classification datasets demonstrate that our algorithm consistently achieves superior--or comparable--ID performance and improved OOD robustness compared to state-of-the-art baselines. To the best of our knowledge, this work represents the first successful application of Kalman filtering to fine-tuning CLIP-based models, which enables more robust and efficient learning in vision-language tasks.
- Abstract(参考訳): CLIPのようなビジョン言語で事前訓練されたモデルは、マルチモーダルデータマイニングにおいて新しいベンチマークを確立した。
このようなモデルでは、特にラベル付きデータが不足している場合、分散内(ID)と分布外(OOD)の両方で最適なパフォーマンスを達成するために、ほとんどショットの微調整が大きな課題である。
既存の微調整アプローチの多くは1次勾配に基づくオプティマイザに依存しており、通常は収束が遅く、ステップサイズのハイパーパラメータに対する感度が低く、OOD設定での一般化が不十分である。
対照的に、二階法では、ロスランドスケープの局所曲率情報を用いて更新ステップサイズを調整している。
これはCLIPモデルにとって特に有益であり、非凸損失関数はしばしば鋭い臨界点を含む。
このような場合、自然勾配方向は、限られたデータで微調整する場合、より実質的で効率的な点定ごとの更新を提供することができる。
Natural Gradient Descent (NGD) は、逆フィッシャー情報行列 (FIM) で標準勾配をプレコンディションすることで得られる。
そこで本研究では,CLIPモデルに対するKalmanフィルタを用いたNGDのベイズ近似を提案する。
提案手法は,二階最適化とベイズ推論の利点を組み合わせることで,不確実な定量化を提供しながら一般化を促進する。
多様な画像分類データセットを用いて行った大規模な実験により、我々のアルゴリズムは、最先端または同等のID性能を一貫して達成し、最先端のベースラインと比較してOODロバスト性を向上することを示した。
私たちの知る限り、この研究は、視覚言語タスクにおけるより堅牢で効率的な学習を可能にするCLIPベースのモデルにKalmanフィルタを応用した最初の成功例です。
関連論文リスト
- Preference Trajectory Modeling via Flow Matching for Sequential Recommendation [50.077447974294586]
シーケンスレコメンデーションは、履歴的なインタラクションシーケンスに基づいて、各ユーザの次の項目を予測する。
FlowRecはシンプルだが効果的なシーケンシャルレコメンデーションフレームワークである。
我々は,ガウス雑音に代えてパーソナライズされた行動に基づく事前分布を構築し,ユーザの嗜好軌跡をモデル化するためのベクトル場を学習する。
論文 参考訳(メタデータ) (2025-08-25T02:55:42Z) - Self-Boost via Optimal Retraining: An Analysis via Approximate Message Passing [58.52119063742121]
独自の予測と潜在的にノイズの多いラベルを使ってモデルをトレーニングすることは、モデルパフォーマンスを改善するためのよく知られた戦略である。
本稿では,モデルの予測と提供ラベルを最適に組み合わせる方法について論じる。
我々の主な貢献は、現在のモデルの予測と与えられたラベルを組み合わせたベイズ最適集約関数の導出である。
論文 参考訳(メタデータ) (2025-05-21T07:16:44Z) - DONOD: Efficient and Generalizable Instruction Fine-Tuning for LLMs via Model-Intrinsic Dataset Pruning [22.704995231753397]
大規模言語モデル(LLM)のアドホック命令の微調整は、ドメイン固有の適応に広く採用されている。
本研究では,軽量なモデル固有データ解析手法であるDONODを提案する。
データセット全体の70%をフィルタリングすることで、ターゲットドメインの精度を14.90%、クロスドメインの精度を5.67%向上させる。
論文 参考訳(メタデータ) (2025-04-21T02:25:03Z) - LPLgrad: Optimizing Active Learning Through Gradient Norm Sample Selection and Auxiliary Model Training [2.762397703396293]
LPLgrad(Loss Prediction Loss with Gradient Norm)は、モデルの不確実性を効果的に定量化し、画像分類タスクの精度を向上させる。
LPLgradは2つの異なるフェーズで動作する: (i) Em Training Phaseは、メインモデルと補助モデルとを併用して入力特徴の損失を予測することを目的としている。
この二重モデルアプローチは、複雑な入力特徴を抽出し、データから本質的なパターンを効果的に学習する能力を高める。
論文 参考訳(メタデータ) (2024-11-20T18:12:59Z) - Conditional Denoising Diffusion for Sequential Recommendation [62.127862728308045]
GAN(Generative Adversarial Networks)とVAE(VAE)の2つの顕著な生成モデル
GANは不安定な最適化に苦しむ一方、VAEは後続の崩壊と過度に平らな世代である。
本稿では,シーケンスエンコーダ,クロスアテンティブデノナイジングデコーダ,ステップワイズディフューザを含む条件付きデノナイジング拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T15:32:59Z) - Differentially Private Learning with Per-Sample Adaptive Clipping [8.401653565794353]
非単調適応重み関数に基づくDP-PSACアルゴリズムを提案する。
DP-PSACは,複数のメインストリームビジョンや言語タスクにおいて,最先端の手法よりも優れ,あるいは適合していることを示す。
論文 参考訳(メタデータ) (2022-12-01T07:26:49Z) - Model-Agnostic Multitask Fine-tuning for Few-shot Vision-Language
Transfer Learning [59.38343286807997]
未知タスクの視覚言語モデルのためのモデル非依存型マルチタスクファインチューニング(MAMF)を提案する。
モデルに依存しないメタラーニング(MAML)と比較して、MAMFは二段階最適化を捨て、一階勾配のみを使用する。
MAMFは5つのベンチマークデータセット上で、数ショットの転送学習において古典的な微調整法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-03-09T17:26:53Z) - Self-Tuning Stochastic Optimization with Curvature-Aware Gradient
Filtering [53.523517926927894]
サンプルごとのHessian-vector積と勾配を用いて、自己チューニングの二次構造を構築する。
モデルに基づく手続きが雑音勾配設定に収束することを証明する。
これは自己チューニング二次体を構築するための興味深いステップである。
論文 参考訳(メタデータ) (2020-11-09T22:07:30Z) - Population Gradients improve performance across data-sets and
architectures in object classification [6.17047113475566]
ニューラルネットワーク(NN)の学習中に勾配を計算する新しい手法を提案する。
アーキテクチャ、データセット、ハイパーパラメータ値、トレーニング長、モデルサイズにわたる最終的なパフォーマンスを大幅に改善する。
私たちがテストした広範囲な状況において有効であるのに加えて、パフォーマンスの向上(例えば、F1)は他の広範なパフォーマンス改善手法のどれよりも高いか高いかのどちらかです。
論文 参考訳(メタデータ) (2020-10-23T09:40:23Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。