論文の概要: Difference Vector Equalization for Robust Fine-tuning of Vision-Language Models
- arxiv url: http://arxiv.org/abs/2511.09973v1
- Date: Fri, 14 Nov 2025 01:23:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.614439
- Title: Difference Vector Equalization for Robust Fine-tuning of Vision-Language Models
- Title(参考訳): 視覚言語モデルのロバスト微調整のための差分ベクトル等化
- Authors: Satoshi Suzuki, Shin'ya Yamaguchi, Shoichiro Takeda, Taiga Yamane, Naoki Makishima, Naotaka Kawata, Mana Ihori, Tomohiro Tanaka, Shota Orihashi, Ryo Masumura,
- Abstract要約: 微調整時の幾何構造を維持するために差分ベクトル等化(DiVE)を提案する。
DiVEは幾何学的構造を効果的に保存し、ID、OOD、ゼロショットのメトリクスで強力な結果を得る。
- 参考スコア(独自算出の注目度): 36.193783343547416
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contrastive pre-trained vision-language models, such as CLIP, demonstrate strong generalization abilities in zero-shot classification by leveraging embeddings extracted from image and text encoders. This paper aims to robustly fine-tune these vision-language models on in-distribution (ID) data without compromising their generalization abilities in out-of-distribution (OOD) and zero-shot settings. Current robust fine-tuning methods tackle this challenge by reusing contrastive learning, which was used in pre-training, for fine-tuning. However, we found that these methods distort the geometric structure of the embeddings, which plays a crucial role in the generalization of vision-language models, resulting in limited OOD and zero-shot performance. To address this, we propose Difference Vector Equalization (DiVE), which preserves the geometric structure during fine-tuning. The idea behind DiVE is to constrain difference vectors, each of which is obtained by subtracting the embeddings extracted from the pre-trained and fine-tuning models for the same data sample. By constraining the difference vectors to be equal across various data samples, we effectively preserve the geometric structure. Therefore, we introduce two losses: average vector loss (AVL) and pairwise vector loss (PVL). AVL preserves the geometric structure globally by constraining difference vectors to be equal to their weighted average. PVL preserves the geometric structure locally by ensuring a consistent multimodal alignment. Our experiments demonstrate that DiVE effectively preserves the geometric structure, achieving strong results across ID, OOD, and zero-shot metrics.
- Abstract(参考訳): CLIPのような対照的な事前学習型視覚言語モデルは、画像とテキストエンコーダから抽出した埋め込みを利用してゼロショット分類において強力な一般化能力を示す。
本稿では,これらのビジョン言語モデルを,アウト・オブ・ディストリビューション(OOD)およびゼロショット設定における一般化能力を損なうことなく,イン・ディストリビューション(ID)データ上で頑健に微調整することを目的とする。
現在の堅牢な微調整手法は、微調整のために事前学習に用いられたコントラスト学習を再利用することで、この問題に対処している。
しかし,これらの手法は,視覚言語モデルの一般化において重要な役割を果たす埋め込みの幾何学的構造を歪曲し,OODやゼロショットのパフォーマンスが制限されることがわかった。
そこで本研究では,微調整時の幾何学的構造を保存する差分ベクトル等化(DiVE)を提案する。
DiVEの背景にある考え方は差分ベクトルを制約することであり、それぞれは同じデータサンプルに対して事前訓練されたモデルと微調整されたモデルから抽出した埋め込みを減じることによって得られる。
差分ベクトルを様々なデータサンプルで等しく制限することにより、幾何構造を効果的に保存する。
そこで我々は,平均ベクトル損失(AVL)と一対ベクトル損失(PVL)の2つの損失を導入した。
AVLは、差分ベクトルをその重み付き平均に等しいように制限することで、幾何学的構造をグローバルに保存する。
PVLは、一貫したマルチモーダルアライメントを確保することで、幾何学構造を局所的に保存する。
実験により,DiVEは幾何構造を効果的に保存し,ID,OOD,ゼロショットの計測値間で強い結果が得られることを示した。
関連論文リスト
- Efficient Autoregressive Shape Generation via Octree-Based Adaptive Tokenization [68.07464514094299]
既存の方法では、すべての形状を固定サイズのトークンにエンコードし、3Dデータにまたがるスケールと複雑さの固有のバリエーションを無視している。
形状の複雑さに応じて潜在表現の次元を調節する新しいフレームワークであるOctoreeをベースとした適応トークン化を提案する。
当社の手法では,同等の視覚的品質を維持しながら,固定サイズの手法に比べてトークン数を50%削減する。
論文 参考訳(メタデータ) (2025-04-03T17:57:52Z) - Towards Robust Out-of-Distribution Generalization: Data Augmentation and Neural Architecture Search Approaches [4.577842191730992]
我々は、ディープラーニングのための堅牢なOoD一般化への道を探る。
まず,認識に必須でない特徴間の素早い相関を解消するための,新しい効果的なアプローチを提案する。
次に,OoDシナリオにおけるニューラルアーキテクチャ探索の強化問題について検討する。
論文 参考訳(メタデータ) (2024-10-25T20:50:32Z) - Towards Calibrated Robust Fine-Tuning of Vision-Language Models [97.19901765814431]
本研究は、視覚言語モデルにおいて、OOD精度と信頼性校正の両方を同時に改善する頑健な微調整法を提案する。
OOD分類とOOD校正誤差は2つのIDデータからなる共有上限を持つことを示す。
この知見に基づいて,最小の特異値を持つ制約付きマルチモーダルコントラスト損失を用いて微調整を行う新しいフレームワークを設計する。
論文 参考訳(メタデータ) (2023-11-03T05:41:25Z) - Positive-Negative Equal Contrastive Loss for Semantic Segmentation [8.664491798389662]
従来の作業では、グローバルコンテキストを効果的に抽出し集約するために、プラグアンドプレイモジュールと構造的損失を設計するのが一般的だった。
そこで我々は, 正負の負の正の負の負の正の負の正の負の正の負の負の負の正の負の負の正の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の
総合的な実験を行い、2つのベンチマークデータセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-07-04T13:51:29Z) - Exploiting Image Translations via Ensemble Self-Supervised Learning for
Unsupervised Domain Adaptation [0.0]
本稿では,複数の画像翻訳,アンサンブル学習,自己教師型学習を組み合わせた非教師なしドメイン適応(UDA)戦略を,一貫したアプローチで導入する。
我々は、ラベル付き合成データとラベル付き実世界のデータに基づいてセマンティックセグメンテーションモデルを訓練するUDAの標準的なタスクの1つに焦点を当てる。
論文 参考訳(メタデータ) (2021-07-13T16:43:02Z) - Efficient Semi-Implicit Variational Inference [65.07058307271329]
効率的でスケーラブルな半単純外挿 (SIVI) を提案する。
本手法はSIVIの証拠を低勾配値の厳密な推測にマッピングする。
論文 参考訳(メタデータ) (2021-01-15T11:39:09Z) - Disentangled Representation Learning and Generation with Manifold
Optimization [10.69910379275607]
本研究は,変分方向の促進による絡み合いを明確に促進する表現学習フレームワークを提案する。
理論的な議論と様々な実験により、提案モデルは、生成品質と非絡み合い表現学習の両方の観点から、多くのVAE変種よりも改善されていることが示された。
論文 参考訳(メタデータ) (2020-06-12T10:00:49Z) - Eigendecomposition-Free Training of Deep Networks for Linear
Least-Square Problems [107.3868459697569]
我々は、ディープネットワークのトレーニングに固有分解のないアプローチを導入する。
この手法は固有分解の明示的な微分よりもはるかに堅牢であることを示す。
我々の手法は収束特性が良く、最先端の結果が得られます。
論文 参考訳(メタデータ) (2020-04-15T04:29:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。