論文の概要: StarFT: Robust Fine-tuning of Zero-shot Models via Spuriosity Alignment
- arxiv url: http://arxiv.org/abs/2505.13232v2
- Date: Tue, 20 May 2025 12:27:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 12:33:37.46185
- Title: StarFT: Robust Fine-tuning of Zero-shot Models via Spuriosity Alignment
- Title(参考訳): StarFT:スプリシティアライメントによるゼロショットモデルのロバスト微調整
- Authors: Younghyun Kim, Jongheon Jeong, Sangkyung Kwak, Kyungmin Lee, Juho Lee, Jinwoo Shin,
- Abstract要約: 本稿では,ゼロショットモデルの微調整を行うフレームワークであるStarFTを提案する。
StarFTはウォーターバードグループのシフトシナリオにおいて、それぞれ14.30%、平均精度を3.02%向上させる。
- 参考スコア(独自算出の注目度): 70.87096576708898
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning robust representations from data often requires scale, which has led to the success of recent zero-shot models such as CLIP. However, the obtained robustness can easily be deteriorated when these models are fine-tuned on other downstream tasks (e.g., of smaller scales). Previous works often interpret this phenomenon in the context of domain shift, developing fine-tuning methods that aim to preserve the original domain as much as possible. However, in a different context, fine-tuned models with limited data are also prone to learning features that are spurious to humans, such as background or texture. In this paper, we propose StarFT (Spurious Textual Alignment Regularization), a novel framework for fine-tuning zero-shot models to enhance robustness by preventing them from learning spuriosity. We introduce a regularization that aligns the output distribution for spuriosity-injected labels with the original zero-shot model, ensuring that the model is not induced to extract irrelevant features further from these descriptions. We leverage recent language models to get such spuriosity-injected labels by generating alternative textual descriptions that highlight potentially confounding features. Extensive experiments validate the robust generalization of StarFT and its emerging properties: zero-shot group robustness and improved zero-shot classification. Notably, StarFT boosts both worst-group and average accuracy by 14.30% and 3.02%, respectively, in the Waterbirds group shift scenario, where other robust fine-tuning baselines show even degraded performance.
- Abstract(参考訳): データから堅牢な表現を学ぶには、しばしばスケールを必要とするため、CLIPのような最近のゼロショットモデルの成功につながっている。
しかし、これらのモデルが他の下流タスク(例えば、より小さなスケール)で微調整された場合、得られるロバスト性は容易に劣化する。
以前の研究はしばしばドメインシフトの文脈でこの現象を解釈し、元のドメインをできるだけ保存することを目的とした微調整手法を開発した。
しかし、異なる文脈では、限られたデータを持つ微調整されたモデルも、背景やテクスチャといった人間にとって刺激的な特徴を学習する傾向がある。
本稿では,ゼロショットモデルを微調整する新しいフレームワークであるStarFT(Spurious Textual Alignment Regularization)を提案する。
そこで本研究では,スプリシティインジェクトラベルの出力分布をゼロショットモデルに整合させる正規化を導入し,これらの記述から無関係な特徴を抽出するためにモデルが誘導されないことを確かめる。
我々は近年の言語モデルを利用して、潜在的に曖昧な特徴を強調した代替のテキスト記述を生成することで、このような刺激性に富んだラベルを得る。
大規模な実験は、ゼロショット群ロバストネスとゼロショット分類の改善という、StarFTとその出現する性質のロバストな一般化を検証した。
特に、StarFTはウォーターバードズグループシフトのシナリオにおいて、最悪のグループと平均精度をそれぞれ14.30%、3.02%向上させる。
関連論文リスト
- Extract Free Dense Misalignment from CLIP [7.0247398611254175]
この研究はCLIP4DMと呼ばれる新しいアプローチを提案する。
我々は、個々のテキストトークンの負の勾配を誤適応を示すために、勾配に基づく属性計算法を改良する。
提案手法は,ゼロショットモデル間の最先端性能と微調整モデルとの競合性能を示す。
論文 参考訳(メタデータ) (2024-12-24T12:51:05Z) - Text-Guided Attention is All You Need for Zero-Shot Robustness in Vision-Language Models [64.67721492968941]
ゼロショットロバストネス(TGA-ZSR)のためのテキストガイド型アテンションを提案する。
我々のゴールは、CLIPモデルの一般化を維持し、敵の堅牢性を高めることである。
本手法は,現在の最先端技術よりも9.58%の精度でゼロショット精度を向上する。
論文 参考訳(メタデータ) (2024-10-29T07:15:09Z) - Lipsum-FT: Robust Fine-Tuning of Zero-Shot Models Using Random Text Guidance [27.91782770050068]
大規模なコントラスト付き視覚言語事前学習モデルは、下流データでのトレーニングを必要とせず、様々な画像分類タスクの競合性能を達成するゼロショットモデルを提供する。
近年の研究では、参照データにゼロショットモデルの微調整を加えることで、下流のパフォーマンスが向上することが確認されているが、分散シフトに対するモデルの堅牢性は損なわれている。
本稿では,視覚言語事前学習モデルの言語モデリングを効果的に活用する,頑健な微調整アルゴリズムLipsum-FTを提案する。
論文 参考訳(メタデータ) (2024-04-01T02:01:33Z) - ZeroG: Investigating Cross-dataset Zero-shot Transferability in Graphs [36.749959232724514]
ZeroGは、クロスデータセットの一般化を可能にするために設計された新しいフレームワークである。
特徴の不整合、ラベル空間の整合、負の移動といった、固有の課題に対処する。
本稿では,抽出したサブグラフの意味情報と構造情報を豊かにするための,プロンプトベースのサブグラフサンプリングモジュールを提案する。
論文 参考訳(メタデータ) (2024-02-17T09:52:43Z) - Robust Fine-Tuning of Vision-Language Models for Domain Generalization [6.7181844004432385]
ファンデーションモデルは、分散シフトの下で、印象的なゼロショット推論能力とロバスト性を持っている。
一般的な視覚言語基盤モデルCLIPの微調整のための新しいレシピを提案する。
私たちの実験では、ゼロショットCLIPは、より複雑なベンチマークでトレーニング済みのビジョンモデルのパフォーマンスと一致しないが、少数ショットCLIPの微調整は、ビジョンのみのパフォーマンスよりも優れていることを示した。
論文 参考訳(メタデータ) (2023-11-03T20:50:40Z) - Generalized Logit Adjustment: Calibrating Fine-tuned Models by Removing Label Bias in Foundation Models [75.9543301303586]
CLIPのようなファンデーションモデルは、追加のトレーニングデータなしで、さまざまなタスクでゼロショット転送を可能にする。
微調整やアンサンブルも一般的に下流のタスクに合うように採用されている。
しかし、先行研究は基礎モデルに固有のバイアスを見落としていると論じる。
論文 参考訳(メタデータ) (2023-10-12T08:01:11Z) - Tailoring Language Generation Models under Total Variation Distance [55.89964205594829]
ニューラルネットワーク生成の標準パラダイムは、最適化方法として最大推定(MLE)を採用する。
言語生成に適用するための実践的境界を開発する。
本稿では,TVD推定のトレードオフのバランスをとるためのTaiLr の目標について紹介する。
論文 参考訳(メタデータ) (2023-02-26T16:32:52Z) - Zero-Shot Text Classification with Self-Training [8.68603153534916]
ゼロショット分類器を最も確実な予測で微調整することで、幅広いテキスト分類タスクにおいて大幅な性能向上が期待できることを示す。
自己学習は、手元にあるタスクにゼロショットモデルを適用する。
論文 参考訳(メタデータ) (2022-10-31T17:55:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。