論文の概要: Invariant Test-Time Adaptation for Vision-Language Model Generalization
- arxiv url: http://arxiv.org/abs/2403.00376v1
- Date: Fri, 1 Mar 2024 09:01:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 17:45:24.743848
- Title: Invariant Test-Time Adaptation for Vision-Language Model Generalization
- Title(参考訳): 視覚言語モデル一般化のための不変テスト時間適応
- Authors: Huan Ma, Yan Zhu, Changqing Zhang, Peilin Zhao, Baoyuan Wu, Long-Kai
Huang, Qinghua Hu, Bingzhe Wu
- Abstract要約: 学習可能なプロンプトを最適化するテスト時間プロンプトチューニングのパラダイムを導入し,真の因果不変性を活用できるようにモデルを説得する。
提案手法は,潜在的に誤解を招く可能性のあるタスク関連文脈情報への過度な依存を効果的に軽減する。
- 参考スコア(独自算出の注目度): 90.70743356588996
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language foundation models have exhibited remarkable success across a
multitude of downstream tasks due to their scalability on extensive image-text
paired datasets. However, these models display significant limitations when
applied to long-tail tasks, such as fine-grained image classification, as a
result of "decision shortcuts" that hinders their generalization capabilities.
In this work, we find that the CLIP model possesses a rich set of features,
encompassing both \textit{desired invariant causal features} and
\textit{undesired decision shortcuts}. Moreover, the underperformance of CLIP
on downstream tasks originates from its inability to effectively utilize
pre-trained features in accordance with specific task requirements. To address
this challenge, this paper introduces a test-time prompt tuning paradigm that
optimizes a learnable prompt, thereby compelling the model to exploit genuine
causal invariant features while disregarding decision shortcuts during the
inference phase. The proposed method effectively alleviates excessive
dependence on potentially misleading, task-irrelevant contextual information,
while concurrently emphasizing critical, task-related visual cues. We conduct
comparative analysis of the proposed method against various approaches which
validates its effectiveness.
- Abstract(参考訳): ビジョン言語の基礎モデルは、広範な画像テキストペアデータセットのスケーラビリティのため、多くのダウンストリームタスクで顕著な成功を収めています。
しかし、これらのモデルは、その一般化能力を阻害する「決定的ショートカット」の結果、細粒度画像分類などの長いタスクに適用する場合に重大な制限を呈する。
本研究では,CLIPモデルには,<textit{desired invariant causal features} と \textit{undesired decision shortcuts} の両方を含む,豊富な特徴セットが存在することがわかった。
さらに、下流タスクにおけるCLIPの過小評価は、特定のタスク要求に応じてトレーニング済みの機能を有効に活用できないことに起因する。
そこで本研究では,学習可能なプロンプトを最適化し,推論フェーズにおける決定近道を無視しながら,真正の因果的不変特徴を活用させるテストタイムプロンプトチューニングパラダイムを提案する。
提案手法は,タスク関連の視覚的手がかりを強調すると同時に,潜在的に誤解を招く,タスクに無関係な文脈情報への過度な依存を効果的に緩和する。
提案手法は,提案手法の有効性を検証する様々な手法に対して比較分析を行う。
関連論文リスト
- Debiasing Large Visual Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。
これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - Analyzing and Explaining Image Classifiers via Diffusion Guidance [39.85203645176423]
ディープラーニングは、ImageNetのような複雑な画像分類タスク、予期せぬ障害モード、例えばスプリアス機能などに大きな進歩をもたらした。
本稿では、ガイド画像生成のためのフレームワークを用いて、分類器由来の目的を最適化した画像を生成することにより、これらの問題に対処する。
視覚的対実的説明(VCE)による画像分類器の動作と決定、分類器が最大に一致しない画像の解析による系統的誤りの検出、潜在的な刺激的特徴の検証のためのニューロンの可視化について分析する。
論文 参考訳(メタデータ) (2023-11-29T17:35:29Z) - Self-regulating Prompts: Foundational Model Adaptation without
Forgetting [112.66832145320434]
本稿では,PromptSRCと呼ばれる自己正規化フレームワークを提案する。
PromptSRCはタスク固有の汎用表現とタスクに依存しない汎用表現の両方に最適化するプロンプトを導く。
論文 参考訳(メタデータ) (2023-07-13T17:59:35Z) - Reasoning or Reciting? Exploring the Capabilities and Limitations of
Language Models Through Counterfactual Tasks [54.939309284692406]
最近の言語モデルは、幅広いタスクで印象的なパフォーマンスを示している。
これらのスキルは一般的で、移行可能か、あるいは事前トレーニング中に見られる特定のタスクに特化していますか?
本稿では,標準タスクの既定前提から逸脱する「数値的」タスク変種に基づく評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-05T17:50:42Z) - Consistent Explanations in the Face of Model Indeterminacy via
Ensembling [12.661530681518899]
この研究は、モデル不確定性の存在下で予測モデルに対して一貫した説明を提供することの課題に対処する。
これらのシナリオで提供される説明の一貫性を高めるためのアンサンブル手法を導入する。
本研究は,説明文の解釈において,モデル不確定性を考慮することの重要性を強調した。
論文 参考訳(メタデータ) (2023-06-09T18:45:43Z) - Enhancing Chain-of-Thoughts Prompting with Iterative Bootstrapping in
Large Language Models [85.07648361429816]
大規模言語モデル (LLM) は、ステップ・バイ・ステップ・チェーン・オブ・シークレット (CoT) をデモンストレーションとして組み込むことで、様々な推論タスクにおいて高い効果的な性能を達成することができる。
本稿では,イターCoT (Iterative bootstrapping in Chain-of-Thoughts Prompting) を導入する。
論文 参考訳(メタデータ) (2023-04-23T13:54:39Z) - Active Prompting with Chain-of-Thought for Large Language Models [16.9127713032405]
本稿では,大規模言語モデルを異なるタスクに適応させる新しい手法であるActive-Promptを提案する。
不確実性に基づくアクティブラーニングの関連問題からアイデアを借用することにより、不確実性を特徴づける指標をいくつか導入する。
実験により,提案手法の優位性を実証し,8つの複雑な推論タスクの最先端化を図った。
論文 参考訳(メタデータ) (2023-02-23T18:58:59Z) - Spatio-temporal predictive tasks for abnormal event detection in videos [60.02503434201552]
オブジェクトレベルの正規化パターンを学習するための制約付きプレテキストタスクを提案する。
我々のアプローチは、ダウンスケールの視覚的クエリとそれに対応する正常な外観と運動特性のマッピングを学習することである。
いくつかのベンチマークデータセットの実験では、異常の局所化と追跡のためのアプローチの有効性が示されている。
論文 参考訳(メタデータ) (2022-10-27T19:45:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。