論文の概要: Invariant Test-Time Adaptation for Vision-Language Model Generalization
- arxiv url: http://arxiv.org/abs/2403.00376v1
- Date: Fri, 1 Mar 2024 09:01:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 17:45:24.743848
- Title: Invariant Test-Time Adaptation for Vision-Language Model Generalization
- Title(参考訳): 視覚言語モデル一般化のための不変テスト時間適応
- Authors: Huan Ma, Yan Zhu, Changqing Zhang, Peilin Zhao, Baoyuan Wu, Long-Kai
Huang, Qinghua Hu, Bingzhe Wu
- Abstract要約: 学習可能なプロンプトを最適化するテスト時間プロンプトチューニングのパラダイムを導入し,真の因果不変性を活用できるようにモデルを説得する。
提案手法は,潜在的に誤解を招く可能性のあるタスク関連文脈情報への過度な依存を効果的に軽減する。
- 参考スコア(独自算出の注目度): 90.70743356588996
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language foundation models have exhibited remarkable success across a
multitude of downstream tasks due to their scalability on extensive image-text
paired datasets. However, these models display significant limitations when
applied to long-tail tasks, such as fine-grained image classification, as a
result of "decision shortcuts" that hinders their generalization capabilities.
In this work, we find that the CLIP model possesses a rich set of features,
encompassing both \textit{desired invariant causal features} and
\textit{undesired decision shortcuts}. Moreover, the underperformance of CLIP
on downstream tasks originates from its inability to effectively utilize
pre-trained features in accordance with specific task requirements. To address
this challenge, this paper introduces a test-time prompt tuning paradigm that
optimizes a learnable prompt, thereby compelling the model to exploit genuine
causal invariant features while disregarding decision shortcuts during the
inference phase. The proposed method effectively alleviates excessive
dependence on potentially misleading, task-irrelevant contextual information,
while concurrently emphasizing critical, task-related visual cues. We conduct
comparative analysis of the proposed method against various approaches which
validates its effectiveness.
- Abstract(参考訳): ビジョン言語の基礎モデルは、広範な画像テキストペアデータセットのスケーラビリティのため、多くのダウンストリームタスクで顕著な成功を収めています。
しかし、これらのモデルは、その一般化能力を阻害する「決定的ショートカット」の結果、細粒度画像分類などの長いタスクに適用する場合に重大な制限を呈する。
本研究では,CLIPモデルには,<textit{desired invariant causal features} と \textit{undesired decision shortcuts} の両方を含む,豊富な特徴セットが存在することがわかった。
さらに、下流タスクにおけるCLIPの過小評価は、特定のタスク要求に応じてトレーニング済みの機能を有効に活用できないことに起因する。
そこで本研究では,学習可能なプロンプトを最適化し,推論フェーズにおける決定近道を無視しながら,真正の因果的不変特徴を活用させるテストタイムプロンプトチューニングパラダイムを提案する。
提案手法は,タスク関連の視覚的手がかりを強調すると同時に,潜在的に誤解を招く,タスクに無関係な文脈情報への過度な依存を効果的に緩和する。
提案手法は,提案手法の有効性を検証する様々な手法に対して比較分析を行う。
関連論文リスト
- Learning-to-Defer for Extractive Question Answering [3.6787328174619254]
質問応答の文脈で言語モデルを再訓練することなく、人間の専門家や大規模モデルへの選択的推論を可能にすることにより、意思決定を強化する2段階の学習・判断機構を適応的に導入する。
その結果,最小限のクエリを遅延させることで,計算効率を保ちながら,より大規模なクエリに匹敵する性能を実現することができた。
論文 参考訳(メタデータ) (2024-10-21T08:21:00Z) - Hard Prompts Made Interpretable: Sparse Entropy Regularization for Prompt Tuning with RL [29.01858866450715]
ソフトQ-ラーニングを利用した最適なプロンプトを見つけることを目的としたRLPromptを提案する。
結果は有望な結果を示す一方で,プロンプトが不自然に現れることがしばしばあり,その解釈可能性を妨げることが確認されている。
この制限をスパルス・ツァリスエントロピー正規化(英語版)を用いて解決する。
論文 参考訳(メタデータ) (2024-07-20T03:10:19Z) - Enhancing Vision-Language Few-Shot Adaptation with Negative Learning [11.545127156146368]
我々は,タスク固有の知識をより効率的に活用するための,シンプルで効果的な否定的学習手法SimNLを提案する。
そこで本研究では,雑音を緩和するために,プラグアンドプレイによる数発のインスタンス再重み付け手法を提案する。
提案したSimNLは,少数ショット学習とドメイン一般化の両タスクにおいて,既存の最先端手法よりも優れていることを確認した。
論文 参考訳(メタデータ) (2024-03-19T17:59:39Z) - Tuning-Free Accountable Intervention for LLM Deployment -- A
Metacognitive Approach [55.613461060997004]
大規模言語モデル(LLM)は、自然言語処理タスクの幅広い領域にわたる変換的進歩を触媒している。
我々は,自己認識型誤り識別と訂正機能を備えたLLMを実現するために,textbfCLEARと呼ばれる革新的なテキストメタ認知手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T19:18:53Z) - Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。
これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - Causal Feature Selection via Transfer Entropy [59.999594949050596]
因果発見は、観察データによる特徴間の因果関係を特定することを目的としている。
本稿では,前向きと後向きの機能選択に依存する新たな因果的特徴選択手法を提案する。
精度および有限サンプルの場合の回帰誤差と分類誤差について理論的に保証する。
論文 参考訳(メタデータ) (2023-10-17T08:04:45Z) - Self-regulating Prompts: Foundational Model Adaptation without
Forgetting [112.66832145320434]
本稿では,PromptSRCと呼ばれる自己正規化フレームワークを提案する。
PromptSRCはタスク固有の汎用表現とタスクに依存しない汎用表現の両方に最適化するプロンプトを導く。
論文 参考訳(メタデータ) (2023-07-13T17:59:35Z) - Fine-grained Retrieval Prompt Tuning [149.9071858259279]
微粒な検索プロンプトチューニングは, サンプルプロンプトと特徴適応の観点から, きめの細かい検索タスクを実行するために, 凍結した事前学習モデルを操る。
学習可能なパラメータが少ないFRPTは、広く使われている3つの細粒度データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2022-07-29T04:10:04Z) - Feature Selection for Huge Data via Minipatch Learning [0.0]
安定ミニパッチ選択(STAMPS)と適応STAMPSを提案する。
STAMPSは、データの観測と特徴の両方の小さな(適応性の高い)ランダムなサブセットに基づいて訓練された基本特徴セレクタの選択イベントのアンサンブルを構築するメタアルゴリズムである。
われわれのアプローチは一般的であり、様々な機能選択戦略や機械学習技術に応用できる。
論文 参考訳(メタデータ) (2020-10-16T17:41:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。