Fugu-MT 論文翻訳(概要): Invariant Test-Time Adaptation for Vision-Language Model Generalization

論文の概要: Invariant Test-Time Adaptation for Vision-Language Model Generalization

arxiv url: http://arxiv.org/abs/2403.00376v1
Date: Fri, 1 Mar 2024 09:01:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-05 17:45:24.743848
Title: Invariant Test-Time Adaptation for Vision-Language Model Generalization
Title（参考訳）: 視覚言語モデル一般化のための不変テスト時間適応
Authors: Huan Ma, Yan Zhu, Changqing Zhang, Peilin Zhao, Baoyuan Wu, Long-Kai Huang, Qinghua Hu, Bingzhe Wu
Abstract要約: 学習可能なプロンプトを最適化するテスト時間プロンプトチューニングのパラダイムを導入し,真の因果不変性を活用できるようにモデルを説得する。提案手法は,潜在的に誤解を招く可能性のあるタスク関連文脈情報への過度な依存を効果的に軽減する。
参考スコア（独自算出の注目度）: 90.70743356588996
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vision-language foundation models have exhibited remarkable success across a multitude of downstream tasks due to their scalability on extensive image-text paired datasets. However, these models display significant limitations when applied to long-tail tasks, such as fine-grained image classification, as a result of "decision shortcuts" that hinders their generalization capabilities. In this work, we find that the CLIP model possesses a rich set of features, encompassing both \textit{desired invariant causal features} and \textit{undesired decision shortcuts}. Moreover, the underperformance of CLIP on downstream tasks originates from its inability to effectively utilize pre-trained features in accordance with specific task requirements. To address this challenge, this paper introduces a test-time prompt tuning paradigm that optimizes a learnable prompt, thereby compelling the model to exploit genuine causal invariant features while disregarding decision shortcuts during the inference phase. The proposed method effectively alleviates excessive dependence on potentially misleading, task-irrelevant contextual information, while concurrently emphasizing critical, task-related visual cues. We conduct comparative analysis of the proposed method against various approaches which validates its effectiveness.
Abstract（参考訳）: ビジョン言語の基礎モデルは、広範な画像テキストペアデータセットのスケーラビリティのため、多くのダウンストリームタスクで顕著な成功を収めています。しかし、これらのモデルは、その一般化能力を阻害する「決定的ショートカット」の結果、細粒度画像分類などの長いタスクに適用する場合に重大な制限を呈する。本研究では,CLIPモデルには,<textit{desired invariant causal features} と \textit{undesired decision shortcuts} の両方を含む,豊富な特徴セットが存在することがわかった。さらに、下流タスクにおけるCLIPの過小評価は、特定のタスク要求に応じてトレーニング済みの機能を有効に活用できないことに起因する。そこで本研究では,学習可能なプロンプトを最適化し,推論フェーズにおける決定近道を無視しながら,真正の因果的不変特徴を活用させるテストタイムプロンプトチューニングパラダイムを提案する。提案手法は,タスク関連の視覚的手がかりを強調すると同時に,潜在的に誤解を招く,タスクに無関係な文脈情報への過度な依存を効果的に緩和する。提案手法は,提案手法の有効性を検証する様々な手法に対して比較分析を行う。

関連論文リスト

Self-Route: Automatic Mode Switching via Capability Estimation for Efficient Reasoning [36.470695895695044]
Self-Routeは、一般的な推論モードと推論モードを自動的に選択する動的推論フレームワークである。トークン消費量を30～55%削減しながら,自己ルートが推論モデルに匹敵する精度を実現していることを示す。
論文参考訳（メタデータ） (2025-05-27T03:18:31Z)
Mitigating Cache Noise in Test-Time Adaptation for Large Vision-Language Models [13.157596316463621]
下流タスクにおける分散シフトに起因する性能劣化に対する解決策として,視覚言語モデルのテスト時適応(TTA)が注目されている。我々は、包括的で信頼性の高いキャッシュ機構を導入し、キャッシュ、残留、ガウス(CRG)と呼ばれる新しいゼロショットTTA手法を提案する。 13のベンチマーク実験の結果、CRGは最先端のTTA法よりも優れており、例外的な堅牢性と適応性を示している。
論文参考訳（メタデータ） (2025-03-24T04:32:35Z)
Learning-to-Defer for Extractive Question Answering [3.6787328174619254]
質問応答の文脈で言語モデルを再訓練することなく、人間の専門家や大規模モデルへの選択的推論を可能にすることにより、意思決定を強化する2段階の学習・判断機構を適応的に導入する。その結果,最小限のクエリを遅延させることで,計算効率を保ちながら,より大規模なクエリに匹敵する性能を実現することができた。
論文参考訳（メタデータ） (2024-10-21T08:21:00Z)
Revisiting SMoE Language Models by Evaluating Inefficiencies with Task Specific Expert Pruning [78.72226641279863]
SMOE(Sparse Mixture of Expert)モデルは、言語モデリングにおける高密度モデルに代わるスケーラブルな代替品として登場した。本研究は,SMoEアーキテクチャの設計に関する意思決定を行うために,タスク固有のモデルプルーニングについて検討する。適応型タスク対応プルーニング手法 UNCURL を導入し,MoE 層当たりの専門家数をオフラインで学習する手法を提案する。
論文参考訳（メタデータ） (2024-09-02T22:35:03Z)
Hard Prompts Made Interpretable: Sparse Entropy Regularization for Prompt Tuning with RL [29.01858866450715]
ソフトQ-ラーニングを利用した最適なプロンプトを見つけることを目的としたRLPromptを提案する。結果は有望な結果を示す一方で,プロンプトが不自然に現れることがしばしばあり,その解釈可能性を妨げることが確認されている。この制限をスパルス・ツァリスエントロピー正規化(英語版)を用いて解決する。
論文参考訳（メタデータ） (2024-07-20T03:10:19Z)
Enhancing Vision-Language Few-Shot Adaptation with Negative Learning [11.545127156146368]
我々は,タスク固有の知識をより効率的に活用するための,シンプルで効果的な否定的学習手法SimNLを提案する。そこで本研究では,雑音を緩和するために,プラグアンドプレイによる数発のインスタンス再重み付け手法を提案する。提案したSimNLは,少数ショット学習とドメイン一般化の両タスクにおいて,既存の最先端手法よりも優れていることを確認した。
論文参考訳（メタデータ） (2024-03-19T17:59:39Z)
Tuning-Free Accountable Intervention for LLM Deployment -- A Metacognitive Approach [55.613461060997004]
大規模言語モデル(LLM)は、自然言語処理タスクの幅広い領域にわたる変換的進歩を触媒している。我々は,自己認識型誤り識別と訂正機能を備えたLLMを実現するために,textbfCLEARと呼ばれる革新的なテキストメタ認知手法を提案する。
論文参考訳（メタデータ） (2024-03-08T19:18:53Z)
Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文参考訳（メタデータ） (2024-03-08T12:35:07Z)
Causal Feature Selection via Transfer Entropy [59.999594949050596]
因果発見は、観察データによる特徴間の因果関係を特定することを目的としている。本稿では,前向きと後向きの機能選択に依存する新たな因果的特徴選択手法を提案する。精度および有限サンプルの場合の回帰誤差と分類誤差について理論的に保証する。
論文参考訳（メタデータ） (2023-10-17T08:04:45Z)
Self-regulating Prompts: Foundational Model Adaptation without Forgetting [112.66832145320434]
本稿では,PromptSRCと呼ばれる自己正規化フレームワークを提案する。 PromptSRCはタスク固有の汎用表現とタスクに依存しない汎用表現の両方に最適化するプロンプトを導く。
論文参考訳（メタデータ） (2023-07-13T17:59:35Z)
Delving into Identify-Emphasize Paradigm for Combating Unknown Bias [52.76758938921129]
同定精度を高めるため,有効バイアス強調スコアリング法(ECS)を提案する。また, マイニングされたバイアスアライメントとバイアスコンプリケート試料のコントリビューションのバランスをとるために, 勾配アライメント(GA)を提案する。様々な環境で複数のデータセットで実験を行い、提案されたソリューションが未知のバイアスの影響を軽減することを実証した。
論文参考訳（メタデータ） (2023-02-22T14:50:24Z)
Fine-grained Retrieval Prompt Tuning [149.9071858259279]
微粒な検索プロンプトチューニングは, サンプルプロンプトと特徴適応の観点から, きめの細かい検索タスクを実行するために, 凍結した事前学習モデルを操る。学習可能なパラメータが少ないFRPTは、広く使われている3つの細粒度データセットの最先端性能を実現する。
論文参考訳（メタデータ） (2022-07-29T04:10:04Z)
Feature Selection for Huge Data via Minipatch Learning [0.0]
安定ミニパッチ選択(STAMPS)と適応STAMPSを提案する。 STAMPSは、データの観測と特徴の両方の小さな(適応性の高い)ランダムなサブセットに基づいて訓練された基本特徴セレクタの選択イベントのアンサンブルを構築するメタアルゴリズムである。われわれのアプローチは一般的であり、様々な機能選択戦略や機械学習技術に応用できる。
論文参考訳（メタデータ） (2020-10-16T17:41:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。