論文の概要: GS-Bias: Global-Spatial Bias Learner for Single-Image Test-Time Adaptation of Vision-Language Models
- arxiv url: http://arxiv.org/abs/2507.11969v1
- Date: Wed, 16 Jul 2025 07:02:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-17 19:00:11.266276
- Title: GS-Bias: Global-Spatial Bias Learner for Single-Image Test-Time Adaptation of Vision-Language Models
- Title(参考訳): GS-Bias:視覚言語モデルの単画像テスト時間適応のためのグローバル空間バイアス学習装置
- Authors: Zhaohong Huang, Yuxin Zhang, Jingjing Xie, Fei Chao, Rongrong Ji,
- Abstract要約: Global-Spatial Bias Learner (GS-Bias)は、TTA中に2つの学習可能なバイアスを組み込んだ、効率的かつ効果的なTTAパラダイムである。
GS-Biasは15のベンチマークデータセット上で最先端のパフォーマンスを達成しながら高い効率を達成する。
- 参考スコア(独自算出の注目度): 49.598380958154706
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in test-time adaptation (TTA) for Vision-Language Models (VLMs) have garnered increasing attention, particularly through the use of multiple augmented views of a single image to boost zero-shot generalization. Unfortunately, existing methods fail to strike a satisfactory balance between performance and efficiency, either due to excessive overhead of tuning text prompts or unstable benefits from handcrafted, training-free visual feature enhancement. In this paper, we present Global-Spatial Bias Learner (GS-Bias), an efficient and effective TTA paradigm that incorporates two learnable biases during TTA, unfolded as the global bias and spatial bias. Particularly, the global bias captures the global semantic features of a test image by learning consistency across augmented views, while spatial bias learns the semantic coherence between regions in the image's spatial visual representation. It is worth highlighting that these two sets of biases are directly added to the logits outputed by the pretrained VLMs, which circumvent the full backpropagation through VLM that hinders the efficiency of existing TTA methods. This endows GS-Bias with extremely high efficiency while achieving state-of-the-art performance on 15 benchmark datasets. For example, it achieves a 2.23% improvement over TPT in cross-dataset generalization and a 2.72% improvement in domain generalization, while requiring only 6.5% of TPT's memory usage on ImageNet.
- Abstract(参考訳): 視覚言語モデル(VLM)におけるテスト時間適応(TTA)の最近の進歩は、特にゼロショットの一般化を促進するために、単一の画像の複数の拡張ビューを使用することによって、注目を集めている。
残念ながら、既存の手法は、テキストプロンプトのチューニングの過大なオーバーヘッドや、手作りでトレーニング不要な視覚的特徴の強化による不安定なメリットのために、パフォーマンスと効率のバランスを満足できない。
本稿では,グローバル空間バイアス学習者(GS-Bias Learner,GS-Bias)について述べる。
特に、空間バイアスは、画像の空間的視覚表現内の領域間の意味的コヒーレンスを学習する一方で、拡張ビュー間で一貫性を学習することで、テストイメージのグローバルな意味的特徴をキャプチャする。
これらの2つのバイアスは、既存のTTA手法の効率を阻害するVLMによる完全なバックプロパゲーションを回避するために、事前訓練されたVLMによって出力されたログに直接追加される。
これにより、GS-Biasは極めて高い効率で提供され、15のベンチマークデータセット上で最先端のパフォーマンスを実現している。
例えば、クロスデータセットの一般化ではTPTよりも2.23%改善され、ドメインの一般化では2.72%改善され、ImageNetではTPTのメモリ使用量の6.5%しか必要とされない。
関連論文リスト
- EAM: Enhancing Anything with Diffusion Transformers for Blind Super-Resolution [11.331361804059625]
Enhancing Anything Model (EAM)はBlind Super-Resolution法である。
画像復元を効果的に誘導する新しいブロックである$Psi$-DiTを導入する。
EAMは、複数のデータセットにまたがる最先端の結果を達成し、定量的メトリクスと視覚的品質の両方において、既存の手法よりも優れています。
論文 参考訳(メタデータ) (2025-05-08T13:03:07Z) - Search is All You Need for Few-shot Anomaly Detection [39.737510049667556]
産業検査において, FSAD (Few-shot Anomaly Detection) が重要な課題となっている。
本稿では,最も近い検索フレームワークが,単一クラスとマルチクラスの両方のFSADシナリオにおいて,最先端の性能を上回ることができることを示す。
画像レベルのAUROCスコアは97.4%,94.8%,70.8%であった。
論文 参考訳(メタデータ) (2025-04-16T09:21:34Z) - Separate-and-Enhance: Compositional Finetuning for Text2Image Diffusion
Models [58.46926334842161]
この研究は、注意力の低いアクティベーションスコアとマスクオーバーラップに関連する問題を指摘し、このような不一致の根本的な理由を照らしている。
本稿では,物体マスクの重なりを低減し,注目度を最大化する2つの新しい目的,分離損失とエンハンス損失を提案する。
提案手法は従来のテスト時間適応手法と異なり,拡張性と一般化性を高める重要なパラメータの微調整に重点を置いている。
論文 参考訳(メタデータ) (2023-12-10T22:07:42Z) - X-Transfer: A Transfer Learning-Based Framework for GAN-Generated Fake
Image Detection [33.31312811230408]
顔置換などの偽画像を生成するためにGANを誤用することは、重大なセキュリティ上の懸念を引き起こす。
本稿では,新しい画像検出アルゴリズムであるX-Transferを提案する。
インターリーブされた並列勾配伝送を利用する2つのニューラルネットワークを利用することで、トランスファーラーニングを強化する。
論文 参考訳(メタデータ) (2023-10-07T01:23:49Z) - DeAR: Debiasing Vision-Language Models with Additive Residuals [5.672132510411465]
大規模な事前学習型視覚言語モデル(VLM)は、リッチで適応可能な画像とテキスト表現を提供する。
これらのモデルは、トレーニングデータ中の様々なアイデンティティ群が歪んだ分布のため、社会的バイアスに悩まされる。
本稿では,元の表現をオフセットする付加的残像表現を学習する新しいデバイアス法であるDeARを提案する。
論文 参考訳(メタデータ) (2023-03-18T14:57:43Z) - Anticipating the Unseen Discrepancy for Vision and Language Navigation [63.399180481818405]
視覚言語ナビゲーションでは、エージェントは特定のターゲットに到達するために自然言語命令に従う必要がある。
目に見える環境と目に見えない環境の間に大きな違いがあるため、エージェントがうまく一般化することは困難である。
本研究では,テストタイムの視覚的整合性を促進することによって,未知の環境への一般化を学習する,未知の離散性予測ビジョンと言語ナビゲーション(DAVIS)を提案する。
論文 参考訳(メタデータ) (2022-09-10T19:04:40Z) - Reducing the Vision and Language Bias for Temporal Sentence Grounding [22.571577672704716]
本稿では,視覚と言語の両方において負のバイアスをフィルタし,除去するためのD-TSGモデルを提案する。
3つのベンチマークデータセット上で最先端の性能を達成することで、その効果を実証する。
論文 参考訳(メタデータ) (2022-07-27T11:18:45Z) - Self-Promoted Supervision for Few-Shot Transformer [178.52948452353834]
SUN(Self-promoted sUpervisioN)は視覚変換器(ViT)のための数発の学習フレームワークである
SUNは、数ショットの学習データセットでViTを事前トレーニングし、各パッチトークンを導くために、個別のロケーション固有の監視を生成する。
実験によると、ViTを使ったSUNは、ViTを使った他の数発の学習フレームワークを大幅に上回っており、CNNの最先端技術よりも高いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-03-14T12:53:27Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - To be Critical: Self-Calibrated Weakly Supervised Learning for Salient
Object Detection [95.21700830273221]
弱教師付き有色物体検出(WSOD)は,画像レベルのアノテーションを用いた有色度モデルの開発を目的としている。
擬似ラベルとネットワーク予測の相互校正ループを明確に設定し,自己校正学習戦略を提案する。
十分に整合したアノテーションを持つはるかに小さなデータセットであっても、モデルがより優れたパフォーマンスと一般化性を達成するのに役立ちます。
論文 参考訳(メタデータ) (2021-09-04T02:45:22Z) - Calibrating Class Activation Maps for Long-Tailed Visual Recognition [60.77124328049557]
本稿では,CNNの長期分布からネットワーク学習を改善するための2つの効果的な修正を提案する。
まず,ネットワーク分類器の学習と予測を改善するために,CAMC (Class Activation Map) モジュールを提案する。
第2に,長期化問題における表現学習における正規化分類器の利用について検討する。
論文 参考訳(メタデータ) (2021-08-29T05:45:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。