論文の概要: Addressing Exacerbated Attention Sink for Source-Free Cross-Domain Few-Shot Learning
- arxiv url: http://arxiv.org/abs/2605.25799v1
- Date: Mon, 25 May 2026 12:49:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:20.049695
- Title: Addressing Exacerbated Attention Sink for Source-Free Cross-Domain Few-Shot Learning
- Title(参考訳): ソースレスクロスドメインFew-Shot学習における注意シンクの改善
- Authors: Shuai Yi, Yixiong Zou, Yuhua Li, Ruixuan Li,
- Abstract要約: Cross-Domain Few-Shot Learningは、ソースドメイン情報を少ないトレーニングデータでターゲットドメインに転送することができる。
標準のターゲットドメイン数発の微調整は注意シンク問題を悪化させ、クラス間での識別性が低下する。
本稿では,ターゲットドメインの微調整において,ターゲットドメインクラスとの関係に応じて動的に再重み付けを行う手法を提案する。
- 参考スコア(独自算出の注目度): 25.20062959668559
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models (VLMs) like CLIP have shown impressive generalization capabilities, yet their potential for Cross-Domain Few-Shot Learning (CDFSL) remains underexplored, where the model needs to transfer source-domain information to target domains with scarce training data. While the attention sink phenomenon has been observed in VLMs for certain tasks, its role in CDFSL scenarios has not been studied. In this paper, we uncover a critical issue overlooked by prior works: standard target-domain few-shot fine-tuning in CDFSL significantly exacerbates the attention sink problem, leading to poor discriminability across classes. To understand this phenomenon, through extensive experiments, we interpret it as the model's shortcut learning for domain adaptation: to overcome the huge domain gap between the source and target domains, the model shows a high tendency to push tokens that are initially closer to target-domain classes (i.e., simple tokens) to be even closer to these classes, exacerbating the attention sink and wasting the capability of learning other discriminative but initially further tokens (i.e., hard tokens). To address this, we propose a novel approach to dynamically re-weight tokens according to their relevance with target-domain classes during the target-domain finetuning, which explicitly suppresses the model's reliance on these simple tokens and enhances the learning of hard tokens, reducing sink tokens and enhancing discriminability. Extensive experiments on four benchmark datasets validate the rationale of our method, demonstrating new state-of-the-art performance. Our codes are available at https://github.com/shuaiyi308/TIR.
- Abstract(参考訳): CLIPのような視覚言語モデル(VLM)は印象的な一般化能力を示しているが、クロスドメインのFew-Shot Learning(CDFSL)の可能性はまだ検討されていない。
注意シンク現象は、特定のタスクのためにVLMで観測されているが、CDFSLシナリオにおけるその役割は研究されていない。
本稿では,CDFSLにおける標準目標ドメイン数ショットの微調整が注意シンク問題を著しく悪化させ,クラス間の識別性が低下する,という,従来の研究で見過ごされた重大な問題を明らかにする。
この現象を理解するために、我々はドメイン適応のためのモデルのショートカット学習としてこれを解釈する: ソースとターゲットドメインの間の大きなドメインギャップを克服するために、このモデルは、最初にターゲットドメインクラスに近づいたトークン(すなわち単純なトークン)をこれらのクラスにさらに近づく傾向を示し、注意シンクを悪化させ、他の差別的だが初期はそれ以上のトークン(すなわちハードトークン)を学習する能力を無駄にする。
そこで本研究では,これらの単純なトークンへの依存を明示的に抑制し,ハードトークンの学習を強化し,シンクトークンを削減し,識別性を向上する,ターゲットドメインの微調整におけるターゲットドメインクラスとの関係に応じて,動的に再重み付きトークンを動的に再重み付けする手法を提案する。
4つのベンチマークデータセットの大規模な実験により、我々の手法の理論的根拠が検証され、新しい最先端性能が実証された。
私たちのコードはhttps://github.com/shuaiyi308/TIRで公開されています。
関連論文リスト
- Random Registers for Cross-Domain Few-Shot Learning [19.199947811410123]
クロスドメインの少数ショット学習は、知識をデータ不足のソースドメインからデータ不足のターゲットドメインに転送することを目的としている。
ソース・ドメイン・トレーニングにおいて、インシデント・チューニングはViTをトレーニングする一般的な方法であり、ターゲットドメインにおけるViTの一般化には有害であることがわかった。
画像トークンのセマンティック領域にランダムレジスタを追加することで,CDFSLの簡易かつ効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2025-06-03T13:13:58Z) - CLOSER: Towards Better Representation Learning for Few-Shot Class-Incremental Learning [52.63674911541416]
FSCIL(Few-shot class-incremental Learning)は、過剰適合や忘れなど、いくつかの課題に直面している。
FSCILの独特な課題に取り組むため、ベースクラスでの表現学習に重点を置いている。
より制限された機能空間内で機能の拡散を確保することで、学習された表現が、伝達可能性と識別可能性のバランスを良くすることが可能になることが分かりました。
論文 参考訳(メタデータ) (2024-10-08T02:23:16Z) - CDFSL-V: Cross-Domain Few-Shot Learning for Videos [58.37446811360741]
ビデオのアクション認識は、いくつかのラベル付き例でのみ、新しいカテゴリを認識するための効果的なアプローチである。
既存のビデオアクション認識の方法は、同じドメインからの大きなラベル付きデータセットに依存している。
本稿では,自己教師付き学習とカリキュラム学習を活用した,クロスドメインな数ショットビデオ行動認識手法を提案する。
論文 参考訳(メタデータ) (2023-09-07T19:44:27Z) - Deep Learning for Cross-Domain Few-Shot Visual Recognition: A Survey [33.00835033658241]
わずかながらの学習により、モデルは非常に少ないラベル付き例でターゲットタスクを実行することができる。
この制限を克服するため、クロスドメインな数ショット学習が注目されている。
本稿では,クロスドメインFew-shot Learningの総合的なレビューを行う。
論文 参考訳(メタデータ) (2023-03-15T12:18:16Z) - Self-training through Classifier Disagreement for Cross-Domain Opinion
Target Extraction [62.41511766918932]
オピニオンターゲット抽出(OTE)またはアスペクト抽出(AE)は意見マイニングの基本的な課題である。
最近の研究は、現実世界のシナリオでよく見られるクロスドメインのOTEに焦点を当てている。
そこで本稿では,ドメイン固有の教師と学生のネットワークから出力されるモデルが未学習のターゲットデータと一致しない対象サンプルを選択するためのSSLアプローチを提案する。
論文 参考訳(メタデータ) (2023-02-28T16:31:17Z) - Deep face recognition with clustering based domain adaptation [57.29464116557734]
そこで本研究では,ターゲットドメインとソースがクラスを共有しない顔認識タスクを対象とした,クラスタリングに基づく新しいドメイン適応手法を提案する。
本手法は,特徴領域をグローバルに整列させ,その一方で,対象クラスタを局所的に識別することで,識別対象特徴を効果的に学習する。
論文 参考訳(メタデータ) (2022-05-27T12:29:11Z) - Unsupervised Transfer Learning with Self-Supervised Remedy [60.315835711438936]
手動ラベルのない新しいドメインにディープネットワークを一般化することは、ディープラーニングにとって難しい。
事前学習された知識は、学習されたドメインや新しいドメインについて強い仮定をしなければ、うまく伝達しない。
本研究は,ラベル付き関連ドメインからの知識伝達により,新規ドメインにおける未ラベル対象データの識別潜在空間を学習することを目的とする。
論文 参考訳(メタデータ) (2020-06-08T16:42:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。