論文の概要: Revisiting Continuity of Image Tokens for Cross-domain Few-shot Learning
- arxiv url: http://arxiv.org/abs/2506.03110v1
- Date: Tue, 03 Jun 2025 17:40:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.89869
- Title: Revisiting Continuity of Image Tokens for Cross-domain Few-shot Learning
- Title(参考訳): クロスドメイン・ファウショット学習における画像トークンの継続性の再検討
- Authors: Shuai Yi, Yixiong Zou, Yuhua Li, Ruixuan Li,
- Abstract要約: Vision Transformer (ViT) は、一般ドメインでの大規模な事前トレーニングによって大きな成功を収めた。
しかし、トレーニングデータに乏しい下流のドメインに適用する場合、依然として課題に直面している。
自己注意がトークンの順序に敏感であることにインスパイアされた私たちは、現在の研究で無視されている興味深い現象を見つけました。
- 参考スコア(独自算出の注目度): 19.199947811410123
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Transformer (ViT) has achieved remarkable success due to its large-scale pretraining on general domains, but it still faces challenges when applying it to downstream distant domains that have only scarce training data, which gives rise to the Cross-Domain Few-Shot Learning (CDFSL) task. Inspired by Self-Attention's insensitivity to token orders, we find an interesting phenomenon neglected in current works: disrupting the continuity of image tokens (i.e., making pixels not smoothly transited across patches) in ViT leads to a noticeable performance decline in the general (source) domain but only a marginal decrease in downstream target domains. This questions the role of image tokens' continuity in ViT's generalization under large domain gaps. In this paper, we delve into this phenomenon for an interpretation. We find continuity aids ViT in learning larger spatial patterns, which are harder to transfer than smaller ones, enlarging domain distances. Meanwhile, it implies that only smaller patterns within each patch could be transferred under extreme domain gaps. Based on this interpretation, we further propose a simple yet effective method for CDFSL that better disrupts the continuity of image tokens, encouraging the model to rely less on large patterns and more on smaller ones. Extensive experiments show the effectiveness of our method in reducing domain gaps and outperforming state-of-the-art works. Codes and models are available at https://github.com/shuaiyi308/ReCIT.
- Abstract(参考訳): Vision Transformer (ViT) は、一般ドメインでの大規模な事前トレーニングにより、目覚ましい成功を収めている。しかし、トレーニングデータが少ない下流の遠隔ドメインに適用する場合、依然として課題に直面しているため、クロスドメインなFew-Shot Learning (CDFSL) タスクがもたらされる。
画像トークンの連続性(つまり、パッチをスムーズに通過しないピクセル)をViTで破壊することは、一般的な(ソース)ドメインでは顕著なパフォーマンス低下をもたらすが、下流ターゲットドメインでは限界的に低下する。
このことは、大きな領域ギャップの下でのViTの一般化における画像トークンの連続性の役割に疑問を呈する。
本稿では,この現象を解釈するために掘り下げる。
連続性は、より小さいものよりも移動が難しい大きな空間パターンを学習し、ドメイン距離を増大させるのに役立つ。
一方、各パッチ内の小さなパターンだけが極端なドメインギャップの下で転送される可能性がある。
この解釈に基づき、画像トークンの連続性をよりよく破壊し、より小さなパターンに頼らずにモデルを奨励するCDFSLの簡易かつ効果的な方法を提案する。
広汎な実験により,ドメインギャップの低減と最先端の作業性能向上に本手法の有効性が示された。
コードとモデルはhttps://github.com/shuaiyi308/ReCIT.comで公開されている。
関連論文リスト
- Random Registers for Cross-Domain Few-Shot Learning [19.199947811410123]
クロスドメインの少数ショット学習は、知識をデータ不足のソースドメインからデータ不足のターゲットドメインに転送することを目的としている。
ソース・ドメイン・トレーニングにおいて、インシデント・チューニングはViTをトレーニングする一般的な方法であり、ターゲットドメインにおけるViTの一般化には有害であることがわかった。
画像トークンのセマンティック領域にランダムレジスタを追加することで,CDFSLの簡易かつ効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2025-06-03T13:13:58Z) - Adapt Before Comparison: A New Perspective on Cross-Domain Few-Shot Segmentation [0.0]
クロスドメイン小ショットセグメンテーション (CD-FSS) が登場した。
テスト時間タスク適応がCD-FSSの成功の鍵であることを示す。
テスト時にラベル付きサンプル以外の画像は使用しないが,CD-FSSでは新たな最先端性能を実現している。
論文 参考訳(メタデータ) (2024-02-27T15:43:53Z) - Multi-cropping Contrastive Learning and Domain Consistency for
Unsupervised Image-to-Image Translation [5.562419999563734]
マルチクロップ型コントラスト学習とドメイン整合性に基づく新しい教師なし画像から画像への翻訳フレームワーク MCDUT を提案する。
多くの画像と画像の翻訳タスクにおいて,本手法は最先端の結果を達成し,その利点は比較実験とアブレーション研究によって証明されている。
論文 参考訳(メタデータ) (2023-04-24T16:20:28Z) - Accurate Image Restoration with Attention Retractable Transformer [50.05204240159985]
画像復元のためのアテンション・リトラクタブル・トランス (ART) を提案する。
ARTはネットワーク内の密集モジュールと疎開モジュールの両方を提示する。
画像超解像、デノナイジング、JPEG圧縮アーティファクト削減タスクについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-10-04T07:35:01Z) - Beyond ImageNet Attack: Towards Crafting Adversarial Examples for
Black-box Domains [80.11169390071869]
敵対的な例は、転送可能な性質のため、ディープニューラルネットワークに深刻な脅威をもたらしている。
ブラックボックス領域への転送可能性を調べるために,Beyond ImageNet Attack (BIA)を提案する。
提案手法は, 最先端手法を最大7.71%(粗粒領域)と25.91%(細粒領域)で平均的に上回っている。
論文 参考訳(メタデータ) (2022-01-27T14:04:27Z) - Image-to-image Mapping with Many Domains by Sparse Attribute Transfer [71.28847881318013]
教師なし画像と画像の変換は、2つの領域間の一対のマッピングを、ポイント間の既知のペアワイズ対応なしで学習することで構成される。
現在の慣例は、サイクル一貫性のあるGANでこのタスクにアプローチすることです。
そこで本研究では,ジェネレータを直接,潜在層における単純なスパース変換に制限する代替手法を提案する。
論文 参考訳(メタデータ) (2020-06-23T19:52:23Z) - Image Fine-grained Inpainting [89.17316318927621]
拡張畳み込みの密結合を利用してより大きく効果的な受容場を得る一段階モデルを提案する。
この効率的なジェネレータをよく訓練するために、頻繁に使用されるVGG特徴整合損失を除いて、新しい自己誘導回帰損失を設計する。
また、局所的・グローバルな分枝を持つ識別器を用いて、局所的・グローバルな内容の整合性を確保する。
論文 参考訳(メタデータ) (2020-02-07T03:45:25Z) - CrDoCo: Pixel-level Domain Transfer with Cross-Domain Consistency [119.45667331836583]
教師なしのドメイン適応アルゴリズムは、あるドメインから学んだ知識を別のドメインに転送することを目的としている。
本稿では,新しい画素単位の対向領域適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-01-09T19:00:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。