論文の概要: Random Registers for Cross-Domain Few-Shot Learning
- arxiv url: http://arxiv.org/abs/2506.02843v1
- Date: Tue, 03 Jun 2025 13:13:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.68855
- Title: Random Registers for Cross-Domain Few-Shot Learning
- Title(参考訳): クロスドメインFew-Shot学習のためのランダムレジスタ
- Authors: Shuai Yi, Yixiong Zou, Yuhua Li, Ruixuan Li,
- Abstract要約: クロスドメインの少数ショット学習は、知識をデータ不足のソースドメインからデータ不足のターゲットドメインに転送することを目的としている。
ソース・ドメイン・トレーニングにおいて、インシデント・チューニングはViTをトレーニングする一般的な方法であり、ターゲットドメインにおけるViTの一般化には有害であることがわかった。
画像トークンのセマンティック領域にランダムレジスタを追加することで,CDFSLの簡易かつ効果的なアプローチを提案する。
- 参考スコア(独自算出の注目度): 19.199947811410123
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-domain few-shot learning (CDFSL) aims to transfer knowledge from a data-sufficient source domain to data-scarce target domains. Although Vision Transformer (ViT) has shown superior capability in many vision tasks, its transferability against huge domain gaps in CDFSL is still under-explored. In this paper, we find an intriguing phenomenon: during the source-domain training, prompt tuning, as a common way to train ViT, could be harmful for the generalization of ViT in target domains, but setting them to random noises (i.e., random registers) could consistently improve target-domain performance. We then delve into this phenomenon for an interpretation. We find that learnable prompts capture domain information during the training on the source dataset, which views irrelevant visual patterns as vital cues for recognition. This can be viewed as a kind of overfitting and increases the sharpness of the loss landscapes. In contrast, random registers are essentially a novel way of perturbing attention for the sharpness-aware minimization, which helps the model find a flattened minimum in loss landscapes, increasing the transferability. Based on this phenomenon and interpretation, we further propose a simple but effective approach for CDFSL to enhance the perturbation on attention maps by adding random registers on the semantic regions of image tokens, improving the effectiveness and efficiency of random registers. Extensive experiments on four benchmarks validate our rationale and state-of-the-art performance. Codes and models are available at https://github.com/shuaiyi308/REAP.
- Abstract(参考訳): クロスドメイン・マイクロショット・ラーニング(CDFSL)は、データ満足なソース・ドメインからデータ中心のターゲット・ドメインに知識を伝達することを目的としている。
ビジョントランスフォーマー(ViT)は多くの視覚タスクにおいて優れた能力を示しているが、CDFSLの巨大な領域ギャップに対する転送性はまだ未定である。
本稿では、ソースドメイントレーニング中は、ターゲットドメインにおけるViTの一般化に影響を及ぼすが、ランダムノイズ(ランダムレジスタ)に設定することで、ターゲットドメインのパフォーマンスを継続的に改善できる、という興味深い現象を見出した。
そして、この現象を解釈するために掘り下げる。
学習可能なプロンプトは、ソースデータセットのトレーニング中にドメイン情報をキャプチャし、無関係な視覚パターンを認識のための重要な手がかりとみなす。
これは一種の過度な適合と見なすことができ、失われた風景の鋭さを高めることができる。
対照的に、ランダムレジスタは、シャープネスを意識した最小化のために注意をそらす新しい方法である。
この現象と解釈に基づいて,画像トークンのセマンティック領域にランダムレジスタを追加し,ランダムレジスタの有効性と効率を向上させることにより,CDFSLの注意マップ上の摂動を高めるための簡易かつ効果的なアプローチを提案する。
4つのベンチマークに関する大規模な実験は、我々の合理性と最先端のパフォーマンスを検証する。
コードとモデルはhttps://github.com/shuaiyi308/REAPで公開されている。
関連論文リスト
- Revisiting Continuity of Image Tokens for Cross-domain Few-shot Learning [19.199947811410123]
Vision Transformer (ViT) は、一般ドメインでの大規模な事前トレーニングによって大きな成功を収めた。
しかし、トレーニングデータに乏しい下流のドメインに適用する場合、依然として課題に直面している。
自己注意がトークンの順序に敏感であることにインスパイアされた私たちは、現在の研究で無視されている興味深い現象を見つけました。
論文 参考訳(メタデータ) (2025-06-03T17:40:36Z) - SiamSeg: Self-Training with Contrastive Learning for Unsupervised Domain Adaptation Semantic Segmentation in Remote Sensing [13.549403813487022]
教師なしドメイン適応(Unsupervised domain adapt, UDA)は、ラベル付けされたソースドメインデータを活用しながら、ラベル付けされていないターゲットドメインデータからモデルを学習することを可能にする。
対照的な学習を UDA に統合し,対象領域における意味情報を捕捉するモデルの能力を高めることを提案する。
我々の手法であるSimSegは既存の手法より優れ、最先端の結果が得られます。
論文 参考訳(メタデータ) (2024-10-17T11:59:39Z) - Prompt-based Visual Alignment for Zero-shot Policy Transfer [35.784936617675896]
強化学習におけるオーバーフィッティングは、強化学習への応用における主要な障害の1つとなっている。
ゼロショットポリシー転送のための画像における有害領域バイアスを軽減するために,プロンプトベースの視覚アライメント(PVA)を提案する。
CARLAシミュレータを用いて視覚に基づく自律運転タスクにおけるPVAの検証を行う。
論文 参考訳(メタデータ) (2024-06-05T13:26:30Z) - Cross-Domain Policy Adaptation by Capturing Representation Mismatch [53.087413751430255]
強化学習(RL)において、動的に異なる領域に移行できる効果的な政策を学ぶことが不可欠である。
本稿では、ソースドメインとターゲットドメインとの間に動的ミスマッチが存在する場合の動的適応設定について考察する。
対象領域でのみ表現学習を行い、ソース領域からの遷移における表現偏差を測定する。
論文 参考訳(メタデータ) (2024-05-24T09:06:12Z) - On the Transferability of Visually Grounded PCFGs [35.64371385720051]
ビジュアルグラウンドPCFGcitepzhao-titov-2020-visually
我々は、モデルがソースドメイン上で訓練され、ターゲットドメインに直接適用されるゼロショット転送学習環境を、それ以上の訓練をすることなく検討する。
トレーニングドメインと同じようなドメインでテキストに視覚的接地を使用することの利点は、リモートドメインへの転送に失敗することである。
論文 参考訳(メタデータ) (2023-10-21T20:19:51Z) - CDFSL-V: Cross-Domain Few-Shot Learning for Videos [58.37446811360741]
ビデオのアクション認識は、いくつかのラベル付き例でのみ、新しいカテゴリを認識するための効果的なアプローチである。
既存のビデオアクション認識の方法は、同じドメインからの大きなラベル付きデータセットに依存している。
本稿では,自己教師付き学習とカリキュラム学習を活用した,クロスドメインな数ショットビデオ行動認識手法を提案する。
論文 参考訳(メタデータ) (2023-09-07T19:44:27Z) - Efficient entity-based reinforcement learning [3.867363075280544]
本稿では,集合表現の最近の進歩とスロットアテンションとグラフニューラルネットワークを組み合わせて構造化データを処理することを提案する。
トレーニング時間とロバスト性を大幅に改善できることを示し、構造化されたドメインと純粋に視覚的なドメインを扱う可能性を示す。
論文 参考訳(メタデータ) (2022-06-06T19:02:39Z) - Self-Promoted Supervision for Few-Shot Transformer [178.52948452353834]
SUN(Self-promoted sUpervisioN)は視覚変換器(ViT)のための数発の学習フレームワークである
SUNは、数ショットの学習データセットでViTを事前トレーニングし、各パッチトークンを導くために、個別のロケーション固有の監視を生成する。
実験によると、ViTを使ったSUNは、ViTを使った他の数発の学習フレームワークを大幅に上回っており、CNNの最先端技術よりも高いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-03-14T12:53:27Z) - Stagewise Unsupervised Domain Adaptation with Adversarial Self-Training
for Road Segmentation of Remote Sensing Images [93.50240389540252]
リモートセンシング画像からの道路セグメンテーションは、幅広い応用可能性を持つ課題である。
本稿では,この領域における領域シフト(DS)問題に対処するため,RoadDAと呼ばれる新たな段階的ドメイン適応モデルを提案する。
2つのベンチマーク実験の結果、RoadDAはドメインギャップを効率的に減らし、最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-08-28T09:29:14Z) - TVT: Transferable Vision Transformer for Unsupervised Domain Adaptation [54.61786380919243]
Unsupervised domain adapt (UDA) は、ラベル付きソースドメインから学習した知識をラベル付きターゲットドメインに転送することを目的としている。
これまでの研究は主に、ドメイン不変表現を学ぶために畳み込みニューラルネットワーク(CNN)上に構築されていた。
近年、視覚タスクに視覚変換器(ViT)を適用する指数関数的増加に伴い、ドメイン間の知識を適応するViTの能力は文献上未解明のままである。
論文 参考訳(メタデータ) (2021-08-12T22:37:43Z) - Background Adaptive Faster R-CNN for Semi-Supervised Convolutional
Object Detection of Threats in X-Ray Images [64.39996451133268]
我々は、バックグラウンド適応型高速R-CNNと呼ばれる脅威認識のための半教師付きアプローチを提案する。
本手法は,ディープラーニング分野からのドメイン適応手法を用いた2段階物体検出器の訓練手法である。
2つのドメイン識別器(1つはオブジェクト提案を識別し、もう1つは画像特徴を識別する)は、ドメイン固有の情報を符号化するのを防ぐために敵対的に訓練される。
これにより、手作業の背景から抽出した特徴の統計と実世界のデータとを一致させることで、脅威検出の誤報率を低減することができる。
論文 参考訳(メタデータ) (2020-10-02T21:05:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。