論文の概要: On the low-shot transferability of [V]-Mamba
- arxiv url: http://arxiv.org/abs/2403.10696v1
- Date: Fri, 15 Mar 2024 21:29:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 22:14:44.698918
- Title: On the low-shot transferability of [V]-Mamba
- Title(参考訳): V]-マンバの低ショット転写性について
- Authors: Diganta Misra, Jay Gala, Antonio Orvieto,
- Abstract要約: 本研究は,[V]-マンバの移動学習の可能性を探るために焦点をシフトする。
我々は、その性能を、異なる数ショットのデータ予算と効率的な転送方法で比較する。
- 参考スコア(独自算出の注目度): 10.840666519121084
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The strength of modern large-scale neural networks lies in their ability to efficiently adapt to new tasks with few examples. Although extensive research has investigated the transferability of Vision Transformers (ViTs) to various downstream tasks under diverse constraints, this study shifts focus to explore the transfer learning potential of [V]-Mamba. We compare its performance with ViTs across different few-shot data budgets and efficient transfer methods. Our analysis yields three key insights into [V]-Mamba's few-shot transfer performance: (a) [V]-Mamba demonstrates superior or equivalent few-shot learning capabilities compared to ViTs when utilizing linear probing (LP) for transfer, (b) Conversely, [V]-Mamba exhibits weaker or similar few-shot learning performance compared to ViTs when employing visual prompting (VP) as the transfer method, and (c) We observe a weak positive correlation between the performance gap in transfer via LP and VP and the scale of the [V]-Mamba model. This preliminary analysis lays the foundation for more comprehensive studies aimed at furthering our understanding of the capabilities of [V]-Mamba variants and their distinctions from ViTs.
- Abstract(参考訳): 現代の大規模ニューラルネットワークの強みは、いくつかの例で新しいタスクに効率的に適応できる能力にある。
様々な制約の下で,視覚変換器(ViT)の下流タスクへの伝達可能性について検討してきたが,本研究では,[V]-マンバの伝達学習の可能性について検討する。
我々は、その性能を、異なる数ショットのデータ予算と効率的な転送方法で比較する。
我々の分析は、[V]-マンバのショット転送性能に関する3つの重要な洞察を得る。
(a)[V]-マンバは、転送に線形プローブ(LP)を利用する場合、VTに比べて優れた、または同等の少ショット学習能力を示す。
b) 逆に、[V]-マンバは、視覚的プロンプト(VP)を転送方法として用いた場合、VTと比較して、より弱い、または類似の少ショット学習性能を示す。
(c) LPとVPによる転送性能ギャップと[V]-マンバモデルのスケールとの間には, 弱い正の相関関係が認められた。
この予備的な分析は、[V]-マンバ変種とそのViTとの区別能力の理解を深めるために、より包括的な研究の基礎を築いた。
関連論文リスト
- Famba-V: Fast Vision Mamba with Cross-Layer Token Fusion [10.854742185190482]
MambaとVision Mamba(Vim)モデルは、Transformerアーキテクチャに基づくメソッドの代替としての可能性を示している。
この研究は、Vimモデルのトレーニング効率を高めるための層間トークン融合技術であるFast Mamba for Vision (Famba-V)を導入している。
論文 参考訳(メタデータ) (2024-09-15T18:02:26Z) - Multi-Attribute Vision Transformers are Efficient and Robust Learners [4.53923275658276]
畳み込みニューラルネットワーク(CNN)の代替として、視覚変換器(ViT)が登場した。
異なるタスクとして1つのViTネットワークを介して、様々な属性をトレーニングするための、単純かつ効果的な戦略を提案する。
対戦型攻撃に対する多属性ViTのレジリエンスを評価し,その性能を単一属性に設計したViTと比較した。
論文 参考訳(メタデータ) (2024-02-12T21:31:13Z) - Set-level Guidance Attack: Boosting Adversarial Transferability of
Vision-Language Pre-training Models [52.530286579915284]
本稿では,視覚言語事前学習モデルの対角移動可能性について検討する。
伝達性劣化は、部分的にはクロスモーダル相互作用のアンダーユース化によって引き起こされる。
本稿では,高度に伝達可能なSGA(Set-level Guidance Attack)を提案する。
論文 参考訳(メタデータ) (2023-07-26T09:19:21Z) - Can Vision Transformers Perform Convolution? [78.42076260340869]
画像パッチを入力とする単一のViT層が任意の畳み込み操作を構成的に実行可能であることを示す。
我々は、CNNを表現するビジョントランスフォーマーのヘッド数を低くする。
論文 参考訳(メタデータ) (2021-11-02T03:30:17Z) - TVT: Transferable Vision Transformer for Unsupervised Domain Adaptation [54.61786380919243]
Unsupervised domain adapt (UDA) は、ラベル付きソースドメインから学習した知識をラベル付きターゲットドメインに転送することを目的としている。
これまでの研究は主に、ドメイン不変表現を学ぶために畳み込みニューラルネットワーク(CNN)上に構築されていた。
近年、視覚タスクに視覚変換器(ViT)を適用する指数関数的増加に伴い、ドメイン間の知識を適応するViTの能力は文献上未解明のままである。
論文 参考訳(メタデータ) (2021-08-12T22:37:43Z) - ConvNets vs. Transformers: Whose Visual Representations are More
Transferable? [49.62201738334348]
本研究では,15個のシングルタスクおよびマルチタスク性能評価において,ConvNetと視覚変換器の伝達学習能力について検討する。
13の下流タスクでTransformerベースのバックボーンの一貫性のあるアドバンテージを観察した。
論文 参考訳(メタデータ) (2021-08-11T16:20:38Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z) - A Broad Study on the Transferability of Visual Representations with
Contrastive Learning [15.667240680328922]
線形評価, 全ネットワーク転送, 数ショット認識のための造影的アプローチの学習表現の伝達性について検討する。
その結果、コントラスト的アプローチは、異なる下流タスクに簡単に移行できる表現を学習できることが示される。
分析の結果, コントラスト的アプローチから得られた表現は, クロスエントロピーモデルよりも低レベル・中レベルセマンティクスを含んでいることがわかった。
論文 参考訳(メタデータ) (2021-03-24T22:55:04Z) - Learning Invariant Representations across Domains and Tasks [81.30046935430791]
本稿では,この教師なしタスク転送問題を解決するための新しいタスク適応ネットワーク(tan)を提案する。
ドメイン・アドバーサル・トレーニングによる伝達可能な機能を学習することに加えて、学習から学習への戦略を用いてタスクの意味を適応させる新しいタスク・セマンティクス・アダプタを提案する。
TANは最近の強いベースラインに比べてリコールとF1スコアを5.0%と7.8%大きく向上させた。
論文 参考訳(メタデータ) (2021-03-03T11:18:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。