論文の概要: BATR-FST: Bi-Level Adaptive Token Refinement for Few-Shot Transformers
- arxiv url: http://arxiv.org/abs/2509.12768v1
- Date: Tue, 16 Sep 2025 07:33:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:52.948615
- Title: BATR-FST: Bi-Level Adaptive Token Refinement for Few-Shot Transformers
- Title(参考訳): BATR-FST:Few-Shot変換器用バイレベル適応型トケリファインメント
- Authors: Mohammed Al-Habib, Zuping Zhang, Abdulrahman Noman,
- Abstract要約: 半ショット変換器(BATR-FST)の両レベル適応型トケリファインメントを提案する。
BATR-FSTはトークン表現を徐々に改善し、数ショット分類のための頑健な帰納バイアスを維持している。
1ショットと5ショットの両方のシナリオで優れた結果が得られ、トランスフォーマーによる数ショットの分類が改善される。
- 参考スコア(独自算出の注目度): 2.5680214354539803
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Transformers (ViTs) have shown significant promise in computer vision applications. However, their performance in few-shot learning is limited by challenges in refining token-level interactions, struggling with limited training data, and developing a strong inductive bias. Existing methods often depend on inflexible token matching or basic similarity measures, which limit the effective incorporation of global context and localized feature refinement. To address these challenges, we propose Bi-Level Adaptive Token Refinement for Few-Shot Transformers (BATR-FST), a two-stage approach that progressively improves token representations and maintains a robust inductive bias for few-shot classification. During the pre-training phase, Masked Image Modeling (MIM) provides Vision Transformers (ViTs) with transferable patch-level representations by recreating masked image regions, providing a robust basis for subsequent adaptation. In the meta-fine-tuning phase, BATR-FST incorporates a Bi-Level Adaptive Token Refinement module that utilizes Token Clustering to capture localized interactions, Uncertainty-Aware Token Weighting to prioritize dependable features, and a Bi-Level Attention mechanism to balance intra-cluster and inter-cluster relationships, thereby facilitating thorough token refinement. Furthermore, Graph Token Propagation ensures semantic consistency between support and query instances, while a Class Separation Penalty preserves different class borders, enhancing discriminative capability. Extensive experiments on three benchmark few-shot datasets demonstrate that BATR-FST achieves superior results in both 1-shot and 5-shot scenarios and improves the few-shot classification via transformers.
- Abstract(参考訳): ビジョントランスフォーマー (ViT) はコンピュータビジョンアプリケーションにおいて大きな可能性を秘めている。
しかしながら,トークンレベルのインタラクションの精細化,限られたトレーニングデータへの対処,強力な帰納バイアスの発達といった課題によって,数ショット学習のパフォーマンスが制限される。
既存の手法は、しばしば非フレキシブルなトークンマッチングや基本的な類似度尺度に依存し、グローバルな文脈の効果的な取り込みと局所化された特徴改善を制限する。
これらの課題に対処するため,Few-Shot Transformers (BATR-FST) のBi-Level Adaptive Token Refinementを提案する。
Masked Image Modeling (MIM)は、事前トレーニング期間中に、マスクされた画像領域を再現することで、転送可能なパッチレベルの表現をViT(Vision Transformer)に提供し、その後の適応のための堅牢な基盤を提供する。
メタファインニングフェーズでは、BATR-FSTは、Token Clusteringを利用してローカライズされたインタラクションをキャプチャするBi-Level Adaptive Token Refinementモジュール、信頼度の高い特徴の優先順位付けを行うUncertainty-Aware Token Weighting、クラスタ内およびクラスタ間関係のバランスをとるBi-Level Attentionメカニズムを組み込んで、トークンの完全化を容易にする。
さらに、Graph Token Propagationでは、サポートとクエリインスタンス間のセマンティック一貫性が保証され、クラス分離ペナルティでは、異なるクラス境界が保護され、識別能力が向上する。
3つのベンチマーク数ショットデータセットに対する大規模な実験により、BATR-FSTは1ショットと5ショットの両方のシナリオにおいて優れた結果を得ることができ、トランスフォーマーによる数ショット分類を改善することが示されている。
関連論文リスト
- DART: Dual Adaptive Refinement Transfer for Open-Vocabulary Multi-Label Recognition [59.203152078315235]
Open-Vocabulary Multi-Label Recognition (OV-MLR)は、画像内の複数の見えないオブジェクトカテゴリを識別することを目的としている。
ビジョンランゲージ事前学習モデルは強力なオープン語彙基盤を提供するが、弱い監督下では微粒な局所化に苦慮する。
本稿では,これらの制約を克服するためのDART(Dual Adaptive Refinement Transfer)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-07T17:22:33Z) - Is Attention Required for Transformer Inference? Explore Function-preserving Attention Replacement [13.38679135071682]
本稿では,事前学習したトランスフォーマーのすべての注意ブロックを学習可能なシーケンス・ツー・シーケンスモジュールに置き換える機能保存型アテンション・リプレースメントフレームワークを提案する。
DeiTビジョントランスファミリ上でFARを検証し、ImageNet上の元のモデルの精度と、パラメータとレイテンシを低減した複数の下流タスクとを一致させることを実証する。
論文 参考訳(メタデータ) (2025-05-24T02:23:46Z) - Prior2Former -- Evidential Modeling of Mask Transformers for Assumption-Free Open-World Panoptic Segmentation [74.55677741919035]
顕在学習に根ざしたセグメンテーション・ビジョン・トランスフォーマの最初のアプローチである Prefer2Former (P2F) を提案する。
P2Fは、ピクセル単位のバイナリマスク割り当てにおいて、モデル不確実性を計算するためのベータを組み込むことで、マスクビジョントランスフォーマーアーキテクチャを拡張している。
未知のクラスに対処するほとんどのセグメンテーションモデルとは異なり、P2FはOODデータサンプルへのアクセスや、ヴォイド(ラベルなし)クラスに対する対照的なトレーニングなしで動作する。
論文 参考訳(メタデータ) (2025-04-07T08:53:14Z) - BHViT: Binarized Hybrid Vision Transformer [53.38894971164072]
モデルバイナライゼーションは畳み込みニューラルネットワーク(CNN)のリアルタイムおよびエネルギー効率の計算を可能にした。
本稿では,バイナライズフレンドリーなハイブリッドViTアーキテクチャであるBHViTとそのバイナライズモデルを提案する。
提案アルゴリズムは,バイナリ ViT 手法間でSOTA 性能を実現する。
論文 参考訳(メタデータ) (2025-03-04T08:35:01Z) - Enhancing cross-domain detection: adaptive class-aware contrastive
transformer [15.666766743738531]
対象領域の不十分なラベルは、クラス不均衡とモデル性能劣化の問題を悪化させる。
逆学習と平均教師フレームワークに基づくクラス対応クロスドメイン検出変換器を提案する。
論文 参考訳(メタデータ) (2024-01-24T07:11:05Z) - FER-former: Multi-modal Transformer for Facial Expression Recognition [14.219492977523682]
本稿では,表情認識のための多孔性監視ステアリングトランスを提案する。
提案手法は,多粒性埋め込み統合,ハイブリッド自己アテンション方式,及びヘテロジニアス・ドメイン・ステアリング・インスペクションを特徴とする。
人気のあるベンチマークの実験では、既存の最先端技術よりも提案されたFER-formerの方が優れていることが示されている。
論文 参考訳(メタデータ) (2023-03-23T02:29:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。