論文の概要: Enhancing Environmental Robustness in Few-shot Learning via Conditional Representation Learning
- arxiv url: http://arxiv.org/abs/2502.01183v1
- Date: Mon, 03 Feb 2025 09:18:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 14:59:27.823936
- Title: Enhancing Environmental Robustness in Few-shot Learning via Conditional Representation Learning
- Title(参考訳): 条件付き表現学習によるFew-shot学習における環境ロバスト性向上
- Authors: Qianyu Guo, Jingrong Wu, Tianxing Wu, Haofen Wang, Weifeng Ge, Wenqiang Zhang,
- Abstract要約: ドメイン固有の視覚認識において、トレーニングデータの不足を克服するために、ショットラーニングが広く活用されている。
現実のシナリオでは、複雑な背景、様々な照明条件、長距離射撃、移動目標などの環境要因は、テスト画像に多くの不完全なターゲットやノイズ破壊を生じさせる。
本稿では,それぞれの表現過程における条件情報として,トレーニングとテスト画像間の相互作用を統合する新しい条件表現学習ネットワーク(CRLNet)を提案する。
- 参考スコア(独自算出の注目度): 27.549889991320203
- License:
- Abstract: Few-shot learning (FSL) has recently been extensively utilized to overcome the scarcity of training data in domain-specific visual recognition. In real-world scenarios, environmental factors such as complex backgrounds, varying lighting conditions, long-distance shooting, and moving targets often cause test images to exhibit numerous incomplete targets or noise disruptions. However, current research on evaluation datasets and methodologies has largely ignored the concept of "environmental robustness", which refers to maintaining consistent performance in complex and diverse physical environments. This neglect has led to a notable decline in the performance of FSL models during practical testing compared to their training performance. To bridge this gap, we introduce a new real-world multi-domain few-shot learning (RD-FSL) benchmark, which includes four domains and six evaluation datasets. The test images in this benchmark feature various challenging elements, such as camouflaged objects, small targets, and blurriness. Our evaluation experiments reveal that existing methods struggle to utilize training images effectively to generate accurate feature representations for challenging test images. To address this problem, we propose a novel conditional representation learning network (CRLNet) that integrates the interactions between training and testing images as conditional information in their respective representation processes. The main goal is to reduce intra-class variance or enhance inter-class variance at the feature representation level. Finally, comparative experiments reveal that CRLNet surpasses the current state-of-the-art methods, achieving performance improvements ranging from 6.83% to 16.98% across diverse settings and backbones. The source code and dataset are available at https://github.com/guoqianyu-alberta/Conditional-Representation-Learning.
- Abstract(参考訳): FSL(Few-shot Learning)は、最近、ドメイン固有の視覚認識におけるトレーニングデータの不足を克服するために広く利用されている。
現実のシナリオでは、複雑な背景、様々な照明条件、長距離射撃、移動目標などの環境要因は、テスト画像に多くの不完全な目標やノイズ破壊を生じさせる。
しかしながら、評価データセットと方法論に関する現在の研究は、複雑で多様な物理的環境における一貫した性能を維持することを指す「環境の堅牢性」という概念をほとんど無視している。
この無視は、実技試験におけるFSLモデルの性能のトレーニング性能と比較して顕著な低下につながった。
このギャップを埋めるために、我々は4つのドメインと6つの評価データセットを含む、新しい実世界のマルチドメイン・ショットラーニング(RD-FSL)ベンチマークを導入する。
このベンチマークのテストイメージは、カモフラージュされたオブジェクト、小さなターゲット、曖昧さなど、さまざまな難しい要素を特徴としている。
評価実験の結果,既存の手法ではトレーニング画像の有効活用に苦慮していることが明らかとなった。
この問題に対処するために,各表現処理における条件情報として,トレーニングとテスト画像間の相互作用を統合する新しい条件表現学習ネットワーク(CRLNet)を提案する。
主な目標は、クラス内の分散を減らしたり、特徴表現レベルでクラス間の分散を強化することである。
最後に、CRLNetは現在の最先端の手法を超え、様々な設定やバックボーンで6.83%から16.98%のパフォーマンス改善を実現している。
ソースコードとデータセットはhttps://github.com/guoqianyu-alberta/Conditional-Representation-Learning.comで公開されている。
関連論文リスト
- LeOCLR: Leveraging Original Images for Contrastive Learning of Visual Representations [4.680881326162484]
画像分類やオブジェクト検出などの下流タスクにおける教師あり学習よりも優れている。
対照的な学習における一般的な強化手法は、ランダムな収穫とそれに続くリサイズである。
本稿では,新しいインスタンス識別手法と適応型損失関数を用いたフレームワークであるLeOCLRを紹介する。
論文 参考訳(メタデータ) (2024-03-11T15:33:32Z) - Coarse-to-Fine: Learning Compact Discriminative Representation for
Single-Stage Image Retrieval [11.696941841000985]
検索と参照のパラダイムに従う2段階の手法は優れた性能を達成しているが、それぞれのローカルモジュールとグローバルモジュールは現実世界のアプリケーションでは非効率である。
本稿では,重要な局所記述子を注意深く選択し,大域的な表現に微粒な意味関係を注入する機構を提案する。
提案手法は,Revisited OxfordやRevisited Parisなどのベンチマークを用いて,最先端の単一ステージ画像検索性能を実現する。
論文 参考訳(メタデータ) (2023-08-08T03:06:10Z) - Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。
本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。
ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文 参考訳(メタデータ) (2023-08-04T10:28:48Z) - Semantic-aware Dense Representation Learning for Remote Sensing Image
Change Detection [20.761672725633936]
ディープラーニングに基づく変化検出モデルのトレーニングはラベル付きデータに大きく依存する。
最近のトレンドは、リモートセンシング(RS)データを使用して、教師付きまたは自己教師型学習(SSL)を通じてドメイン内表現を取得することである。
複数のクラスバランス点をサンプリングし,RS画像CDに対する意味認識事前学習を提案する。
論文 参考訳(メタデータ) (2022-05-27T06:08:33Z) - On Efficient Transformer and Image Pre-training for Low-level Vision [74.22436001426517]
プレトレーニングは、ハイレベルコンピュータビジョンにおける多くの最先端の芸術である。
画像事前学習の詳細な研究について述べる。
低レベルのタスクでは,事前トレーニングが極めて異なる役割を担っています。
論文 参考訳(メタデータ) (2021-12-19T15:50:48Z) - Rectifying the Shortcut Learning of Background: Shared Object
Concentration for Few-Shot Image Recognition [101.59989523028264]
Few-Shot画像分類は、大規模なデータセットから学んだ事前学習された知識を利用して、一連の下流分類タスクに取り組むことを目的としている。
本研究では,Few-Shot LearningフレームワークであるCOSOCを提案する。
論文 参考訳(メタデータ) (2021-07-16T07:46:41Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - Remote Sensing Image Scene Classification with Self-Supervised Paradigm
under Limited Labeled Samples [11.025191332244919]
我々は,大規模なラベル付きデータからRSIシーン分類のための高性能事前学習モデルを得るために,新たな自己教師付き学習(SSL)機構を導入する。
一般的な3つのRSIシーン分類データセットの実験により、この新たな学習パラダイムは、従来の支配的なImageNet事前学習モデルよりも優れていることが示された。
我々の研究から得られた知見は、リモートセンシングコミュニティにおけるSSLの発展を促進するのに役立ちます。
論文 参考訳(メタデータ) (2020-10-02T09:27:19Z) - Region Comparison Network for Interpretable Few-shot Image
Classification [97.97902360117368]
新しいクラスのモデルをトレーニングするために、ラベル付きサンプルの限られた数だけを効果的に活用するための画像分類が提案されている。
本研究では,領域比較ネットワーク (RCN) と呼ばれる距離学習に基づく手法を提案する。
また,タスクのレベルからカテゴリへの解釈可能性の一般化も提案する。
論文 参考訳(メタデータ) (2020-09-08T07:29:05Z) - Augmented Bi-path Network for Few-shot Learning [16.353228724916505]
マルチスケールでグローバル機能とローカル機能を比較するために,Augmented Bi-path Network (ABNet)を提案する。
具体的には、各画像の局所的な特徴として、有能なパッチを抽出し、埋め込みする。その後、モデルは、より堅牢な機能を強化するために、その機能を強化することを学習する。
論文 参考訳(メタデータ) (2020-07-15T11:13:38Z) - Distilling Localization for Self-Supervised Representation Learning [82.79808902674282]
コントラスト学習は教師なし表現学習に革命をもたらした。
現在のコントラストモデルでは、前景オブジェクトのローカライズには効果がない。
本稿では,背景変化を学習するためのデータ駆動型手法を提案する。
論文 参考訳(メタデータ) (2020-04-14T16:29:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。