論文の概要: FSL Model can Score Higher as It Is
- arxiv url: http://arxiv.org/abs/2402.18292v1
- Date: Wed, 28 Feb 2024 12:37:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-29 15:07:52.198197
- Title: FSL Model can Score Higher as It Is
- Title(参考訳): FSLモデルはそれと同じくらい高くスコアアップできる
- Authors: Yunwei Bai, Ying Kiat Tan, Tsuhan Chen
- Abstract要約: モデルは、トレーニング中に未確認のクラスに属するイメージを識別する必要があるため、ほとんどショット・ラーニングの分類はそれ自体が困難である。
本研究では、画像から画像への変換により、テストクラスの新しいサンプルを生成することにより、トレーニング済みのFSLモデルのテスト入力を修正することを目的とする。
提案手法はまず,テスト画像のスタイルや形状を抽出し,適切なクラスサンプルを同定する。
その後、テストイメージのスタイルや形状を列車級画像に転送し、より多くのテストクラスサンプルを生成し、代わりに生成されたサンプルのセットに基づいて分類を実行する。
- 参考スコア(独自算出の注目度): 0.20718016474717196
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In daily life, we tend to present the front of our faces by staring squarely
at a facial recognition machine, instead of facing it sideways, in order to
increase the chance of being correctly recognised. Few-shot-learning (FSL)
classification is challenging in itself because a model has to identify images
that belong to classes previously unseen during training. Therefore, a warped
and non-typical query or support image during testing can make it even more
challenging for a model to predict correctly. In our work, to increase the
chance of correct prediction during testing, we aim to rectify the test input
of a trained FSL model by generating new samples of the tested classes through
image-to-image translation. An FSL model is usually trained on classes with
sufficient samples, and then tested on classes with few-shot samples. Our
proposed method first captures the style or shape of the test image, and then
identifies a suitable trained class sample. It then transfers the style or
shape of the test image to the train-class images for generation of more
test-class samples, before performing classification based on a set of
generated samples instead of just one sample. Our method has potential in
empowering a trained FSL model to score higher during the testing phase without
any extra training nor dataset. According to our experiments, by augmenting the
support set with just 1 additional generated sample, we can achieve around 2%
improvement for trained FSL models on datasets consisting of either animal
faces or traffic signs. By augmenting both the support set and the queries, we
can achieve even more performance improvement. Our Github Repository is
publicly available.
- Abstract(参考訳): 日常生活において、私たちは、正しく認識される可能性を高めるために、顔を横向きではなく、顔認識マシンを真正面から見つめることで、顔の前面を現示する傾向があります。
FSL(Few-shot-learning)分類は、トレーニング中に未確認のクラスに属する画像を特定する必要があるため、それ自体が困難である。
したがって、テスト中の歪んだ非典型的なクエリやサポートイメージは、モデルを正しく予測することがさらに困難になる可能性がある。
本研究は,テスト中に正しい予測を行う可能性を高めるため,画像から画像への変換によってテストクラスの新しいサンプルを生成することにより,トレーニング済みFSLモデルのテスト入力を修正することを目的とする。
fslモデルは通常、十分なサンプルを持つクラスで訓練され、少数サンプルを持つクラスでテストされる。
提案手法は,まずテスト画像のスタイルや形状をキャプチャし,次に適切な訓練を受けたクラスサンプルを同定する。
その後、テスト画像のスタイルや形を、より多くのテストクラスサンプルを生成するためのトレインクラスイメージに転送し、生成したサンプルのセットに基づいて分類を行う。
本手法は,テストフェーズにおいて,余分なトレーニングやデータセットを伴わずに,トレーニング済みのFSLモデルにより高いスコアを付与する可能性を秘めている。
実験によると、追加の1つのサンプルでサポートセットを増強することで、動物顔または交通標識からなるデータセット上で、トレーニング済みのFSLモデルに対して約2%の改善が達成できる。
サポートセットとクエリの両方を拡張することで、さらにパフォーマンスの改善が達成できます。
Githubリポジトリは公開されています。
関連論文リスト
- Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think [72.48325960659822]
生成のための大規模拡散モデルの訓練における主要なボトルネックは、これらの表現を効果的に学習することにある。
本稿では,RePresentation Alignment (REPA) と呼ばれる単純な正規化を導入し,ノイズの多い入力隠れ状態の投影を,外部の事前学習された視覚エンコーダから得られるクリーンな画像表現と整合させる手法を提案する。
我々の単純な戦略は、一般的な拡散やDiTsやSiTsといったフローベースのトランスフォーマーに適用した場合、トレーニング効率と生成品質の両方に大きな改善をもたらす。
論文 参考訳(メタデータ) (2024-10-09T14:34:53Z) - CPSample: Classifier Protected Sampling for Guarding Training Data During Diffusion [58.64822817224639]
拡散モデルはトレーニングデータを正確に再現する傾向がある。
CPSampleは,画像品質を保ちながら,トレーニングデータの複製を防止するためにサンプリングプロセスを変更する手法である。
CPSample は CIFAR-10 と CelebA-64 でそれぞれ 4.97 と 2.97 の FID スコアを達成している。
論文 参考訳(メタデータ) (2024-09-11T05:42:01Z) - Pre-Trained Vision-Language Models as Partial Annotators [40.89255396643592]
事前学習された視覚言語モデルは、画像と自然言語の統一表現をモデル化するために大量のデータを学習する。
本稿では,事前学習型モデルアプリケーションのための「事前学習型-弱教師付き学習」パラダイムについて検討し,画像分類タスクの実験を行う。
論文 参考訳(メタデータ) (2024-05-23T17:17:27Z) - Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple
Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。
提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T03:27:08Z) - Self-Evolution Learning for Mixup: Enhance Data Augmentation on Few-Shot
Text Classification Tasks [75.42002070547267]
テキスト分類におけるデータ拡張のための自己進化学習(SE)に基づくミックスアップ手法を提案する。
モデル出力と原サンプルの1つのホットラベルを線形に補間して,新しい軟質なラベル混在を生成する,新しいインスタンス固有ラベル平滑化手法を提案する。
論文 参考訳(メタデータ) (2023-05-22T23:43:23Z) - Generating Representative Samples for Few-Shot Classification [8.62483598990205]
クラスごとの視覚的なサンプルで新しいカテゴリを学習することを目的としている。
データ不足によってクラス表現がバイアスを受ける場合が少なくない。
条件付き変分オートエンコーダモデルを用いて,意味的埋め込みに基づく視覚サンプルを生成する。
論文 参考訳(メタデータ) (2022-05-05T20:58:33Z) - Few-Shot Transfer Learning to improve Chest X-Ray pathology detection
using limited triplets [0.0]
ディープラーニングアプローチは、多くの診断タスクにおいて、ほぼ人間に近い、あるいは人間に近いパフォーマンスに達している。
本稿では,Few-Shot Learningによる事前学習モデルの予測を改善するための実践的アプローチを提案する。
論文 参考訳(メタデータ) (2022-04-16T15:44:56Z) - KNN-Diffusion: Image Generation via Large-Scale Retrieval [40.6656651653888]
適応する学習は、いくつかの新しい機能を可能にします。
微調整の訓練されたモデルと新しいサンプルは、単にテーブルに追加するだけで実現できる。
我々の拡散モデルでは、共同のテキスト・イメージ・マルチモーダル・メトリックを利用することで、画像のみを訓練する。
論文 参考訳(メタデータ) (2022-04-06T14:13:35Z) - Semantics-driven Attentive Few-shot Learning over Clean and Noisy
Samples [0.0]
メタラーナーモデルを学習し、新しいクラスに関する事前の意味知識を活用して分類器合成プロセスを導くことを目指している。
特に,表現次元とトレーニングインスタンスの重要性を推定する意味条件付き特徴注意機構とサンプル注意機構を提案する。
論文 参考訳(メタデータ) (2022-01-09T16:16:23Z) - Exploring Complementary Strengths of Invariant and Equivariant
Representations for Few-Shot Learning [96.75889543560497]
多くの現実世界では、多数のラベル付きサンプルの収集は不可能です。
少ないショット学習はこの問題に対処するための主要なアプローチであり、目的は限られた数のサンプルの存在下で新しいカテゴリに迅速に適応することです。
幾何学的変換の一般集合に対する等分散と不変性を同時に強制する新しい訓練機構を提案する。
論文 参考訳(メタデータ) (2021-03-01T21:14:33Z) - AdarGCN: Adaptive Aggregation GCN for Few-Shot Learning [112.95742995816367]
FSFSLと呼ばれる新しい数発のスナップショット・ラーニング・セッティングを提案する。
FSFSLでは、ソースクラスとターゲットクラスの両方に限られたトレーニングサンプルがある。
また,無関係な画像を削除するためのグラフ畳み込みネットワーク (GCN) ベースのラベルデノイング (LDN) 手法を提案する。
論文 参考訳(メタデータ) (2020-02-28T10:34:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。