論文の概要: Multimodal Prototypical Networks for Few-shot Learning
- arxiv url: http://arxiv.org/abs/2011.08899v1
- Date: Tue, 17 Nov 2020 19:32:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-24 16:10:52.762884
- Title: Multimodal Prototypical Networks for Few-shot Learning
- Title(参考訳): ファウショット学習のためのマルチモーダルプロトタイプネットワーク
- Authors: Frederik Pahde, Mihai Puscas, Tassilo Klein, Moin Nabi
- Abstract要約: クロスモーダルな機能生成フレームワークは、数ショットのシナリオにおいて、人口密度の低い埋め込みスペースを強化するために使用される。
このような場合、近隣の分類は実現可能なアプローチであり、最先端のシングルモーダルおよびマルチモーダルの複数ショット学習方法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 20.100480009813953
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although providing exceptional results for many computer vision tasks,
state-of-the-art deep learning algorithms catastrophically struggle in low data
scenarios. However, if data in additional modalities exist (e.g. text) this can
compensate for the lack of data and improve the classification results. To
overcome this data scarcity, we design a cross-modal feature generation
framework capable of enriching the low populated embedding space in few-shot
scenarios, leveraging data from the auxiliary modality. Specifically, we train
a generative model that maps text data into the visual feature space to obtain
more reliable prototypes. This allows to exploit data from additional
modalities (e.g. text) during training while the ultimate task at test time
remains classification with exclusively visual data. We show that in such cases
nearest neighbor classification is a viable approach and outperform
state-of-the-art single-modal and multimodal few-shot learning methods on the
CUB-200 and Oxford-102 datasets.
- Abstract(参考訳): 多くのコンピュータビジョンタスクに例外的な結果をもたらすが、最先端のディープラーニングアルゴリズムは、低いデータシナリオで壊滅的に苦労している。
しかし、追加のモダリティ(例えばテキスト)を持つデータが存在する場合、データの欠如を補償し、分類結果を改善することができる。
このデータの不足を克服するため,我々は,補助的モダリティからのデータを活用することで,少数のシナリオで低人口の埋め込み空間を豊かにすることができるクロスモーダル機能生成フレームワークを設計した。
具体的には,テキストデータを視覚的特徴空間にマッピングしてより信頼性の高いプロトタイプを得る生成モデルを訓練する。
これにより、トレーニング中に追加のモダリティ(テキストなど)からデータを利用することができ、テスト時の究極のタスクは視覚的データのみで分類される。
このような場合、CUB-200およびオックスフォード102データセット上で、近隣の分類は実現可能なアプローチであり、最先端の単一モーダルおよびマルチモーダルの少数ショット学習手法よりも優れていることを示す。
関連論文リスト
- Improve Meta-learning for Few-Shot Text Classification with All You Can Acquire from the Tasks [10.556477506959888]
既存の手法は、しばしばサポートセットのサンプルから正確なクラスプロトタイプを描くのに困難に遭遇する。
近年のアプローチでは、外部知識や事前訓練された言語モデルを組み込んでデータを拡張しようとするが、追加のリソースが必要になる。
本稿では,タスク自体の情報を適切に活用した新しいソリューションを提案する。
論文 参考訳(メタデータ) (2024-10-14T12:47:11Z) - Data Adaptive Traceback for Vision-Language Foundation Models in Image Classification [34.37262622415682]
我々はData Adaptive Tracebackと呼ばれる新しい適応フレームワークを提案する。
具体的には、ゼロショット法を用いて、事前学習データの最もダウンストリームなタスク関連サブセットを抽出する。
我々は、擬似ラベルに基づく半教師付き手法を採用し、事前学習画像の再利用と、半教師付き学習における確証バイアス問題に対処するための視覚言語コントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2024-07-11T18:01:58Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z) - Metric Based Few-Shot Graph Classification [18.785949422663233]
少ないショットの学習では、有効性を放棄することなく、不足するデータレシエーションに現代的なディープラーニングモデルを採用することができる。
本研究では,最先端グラフ埋め込みを用いた単純な距離メトリック学習ベースラインにより,タスクの競合的な結果が得られることを示す。
また,MixUpをベースとしたオンラインデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2022-06-08T06:29:46Z) - CHALLENGER: Training with Attribution Maps [63.736435657236505]
ニューラルネットワークのトレーニングに属性マップを利用すると、モデルの正規化が向上し、性能が向上することを示す。
特に、我々の汎用的なドメインに依存しないアプローチは、ビジョン、自然言語処理、時系列タスクにおける最先端の結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-05-30T13:34:46Z) - CvS: Classification via Segmentation For Small Datasets [52.821178654631254]
本稿では,分類ラベルをセグメントマップの予測から導出する小型データセットのコスト効率の高い分類器であるCvSを提案する。
我々は,CvSが従来の手法よりもはるかに高い分類結果が得られることを示す多種多様な問題に対して,本フレームワークの有効性を評価する。
論文 参考訳(メタデータ) (2021-10-29T18:41:15Z) - Combining Feature and Instance Attribution to Detect Artifacts [62.63504976810927]
トレーニングデータアーティファクトの識別を容易にする手法を提案する。
提案手法は,トレーニングデータのアーティファクトの発見に有効であることを示す。
我々は,これらの手法が実際にNLP研究者にとって有用かどうかを評価するために,小規模なユーザスタディを実施している。
論文 参考訳(メタデータ) (2021-07-01T09:26:13Z) - Robustness to Missing Features using Hierarchical Clustering with Split
Neural Networks [39.29536042476913]
階層的クラスタリングを用いて類似の入力特徴をクラスタリングする,単純かつ効果的な手法を提案する。
本手法を一連のベンチマークデータセット上で評価し,単純な計算手法を用いても有望な改善を示す。
論文 参考訳(メタデータ) (2020-11-19T00:35:08Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。