論文の概要: Dual-View Data Hallucination with Semantic Relation Guidance for Few-Shot Image Recognition
- arxiv url: http://arxiv.org/abs/2401.07061v2
- Date: Thu, 8 Aug 2024 17:52:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-09 20:38:04.135798
- Title: Dual-View Data Hallucination with Semantic Relation Guidance for Few-Shot Image Recognition
- Title(参考訳): Few-Shot画像認識のための意味的関係ガイダンス付きデュアルビューデータ幻覚
- Authors: Hefeng Wu, Guangzhi Ye, Ziyang Zhou, Ling Tian, Qing Wang, Liang Lin,
- Abstract要約: 本稿では、意味的関係を利用して、画像認識のための二重視点データ幻覚を導出するフレームワークを提案する。
インスタンスビューデータ幻覚モジュールは、新規クラスの各サンプルを幻覚して新しいデータを生成する。
プロトタイプビューデータ幻覚モジュールは、意味認識尺度を利用して、新しいクラスのプロトタイプを推定する。
- 参考スコア(独自算出の注目度): 49.26065739704278
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning to recognize novel concepts from just a few image samples is very challenging as the learned model is easily overfitted on the few data and results in poor generalizability. One promising but underexplored solution is to compensate the novel classes by generating plausible samples. However, most existing works of this line exploit visual information only, rendering the generated data easy to be distracted by some challenging factors contained in the few available samples. Being aware of the semantic information in the textual modality that reflects human concepts, this work proposes a novel framework that exploits semantic relations to guide dual-view data hallucination for few-shot image recognition. The proposed framework enables generating more diverse and reasonable data samples for novel classes through effective information transfer from base classes. Specifically, an instance-view data hallucination module hallucinates each sample of a novel class to generate new data by employing local semantic correlated attention and global semantic feature fusion derived from base classes. Meanwhile, a prototype-view data hallucination module exploits semantic-aware measure to estimate the prototype of a novel class and the associated distribution from the few samples, which thereby harvests the prototype as a more stable sample and enables resampling a large number of samples. We conduct extensive experiments and comparisons with state-of-the-art methods on several popular few-shot benchmarks to verify the effectiveness of the proposed framework.
- Abstract(参考訳): 少数の画像サンプルから新しい概念を認識することは、学習されたモデルが少数のデータに簡単に過度に適合し、結果として一般化しにくいため、非常に難しい。
有望だが探索されていない解決策の1つは、可塑性サンプルを生成することによって、新しいクラスを補うことである。
しかし、このラインの既存の作業の多くは視覚情報のみを利用しており、生成したデータを数少ないサンプルに含まれるいくつかの困難な要因によって簡単に注意をそらすことができる。
人間の概念を反映したテキストモダリティのセマンティック情報を意識した本研究は、セマンティックな関係を利用して、画像認識のための双対ビューデータ幻覚を導出する新しいフレームワークを提案する。
提案フレームワークは,新しいクラスに対して,より多様で合理的なデータサンプルを,ベースクラスからの効果的な情報伝達によって生成することができる。
具体的には、インスタンスビューデータ幻覚モジュールは、新しいクラスの各サンプルを幻覚させ、局所的意味関連注意と、ベースクラスから派生したグローバルな意味的特徴融合を利用して、新しいデータを生成する。
一方、プロトタイプビューデータ幻覚モジュールは、セマンティック・アウェア・測度を利用して、新しいクラスのプロトタイプと関連する分布を少数のサンプルから推定し、より安定したサンプルとして抽出し、多数のサンプルを再サンプリングすることができる。
我々は,提案フレームワークの有効性を検証するために,いくつかの一般的な数ショットベンチマークにおいて,最先端の手法に対する広範な実験と比較を行った。
関連論文リスト
- Pre-Trained Vision-Language Models as Partial Annotators [40.89255396643592]
事前学習された視覚言語モデルは、画像と自然言語の統一表現をモデル化するために大量のデータを学習する。
本稿では,事前学習型モデルアプリケーションのための「事前学習型-弱教師付き学習」パラダイムについて検討し,画像分類タスクの実験を行う。
論文 参考訳(メタデータ) (2024-05-23T17:17:27Z) - Diversified in-domain synthesis with efficient fine-tuning for few-shot
classification [64.86872227580866]
画像分類は,クラスごとのラベル付き例の小さなセットのみを用いて,画像分類器の学習を目的としている。
合成データを用いた数ショット学習における一般化問題に対処する新しいアプローチである DisEF を提案する。
提案手法を10種類のベンチマークで検証し,ベースラインを一貫して上回り,数ショット分類のための新しい最先端の手法を確立した。
論文 参考訳(メタデータ) (2023-12-05T17:18:09Z) - VDC: Versatile Data Cleanser based on Visual-Linguistic Inconsistency by Multimodal Large Language Models [46.72546879204724]
現実の世界では、データセットには、バックドア攻撃による毒サンプル、クラウドソーシングにおけるノイズの多いラベル、さらにはそれらのハイブリッドなど、汚れたサンプルが含まれている。
既存の検出器は、他のドメインの汚れたサンプルを扱う場合、しばしば一般化が弱くなるような、有毒なサンプルやノイズのあるラベルを検出することのみに焦点を当てている。
マルチモーダル大規模言語モデル(MLLM)の超越した機能を利用した多目的データクリーニング(VDC)を提案する。
論文 参考訳(メタデータ) (2023-09-28T07:37:18Z) - Semantic Prompt for Few-Shot Image Recognition [76.68959583129335]
本稿では,数ショット学習のための新しいセマンティック・プロンプト(SP)手法を提案する。
提案手法は,1ショットの学習精度を平均3.67%向上させることにより,有望な結果が得られる。
論文 参考訳(メタデータ) (2023-03-24T16:32:19Z) - Uncertainty-Aware Multi-View Representation Learning [53.06828186507994]
動的不確実性認識ネットワーク(DUA-Nets)と呼ばれる新しい教師なし多視点学習手法を考案する。
生成視点から推定されるデータの不確実性により、複数の視点からの固有情報が統合され、ノイズのない表現が得られる。
本モデルでは, 広範囲な実験において優れた性能を示し, ノイズの多いデータに対するロバスト性を示す。
論文 参考訳(メタデータ) (2022-01-15T07:16:20Z) - Few-shot Classification via Adaptive Attention [93.06105498633492]
ごく少数の参照サンプルに基づいて,クエリサンプル表現を最適化し,高速に適応する新しい数ショット学習手法を提案する。
実験で実証したように,提案モデルでは,様々なベンチマーク数ショット分類と微粒化認識データセットを用いて,最先端の分類結果を達成している。
論文 参考訳(メタデータ) (2020-08-06T05:52:59Z) - UniT: Unified Knowledge Transfer for Any-shot Object Detection and
Segmentation [52.487469544343305]
オブジェクト検出とセグメンテーションの方法は、トレーニングのための大規模インスタンスレベルのアノテーションに依存します。
本稿では,直感的かつ統一的な半教師付きモデルを提案する。
論文 参考訳(メタデータ) (2020-06-12T22:45:47Z) - Interpretable Time-series Classification on Few-shot Samples [27.05851877375113]
本稿では,少数の時系列分類のための解釈可能なニューラルネットワーク,すなわちtextitDual Prototypeal Shapelet Networks (DPSN)を提案する。
DPSNは, 二つの粒度からモデルを解釈する: 1) 代表時系列サンプルを用いた大域的概要, 2) 識別型シェープレットを用いた局所的ハイライト。
我々は、公開ベンチマークデータセットから18個のショットTSCデータセットを抽出し、ベースラインとの比較により提案手法の評価を行った。
論文 参考訳(メタデータ) (2020-06-03T03:47:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。