論文の概要: Dual-View Data Hallucination with Semantic Relation Guidance for
Few-Shot Image Recognition
- arxiv url: http://arxiv.org/abs/2401.07061v1
- Date: Sat, 13 Jan 2024 12:32:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 19:55:02.655753
- Title: Dual-View Data Hallucination with Semantic Relation Guidance for
Few-Shot Image Recognition
- Title(参考訳): 少数撮影画像認識のための意味関係ガイダンスを用いたデュアルビューデータ幻覚
- Authors: Hefeng Wu, Guangzhi Ye, Ziyang Zhou, Ling Tian, Qing Wang, Liang Lin
- Abstract要約: 本稿では、意味的関係を利用して、画像認識のための二重視点データ幻覚を導出するフレームワークを提案する。
インスタンスビューデータ幻覚モジュールは、新規クラスの各サンプルを幻覚して新しいデータを生成する。
プロトタイプビューデータ幻覚モジュールは、意味認識尺度を利用して、新しいクラスのプロトタイプを推定する。
- 参考スコア(独自算出の注目度): 52.19737194653999
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning to recognize novel concepts from just a few image samples is very
challenging as the learned model is easily overfitted on the few data and
results in poor generalizability. One promising but underexplored solution is
to compensate the novel classes by generating plausible samples. However, most
existing works of this line exploit visual information only, rendering the
generated data easy to be distracted by some challenging factors contained in
the few available samples. Being aware of the semantic information in the
textual modality that reflects human concepts, this work proposes a novel
framework that exploits semantic relations to guide dual-view data
hallucination for few-shot image recognition. The proposed framework enables
generating more diverse and reasonable data samples for novel classes through
effective information transfer from base classes. Specifically, an
instance-view data hallucination module hallucinates each sample of a novel
class to generate new data by employing local semantic correlated attention and
global semantic feature fusion derived from base classes. Meanwhile, a
prototype-view data hallucination module exploits semantic-aware measure to
estimate the prototype of a novel class and the associated distribution from
the few samples, which thereby harvests the prototype as a more stable sample
and enables resampling a large number of samples. We conduct extensive
experiments and comparisons with state-of-the-art methods on several popular
few-shot benchmarks to verify the effectiveness of the proposed framework.
- Abstract(参考訳): 少数の画像サンプルから新しい概念を認識することは、学習されたモデルが少数のデータに簡単に過度に適合し、結果として一般化しにくいため、非常に難しい。
有望だが未熟な解決策の1つは、可能なサンプルを生成して新しいクラスを補うことである。
しかし、このラインの既存の作業の多くは視覚情報のみを利用しており、生成したデータを数少ないサンプルに含まれるいくつかの困難な要因によって簡単に注意をそらすことができる。
人間の概念を反映したテキストモダリティのセマンティック情報を意識した本研究は、セマンティックな関係を利用して、画像認識のためのデュアルビューデータ幻覚を導く新しいフレームワークを提案する。
提案フレームワークは,新しいクラスに対して,より多様で合理的なデータサンプルを,ベースクラスからの効果的な情報伝達によって生成することができる。
具体的には、インスタンスビューデータ幻覚モジュールが、新規クラスの各サンプルを幻覚し、局所的な意味相関注意とベースクラスから派生したグローバル意味特徴融合を用いて、新しいデータを生成する。
一方、プロトタイプビューデータ幻覚モジュールは、セマンティックアウェアメントを利用して、新しいクラスのプロトタイプと関連する分布を少数のサンプルから推定し、より安定したサンプルとして抽出し、多数のサンプルを再サンプリングすることができる。
提案手法の有効性を検証するため,いくつかの人気のある数点ベンチマークにおいて,最先端手法との比較実験を行った。
関連論文リスト
- Pre-Trained Vision-Language Models as Partial Annotators [40.89255396643592]
事前学習された視覚言語モデルは、画像と自然言語の統一表現をモデル化するために大量のデータを学習する。
本稿では,事前学習型モデルアプリケーションのための「事前学習型-弱教師付き学習」パラダイムについて検討し,画像分類タスクの実験を行う。
論文 参考訳(メタデータ) (2024-05-23T17:17:27Z) - Diversified in-domain synthesis with efficient fine-tuning for few-shot
classification [64.86872227580866]
画像分類は,クラスごとのラベル付き例の小さなセットのみを用いて,画像分類器の学習を目的としている。
合成データを用いた数ショット学習における一般化問題に対処する新しいアプローチである DisEF を提案する。
提案手法を10種類のベンチマークで検証し,ベースラインを一貫して上回り,数ショット分類のための新しい最先端の手法を確立した。
論文 参考訳(メタデータ) (2023-12-05T17:18:09Z) - VDC: Versatile Data Cleanser based on Visual-Linguistic Inconsistency by Multimodal Large Language Models [46.72546879204724]
現実の世界では、データセットには、バックドア攻撃による毒サンプル、クラウドソーシングにおけるノイズの多いラベル、さらにはそれらのハイブリッドなど、汚れたサンプルが含まれている。
既存の検出器は、他のドメインの汚れたサンプルを扱う場合、しばしば一般化が弱くなるような、有毒なサンプルやノイズのあるラベルを検出することのみに焦点を当てている。
マルチモーダル大規模言語モデル(MLLM)の超越した機能を利用した多目的データクリーニング(VDC)を提案する。
論文 参考訳(メタデータ) (2023-09-28T07:37:18Z) - Semantic Prompt for Few-Shot Image Recognition [76.68959583129335]
本稿では,数ショット学習のための新しいセマンティック・プロンプト(SP)手法を提案する。
提案手法は,1ショットの学習精度を平均3.67%向上させることにより,有望な結果が得られる。
論文 参考訳(メタデータ) (2023-03-24T16:32:19Z) - Uncertainty-Aware Multi-View Representation Learning [53.06828186507994]
動的不確実性認識ネットワーク(DUA-Nets)と呼ばれる新しい教師なし多視点学習手法を考案する。
生成視点から推定されるデータの不確実性により、複数の視点からの固有情報が統合され、ノイズのない表現が得られる。
本モデルでは, 広範囲な実験において優れた性能を示し, ノイズの多いデータに対するロバスト性を示す。
論文 参考訳(メタデータ) (2022-01-15T07:16:20Z) - Few-shot Classification via Adaptive Attention [93.06105498633492]
ごく少数の参照サンプルに基づいて,クエリサンプル表現を最適化し,高速に適応する新しい数ショット学習手法を提案する。
実験で実証したように,提案モデルでは,様々なベンチマーク数ショット分類と微粒化認識データセットを用いて,最先端の分類結果を達成している。
論文 参考訳(メタデータ) (2020-08-06T05:52:59Z) - UniT: Unified Knowledge Transfer for Any-shot Object Detection and
Segmentation [52.487469544343305]
オブジェクト検出とセグメンテーションの方法は、トレーニングのための大規模インスタンスレベルのアノテーションに依存します。
本稿では,直感的かつ統一的な半教師付きモデルを提案する。
論文 参考訳(メタデータ) (2020-06-12T22:45:47Z) - Interpretable Time-series Classification on Few-shot Samples [27.05851877375113]
本稿では,少数の時系列分類のための解釈可能なニューラルネットワーク,すなわちtextitDual Prototypeal Shapelet Networks (DPSN)を提案する。
DPSNは, 二つの粒度からモデルを解釈する: 1) 代表時系列サンプルを用いた大域的概要, 2) 識別型シェープレットを用いた局所的ハイライト。
我々は、公開ベンチマークデータセットから18個のショットTSCデータセットを抽出し、ベースラインとの比較により提案手法の評価を行った。
論文 参考訳(メタデータ) (2020-06-03T03:47:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。