論文の概要: Detail Reinforcement Diffusion Model: Augmentation Fine-Grained Visual
Categorization in Few-Shot Conditions
- arxiv url: http://arxiv.org/abs/2309.08097v1
- Date: Fri, 15 Sep 2023 01:28:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-18 16:25:23.474712
- Title: Detail Reinforcement Diffusion Model: Augmentation Fine-Grained Visual
Categorization in Few-Shot Conditions
- Title(参考訳): 詳細強化拡散モデル:数ショット条件下での微粒化視覚カテゴリー化
- Authors: Tianxu Wu and Shuo Ye and Shuhuang Chen and Qinmu Peng and Xinge You
- Abstract要約: 拡散モデルは、データ生成において顕著な多様性のため、データ拡張において広く採用されている。
詳細強化拡散モデル(DRDM)と呼ばれる新しい手法を提案する。
大規模モデルの豊富な知識を微粒化に活用し、識別的意味的組換え(DSR)と空間的知識参照(SKR)の2つの重要な構成要素を含む。
- 参考スコア(独自算出の注目度): 11.931820047796332
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The challenge in fine-grained visual categorization lies in how to explore
the subtle differences between different subclasses and achieve accurate
discrimination. Previous research has relied on large-scale annotated data and
pre-trained deep models to achieve the objective. However, when only a limited
amount of samples is available, similar methods may become less effective.
Diffusion models have been widely adopted in data augmentation due to their
outstanding diversity in data generation. However, the high level of detail
required for fine-grained images makes it challenging for existing methods to
be directly employed. To address this issue, we propose a novel approach termed
the detail reinforcement diffusion model~(DRDM), which leverages the rich
knowledge of large models for fine-grained data augmentation and comprises two
key components including discriminative semantic recombination (DSR) and
spatial knowledge reference~(SKR). Specifically, DSR is designed to extract
implicit similarity relationships from the labels and reconstruct the semantic
mapping between labels and instances, which enables better discrimination of
subtle differences between different subclasses. Furthermore, we introduce the
SKR module, which incorporates the distributions of different datasets as
references in the feature space. This allows the SKR to aggregate the
high-dimensional distribution of subclass features in few-shot FGVC tasks, thus
expanding the decision boundary. Through these two critical components, we
effectively utilize the knowledge from large models to address the issue of
data scarcity, resulting in improved performance for fine-grained visual
recognition tasks. Extensive experiments demonstrate the consistent performance
gain offered by our DRDM.
- Abstract(参考訳): きめ細かい視覚分類の課題は、異なるサブクラス間の微妙な違いを調べ、正確な識別を実現する方法にある。
これまでの研究は、目的を達成するために大規模な注釈付きデータと事前訓練された深層モデルに依存してきた。
しかし、限られた量のサンプルしか利用できない場合、同様の手法は効果が低下する可能性がある。
拡散モデルはデータ生成において顕著な多様性のため、データ拡張において広く採用されている。
しかし,細粒度画像の精細度が高いため,既存の手法を直接利用するのが困難である。
そこで本研究では,DSR (Driminative semantic recombination) と空間知識参照 (SKR) の2つの重要な要素を含む,大規模モデルの豊富な知識を微粒化に活用した詳細強化拡散モデル~(DRDM)を提案する。
具体的には、ラベルから暗黙的な類似関係を抽出し、ラベルとインスタンス間のセマンティックマッピングを再構築し、異なるサブクラス間の微妙な差異の識別をより良くするように設計されている。
さらに,異なるデータセットの分布を特徴空間の参照として組み込んだSKRモジュールについても紹介する。
これにより、SKRはFGVCタスクのサブクラスの高次元分布を集約し、決定境界を拡大することができる。
これら2つの重要なコンポーネントを通じて,データ不足の問題に対処するために,大規模モデルからの知識を効果的に活用し,きめ細かい視覚認識タスクの性能を向上させる。
DRDMによる一貫した性能向上の実証実験を行った。
関連論文リスト
- Enhancing Unsupervised Sentence Embeddings via Knowledge-Driven Data Augmentation and Gaussian-Decayed Contrastive Learning [37.54523122932728]
大規模言語モデル(LLM)を用いたパイプラインベースのデータ拡張手法を提案する。
データ多様性の低い問題に対処するため、私たちのパイプラインは知識グラフ(KG)を使用してエンティティや量を取り出す。
高いデータノイズに対処するため、GCSEモデルは偽硬陰性サンプルの影響を制限するためにガウス分解関数を使用する。
論文 参考訳(メタデータ) (2024-09-19T16:29:58Z) - On Learning Discriminative Features from Synthesized Data for Self-Supervised Fine-Grained Visual Recognition [21.137498023391178]
自己監視学習(SSL)は、様々なタスクにわたる視覚的表現を取得するための顕著なアプローチとなっている。
我々は,SSLの視覚的認識に不可欠な重要な識別的特徴を抽出する能力を向上する新たな戦略を導入する。
このアプローチは、FGVRに不可欠な差別的特徴に焦点を合わせるために、合成データペアを作成する。
論文 参考訳(メタデータ) (2024-07-19T21:43:19Z) - Exploring Data Efficiency in Zero-Shot Learning with Diffusion Models [38.36200871549062]
Zero-Shot Learning (ZSL) は、クラスレベルでのデータ効率を向上させることで、分類器が見えないクラスを識別できるようにすることを目的としている。
これは、未確認クラスの事前に定義されたセマンティクスから画像特徴を生成することで実現される。
本稿では,限られた例が一般的に生成モデルの性能低下をもたらすことを示す。
この統合されたフレームワークは拡散モデルを導入し、クラスレベルとインスタンスレベルのデータ効率を改善する。
論文 参考訳(メタデータ) (2024-06-05T04:37:06Z) - Distribution-Aware Data Expansion with Diffusion Models [55.979857976023695]
本研究では,分散型拡散モデルに基づくトレーニングフリーなデータ拡張フレームワークであるDistDiffを提案する。
DistDiffは、オリジナルデータのみにトレーニングされたモデルと比較して、さまざまなデータセットの精度を一貫して向上させる。
論文 参考訳(メタデータ) (2024-03-11T14:07:53Z) - Bridging Generative and Discriminative Models for Unified Visual
Perception with Diffusion Priors [56.82596340418697]
本稿では,豊富な生成前駆体を含む事前学習型安定拡散(SD)モデルと,階層的表現を統合可能な統一型ヘッド(Uヘッド)と,識別前駆体を提供する適応型専門家からなる,シンプルで効果的なフレームワークを提案する。
包括的調査では、異なる時間ステップで潜伏変数に隠された知覚の粒度や様々なU-netステージなど、バーマスの潜在的な特性が明らかになった。
有望な結果は,有望な学習者としての拡散モデルの可能性を示し,情報的かつ堅牢な視覚表現の確立にその意義を定めている。
論文 参考訳(メタデータ) (2024-01-29T10:36:57Z) - DiffAugment: Diffusion based Long-Tailed Visual Relationship Recognition [43.01467525231004]
DiffAugment は WordNet を利用して言語空間のテールクラスを拡張する手法である。
本研究は, テールクラスに対する視覚的埋め込み生成における硬度認識拡散の有効性を実証する。
また,生成した視覚的埋め込みの識別能力を向上する,拡散サンプリングのための新しい主題とオブジェクトベースのシード戦略を提案する。
論文 参考訳(メタデータ) (2024-01-01T21:20:43Z) - RGM: A Robust Generalizable Matching Model [49.60975442871967]
RGM(Robust Generalist Matching)と呼ばれる疎密マッチングのための深部モデルを提案する。
合成トレーニングサンプルと実世界のシナリオのギャップを狭めるために、我々は、疎対応基盤真理を持つ新しい大規模データセットを構築した。
さまざまな密集したスパースなデータセットを混ぜ合わせることができ、トレーニングの多様性を大幅に改善しています。
論文 参考訳(メタデータ) (2023-10-18T07:30:08Z) - Leveraging Diffusion Disentangled Representations to Mitigate Shortcuts
in Underspecified Visual Tasks [92.32670915472099]
拡散確率モデル(DPM)を用いた合成カウンターファクトの生成を利用したアンサンブルの多様化フレームワークを提案する。
拡散誘導型分散化は,データ収集を必要とする従来の手法に匹敵するアンサンブル多様性を達成し,ショートカットからの注意を回避できることを示す。
論文 参考訳(メタデータ) (2023-10-03T17:37:52Z) - Diff-Instruct: A Universal Approach for Transferring Knowledge From
Pre-trained Diffusion Models [77.83923746319498]
本稿では,任意の生成モデルの学習を指導するDiff-Instructというフレームワークを提案する。
Diff-Instructは、最先端の単一ステップ拡散モデルであることを示す。
GANモデルの精製実験により、Diff-InstructはGANモデルの事前訓練されたジェネレータを一貫して改善できることが示されている。
論文 参考訳(メタデータ) (2023-05-29T04:22:57Z) - R2-Trans:Fine-Grained Visual Categorization with Redundancy Reduction [21.11038841356125]
細粒度視覚分類(FGVC)は、クラス内の大きな多様性と微妙なクラス間差が主な課題である類似のサブカテゴリを識別することを目的としている。
本稿では,FGVCに対する新たなアプローチを提案する。FGVCは,環境条件における部分的かつ十分な識別情報を同時に利用でき,また,対象物に対するクラストークンにおける冗長情報を圧縮することができる。
論文 参考訳(メタデータ) (2022-04-21T13:35:38Z) - Adversarial Feature Hallucination Networks for Few-Shot Learning [84.31660118264514]
Adversarial Feature Hallucination Networks (AFHN) は条件付き Wasserstein Generative Adversarial Network (cWGAN) に基づいている。
合成された特徴の識別性と多様性を促進するために、2つの新規レギュレータがAFHNに組み込まれている。
論文 参考訳(メタデータ) (2020-03-30T02:43:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。