論文の概要: DiffAugment: Diffusion based Long-Tailed Visual Relationship Recognition
- arxiv url: http://arxiv.org/abs/2401.01387v2
- Date: Fri, 1 Mar 2024 06:38:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-04 14:02:02.166090
- Title: DiffAugment: Diffusion based Long-Tailed Visual Relationship Recognition
- Title(参考訳): DiffAugment:拡散に基づく長距離視覚関係認識
- Authors: Parul Gupta, Tuan Nguyen, Abhinav Dhall, Munawar Hayat, Trung Le and
Thanh-Toan Do
- Abstract要約: DiffAugment は WordNet を利用して言語空間のテールクラスを拡張する手法である。
本研究は, テールクラスに対する視覚的埋め込み生成における硬度認識拡散の有効性を実証する。
また,生成した視覚的埋め込みの識別能力を向上する,拡散サンプリングのための新しい主題とオブジェクトベースのシード戦略を提案する。
- 参考スコア(独自算出の注目度): 43.01467525231004
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The task of Visual Relationship Recognition (VRR) aims to identify
relationships between two interacting objects in an image and is particularly
challenging due to the widely-spread and highly imbalanced distribution of
<subject, relation, object> triplets. To overcome the resultant performance
bias in existing VRR approaches, we introduce DiffAugment -- a method which
first augments the tail classes in the linguistic space by making use of
WordNet and then utilizes the generative prowess of Diffusion Models to expand
the visual space for minority classes. We propose a novel hardness-aware
component in diffusion which is based upon the hardness of each <S,R,O> triplet
and demonstrate the effectiveness of hardness-aware diffusion in generating
visual embeddings for the tail classes. We also propose a novel subject and
object based seeding strategy for diffusion sampling which improves the
discriminative capability of the generated visual embeddings. Extensive
experimentation on the GQA-LT dataset shows favorable gains in the
subject/object and relation average per-class accuracy using Diffusion
augmented samples.
- Abstract(参考訳): 視覚関係認識(vrr)は画像内の2つの相互作用対象間の関係を識別することを目的としており,<subject, relation, object>三重項の広範かつ高度に不均衡な分布のために特に困難である。
既存のVRRアプローチにおける性能バイアスを克服するために、DiffAugmentを導入する。DiffAugmentは、まずWordNetを用いて言語空間のテールクラスを拡張し、次に拡散モデルの生成技術を利用して少数クラスの視覚空間を拡大する手法である。
本稿では,各<s,r,o>三重項の硬度に基づく拡散における新しい硬度認識成分を提案し,テールクラスの視覚埋め込み生成における硬度認識拡散の有効性を示す。
また, 生成した視覚埋め込みの識別能力を向上させるために, 拡散サンプリングのための新しい主題およびオブジェクトベースシード戦略を提案する。
GQA-LTデータセットの大規模実験により,Diffusion を用いた対象/対象とクラス毎の相関平均値の精度が向上した。
関連論文リスト
- Theoretical Insights for Diffusion Guidance: A Case Study for Gaussian
Mixture Models [59.331993845831946]
拡散モデルは、所望の特性に向けてサンプル生成を操るために、スコア関数にタスク固有の情報を注入することの恩恵を受ける。
本稿では,ガウス混合モデルの文脈における拡散モデルに対する誘導の影響を理解するための最初の理論的研究を提供する。
論文 参考訳(メタデータ) (2024-03-03T23:15:48Z) - Diffusion Model with Cross Attention as an Inductive Bias for
Disentanglement [64.42792944778728]
遠方表現学習は、観測データ内の本質的要因を抽出する試みである。
我々は新しい視点と枠組みを導入し、クロスアテンションを持つ拡散モデルが強力な帰納バイアスとなることを示す。
これは、複雑な設計を必要とせず、クロスアテンションを持つ拡散モデルの強力な解離能力を明らかにする最初の研究である。
論文 参考訳(メタデータ) (2024-02-15T05:07:54Z) - Bridging Generative and Discriminative Models for Unified Visual
Perception with Diffusion Priors [56.82596340418697]
本稿では,豊富な生成前駆体を含む事前学習型安定拡散(SD)モデルと,階層的表現を統合可能な統一型ヘッド(Uヘッド)と,識別前駆体を提供する適応型専門家からなる,シンプルで効果的なフレームワークを提案する。
包括的調査では、異なる時間ステップで潜伏変数に隠された知覚の粒度や様々なU-netステージなど、バーマスの潜在的な特性が明らかになった。
有望な結果は,有望な学習者としての拡散モデルの可能性を示し,情報的かつ堅牢な視覚表現の確立にその意義を定めている。
論文 参考訳(メタデータ) (2024-01-29T10:36:57Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - Detail Reinforcement Diffusion Model: Augmentation Fine-Grained Visual
Categorization in Few-Shot Conditions [11.931820047796332]
拡散モデルは、データ生成において顕著な多様性のため、データ拡張において広く採用されている。
詳細強化拡散モデル(DRDM)と呼ばれる新しい手法を提案する。
大規模モデルの豊富な知識を微粒化に活用し、識別的意味的組換え(DSR)と空間的知識参照(SKR)の2つの重要な構成要素を含む。
論文 参考訳(メタデータ) (2023-09-15T01:28:59Z) - DiffDis: Empowering Generative Diffusion Model with Cross-Modal
Discrimination Capability [75.9781362556431]
本稿では,拡散過程下での1つのフレームワークに,モダクティブと差別的事前学習を統一するDiffDisを提案する。
DiffDisは画像生成タスクと画像テキスト識別タスクの両方において単一タスクモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-18T05:03:48Z) - InfoDiffusion: Representation Learning Using Information Maximizing
Diffusion Models [35.566528358691336]
InfoDiffusionは低次元潜伏変数を持つ拡散モデルを拡張するアルゴリズムである。
情報拡散は、観測された変数と隠れた変数の相互情報に規則化された学習目標に依存する。
インフォディフュージョンは、最先端の生成的およびコントラスト的手法と競合する非絡み合いおよび人間解釈可能な潜在表現を学習する。
論文 参考訳(メタデータ) (2023-06-14T21:48:38Z) - DiffusionSeg: Adapting Diffusion Towards Unsupervised Object Discovery [20.787180028571694]
DiffusionSegは、2段階戦略を含む合成探索フレームワークである。
我々は,豊富な画像を合成し,第1段階でマスクを得るための新しいトレーニングフリーアテンションカットを提案する。
第2のエクスプロイト段階では、構造的ギャップを埋めるために、インバージョン技術を用いて、与えられた画像を拡散特徴にマッピングする。
論文 参考訳(メタデータ) (2023-03-17T07:47:55Z) - Contrastive Disentanglement in Generative Adversarial Networks [24.691648995507105]
本稿では,cd-gan(con contrastive disentanglement ingenerative adversarial networks)を提案する。
画像特徴とは対照的な視覚データスルーのクラス間変動の要因を解消することを目的としている。
限られた量のスーパービジョンを利用して、クラス間の非絡み合い性能を促進します。
論文 参考訳(メタデータ) (2021-03-05T12:44:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。