論文の概要: DiffAugment: Diffusion based Long-Tailed Visual Relationship Recognition
- arxiv url: http://arxiv.org/abs/2401.01387v2
- Date: Fri, 1 Mar 2024 06:38:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-04 14:02:02.166090
- Title: DiffAugment: Diffusion based Long-Tailed Visual Relationship Recognition
- Title(参考訳): DiffAugment:拡散に基づく長距離視覚関係認識
- Authors: Parul Gupta, Tuan Nguyen, Abhinav Dhall, Munawar Hayat, Trung Le and
Thanh-Toan Do
- Abstract要約: DiffAugment は WordNet を利用して言語空間のテールクラスを拡張する手法である。
本研究は, テールクラスに対する視覚的埋め込み生成における硬度認識拡散の有効性を実証する。
また,生成した視覚的埋め込みの識別能力を向上する,拡散サンプリングのための新しい主題とオブジェクトベースのシード戦略を提案する。
- 参考スコア(独自算出の注目度): 43.01467525231004
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The task of Visual Relationship Recognition (VRR) aims to identify
relationships between two interacting objects in an image and is particularly
challenging due to the widely-spread and highly imbalanced distribution of
<subject, relation, object> triplets. To overcome the resultant performance
bias in existing VRR approaches, we introduce DiffAugment -- a method which
first augments the tail classes in the linguistic space by making use of
WordNet and then utilizes the generative prowess of Diffusion Models to expand
the visual space for minority classes. We propose a novel hardness-aware
component in diffusion which is based upon the hardness of each <S,R,O> triplet
and demonstrate the effectiveness of hardness-aware diffusion in generating
visual embeddings for the tail classes. We also propose a novel subject and
object based seeding strategy for diffusion sampling which improves the
discriminative capability of the generated visual embeddings. Extensive
experimentation on the GQA-LT dataset shows favorable gains in the
subject/object and relation average per-class accuracy using Diffusion
augmented samples.
- Abstract(参考訳): 視覚関係認識(vrr)は画像内の2つの相互作用対象間の関係を識別することを目的としており,<subject, relation, object>三重項の広範かつ高度に不均衡な分布のために特に困難である。
既存のVRRアプローチにおける性能バイアスを克服するために、DiffAugmentを導入する。DiffAugmentは、まずWordNetを用いて言語空間のテールクラスを拡張し、次に拡散モデルの生成技術を利用して少数クラスの視覚空間を拡大する手法である。
本稿では,各<s,r,o>三重項の硬度に基づく拡散における新しい硬度認識成分を提案し,テールクラスの視覚埋め込み生成における硬度認識拡散の有効性を示す。
また, 生成した視覚埋め込みの識別能力を向上させるために, 拡散サンプリングのための新しい主題およびオブジェクトベースシード戦略を提案する。
GQA-LTデータセットの大規模実験により,Diffusion を用いた対象/対象とクラス毎の相関平均値の精度が向上した。
関連論文リスト
- Human-Object Interaction Detection Collaborated with Large Relation-driven Diffusion Models [65.82564074712836]
テキストと画像の拡散モデルに光を流す新しいHOI検出器であるDIFfusionHOIを紹介する。
まず、埋め込み空間における人間と物体の関係パターンの表現をインバージョンベースで学習する戦略を考案する。
これらの学習された関係埋め込みはテキストのプロンプトとして機能し、スタイア拡散モデルが特定の相互作用を記述する画像を生成する。
論文 参考訳(メタデータ) (2024-10-26T12:00:33Z) - DetDiffusion: Synergizing Generative and Perceptive Models for Enhanced Data Generation and Perception [78.26734070960886]
現在の知覚モデルは、リソース集約的なデータセットに大きく依存している。
セグメンテーションを通じて知覚認識損失(P.A.損失)を導入し、品質と制御性の両方を改善した。
本手法は,世代間における知覚認識属性(P.A. Attr)の抽出と利用により,データ拡張をカスタマイズする。
論文 参考訳(メタデータ) (2024-03-20T04:58:03Z) - Diffusion Model with Cross Attention as an Inductive Bias for Disentanglement [58.9768112704998]
遠方表現学習は、観測データ内の本質的要因を抽出する試みである。
我々は新しい視点と枠組みを導入し、クロスアテンションを持つ拡散モデルが強力な帰納バイアスとなることを示す。
これは、複雑な設計を必要とせず、クロスアテンションを持つ拡散モデルの強力な解離能力を明らかにする最初の研究である。
論文 参考訳(メタデータ) (2024-02-15T05:07:54Z) - Bridging Generative and Discriminative Models for Unified Visual
Perception with Diffusion Priors [56.82596340418697]
本稿では,豊富な生成前駆体を含む事前学習型安定拡散(SD)モデルと,階層的表現を統合可能な統一型ヘッド(Uヘッド)と,識別前駆体を提供する適応型専門家からなる,シンプルで効果的なフレームワークを提案する。
包括的調査では、異なる時間ステップで潜伏変数に隠された知覚の粒度や様々なU-netステージなど、バーマスの潜在的な特性が明らかになった。
有望な結果は,有望な学習者としての拡散モデルの可能性を示し,情報的かつ堅牢な視覚表現の確立にその意義を定めている。
論文 参考訳(メタデータ) (2024-01-29T10:36:57Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - Detail Reinforcement Diffusion Model: Augmentation Fine-Grained Visual Categorization in Few-Shot Conditions [11.121652649243119]
拡散モデルは、データ生成において顕著な多様性のため、データ拡張において広く採用されている。
詳細強化拡散モデル(DRDM)と呼ばれる新しい手法を提案する。
大規模モデルの豊富な知識を微粒化に活用し、識別的意味的組換え(DSR)と空間的知識参照(SKR)の2つの重要な構成要素を含む。
論文 参考訳(メタデータ) (2023-09-15T01:28:59Z) - InfoDiffusion: Representation Learning Using Information Maximizing
Diffusion Models [35.566528358691336]
InfoDiffusionは低次元潜伏変数を持つ拡散モデルを拡張するアルゴリズムである。
情報拡散は、観測された変数と隠れた変数の相互情報に規則化された学習目標に依存する。
インフォディフュージョンは、最先端の生成的およびコントラスト的手法と競合する非絡み合いおよび人間解釈可能な潜在表現を学習する。
論文 参考訳(メタデータ) (2023-06-14T21:48:38Z) - DiffusionSeg: Adapting Diffusion Towards Unsupervised Object Discovery [20.787180028571694]
DiffusionSegは、2段階戦略を含む合成探索フレームワークである。
我々は,豊富な画像を合成し,第1段階でマスクを得るための新しいトレーニングフリーアテンションカットを提案する。
第2のエクスプロイト段階では、構造的ギャップを埋めるために、インバージョン技術を用いて、与えられた画像を拡散特徴にマッピングする。
論文 参考訳(メタデータ) (2023-03-17T07:47:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。