論文の概要: Contrastive Visual Data Augmentation
- arxiv url: http://arxiv.org/abs/2502.17709v1
- Date: Mon, 24 Feb 2025 23:05:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 15:23:58.312230
- Title: Contrastive Visual Data Augmentation
- Title(参考訳): 対照的なビジュアルデータ拡張
- Authors: Yu Zhou, Bingxuan Li, Mohan Tang, Xiaomeng Jin, Te-Lin Wu, Kuan-Hao Huang, Heng Ji, Kai-Wei Chang, Nanyun Peng,
- Abstract要約: 大規模なマルチモーダルモデル(LMM)は、訓練済みの知識に依存し、微妙な視覚的詳細を捉える能力に制限があるため、しばしば新しい概念を認識するのに苦労する。
本稿では,LMMの視覚的特徴と言語との整合性を改善するために,Contrastive visual Data Augmentation(CoDA)戦略を提案する。
CoDAは、認識されていない既知の概念に対して、ターゲット概念の重要な対照的なテキスト的特徴と視覚的特徴を抽出し、ターゲットとなる合成データを生成するために、マルチモーダル生成モデルを使用する。
- 参考スコア(独自算出の注目度): 119.51630737874855
- License:
- Abstract: Large multimodal models (LMMs) often struggle to recognize novel concepts, as they rely on pre-trained knowledge and have limited ability to capture subtle visual details. Domain-specific knowledge gaps in training also make them prone to confusing visually similar, commonly misrepresented, or low-resource concepts. To help LMMs better align nuanced visual features with language, improving their ability to recognize and reason about novel or rare concepts, we propose a Contrastive visual Data Augmentation (CoDA) strategy. CoDA extracts key contrastive textual and visual features of target concepts against the known concepts they are misrecognized as, and then uses multimodal generative models to produce targeted synthetic data. Automatic filtering of extracted features and augmented images is implemented to guarantee their quality, as verified by human annotators. We show the effectiveness and efficiency of CoDA on low-resource concept and diverse scene recognition datasets including INaturalist and SUN. We additionally collect NovelSpecies, a benchmark dataset consisting of newly discovered animal species that are guaranteed to be unseen by LMMs. LLaVA-1.6 1-shot updating results on these three datasets show CoDA significantly improves SOTA visual data augmentation strategies by 12.3% (NovelSpecies), 5.1% (SUN), and 6.0% (iNat) absolute gains in accuracy.
- Abstract(参考訳): 大規模なマルチモーダルモデル(LMM)は、訓練済みの知識に依存し、微妙な視覚的詳細を捉える能力に制限があるため、しばしば新しい概念を認識するのに苦労する。
トレーニングにおけるドメイン固有の知識ギャップは、視覚的によく似た、一般的には正しく表現されていない、あるいは低リソースの概念を混乱させる傾向がある。
視覚的特徴と言語との整合性を向上し,新しい概念や稀な概念を認識・推論する能力を向上させるために,コントラッシブ・ビジュアル・データ・アジュメンテーション(CoDA)戦略を提案する。
CoDAは、認識されていない既知の概念に対して、ターゲット概念の重要な対照的なテキスト的特徴と視覚的特徴を抽出し、ターゲットとなる合成データを生成するために、マルチモーダル生成モデルを使用する。
人間のアノテータが検証したように,抽出した特徴や拡張画像の自動フィルタリングは品質を保証するために実装されている。
InaturalistやSUNなど,低リソースの概念と多様なシーン認識データセットに対するCoDAの有効性と有効性を示す。
我々は新たに発見された動物種からなるベンチマークデータセットであるNovellSpeciesも収集した。
LLaVA-1.6 3つのデータセットの1ショット更新結果から、CoDAはSOTAの視覚データ拡張戦略を12.3%(NovelSpecies),5.1%(SUN),6.0%(iNat)の精度で大幅に改善している。
関連論文リスト
- Adaptive Masking Enhances Visual Grounding [12.793586888511978]
ローショット学習シナリオにおける語彙接地を改善するために,ガウス放射変調を用いた画像解釈型マスキングを提案する。
我々はCOCOやODinWを含むベンチマークデータセットに対するアプローチの有効性を評価し、ゼロショットタスクや少数ショットタスクにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-04T05:48:02Z) - ARMADA: Attribute-Based Multimodal Data Augmentation [93.05614922383822]
Attribute-based Multimodal Data Augmentation (ARMADA) は、知識誘導による視覚属性の操作による新しいマルチモーダルデータ拡張手法である。
ARMADAは、新しいマルチモーダルデータ生成フレームワークである。 (i) 意味的に一貫性があるがユニークな画像-テキストペア生成のために、シンボリックKBから知識基底属性を抽出する。
これはまた、解釈可能性の向上と現実世界の接地のために外部の知識プロキシを活用する必要性を強調している。
論文 参考訳(メタデータ) (2024-08-19T15:27:25Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - Combining inherent knowledge of vision-language models with unsupervised domain adaptation through strong-weak guidance [44.1830188215271]
教師なしドメイン適応(UDA)は、ラベル付きソースデータセットを活用することで、データのラベル付けの面倒な作業を克服しようとする。
現在の視覚言語モデルは、顕著なゼロショット予測能力を示す。
我々は、ゼロショット予測を用いて、ソースとターゲットデータセットの整列を支援する、強弱誘導学習スキームを導入する。
論文 参考訳(メタデータ) (2023-12-07T06:16:39Z) - CLAP: Isolating Content from Style through Contrastive Learning with Augmented Prompts [11.752632557524969]
コンテンツの特徴を元の表現から切り離すために,データ拡張によるコントラスト学習を提案する。
多様なデータセットを対象とした実験では、ゼロショットと少数ショットの分類タスクが大幅に改善された。
論文 参考訳(メタデータ) (2023-11-28T03:00:59Z) - Knowledge-augmented Few-shot Visual Relation Detection [25.457693302327637]
視覚的関係検出(VRD)は、画像理解のためのオブジェクト間の関係を検出することを目的としている。
既存のVRD手法の多くは、良好なパフォーマンスを達成するために、各関係の何千ものトレーニングサンプルに依存している。
我々は、テキスト知識と視覚的関係知識の両方を活用する、知識を付加した、数発のVRDフレームワークを考案する。
論文 参考訳(メタデータ) (2023-03-09T15:38:40Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - CoDA: Contrast-enhanced and Diversity-promoting Data Augmentation for
Natural Language Understanding [67.61357003974153]
我々はCoDAと呼ばれる新しいデータ拡張フレームワークを提案する。
CoDAは、複数の変換を有機的に統合することで、多種多様な情報付加例を合成する。
すべてのデータサンプルのグローバルな関係を捉えるために、対照的な正則化の目的を導入する。
論文 参考訳(メタデータ) (2020-10-16T23:57:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。