論文の概要: TextManiA: Enriching Visual Feature by Text-driven Manifold Augmentation
- arxiv url: http://arxiv.org/abs/2307.14611v2
- Date: Mon, 31 Jul 2023 03:07:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-01 11:16:52.396261
- Title: TextManiA: Enriching Visual Feature by Text-driven Manifold Augmentation
- Title(参考訳): TextManiA: テキスト駆動マニフォールド拡張による視覚機能強化
- Authors: Moon Ye-Bin, Jisoo Kim, Hongyeob Kim, Kilho Son, Tae-Hyun Oh
- Abstract要約: 視覚的特徴空間を意味的に強化するテキスト駆動型多様体拡張法であるTextManiAを提案する。
TextManiAは,クラス不均衡や分布の少ないサンプルでは強力であることを示す。
- 参考スコア(独自算出の注目度): 16.47613985861896
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent label mix-based augmentation methods have shown their effectiveness in
generalization despite their simplicity, and their favorable effects are often
attributed to semantic-level augmentation. However, we found that they are
vulnerable to highly skewed class distribution, because scarce data classes are
rarely sampled for inter-class perturbation. We propose TextManiA, a
text-driven manifold augmentation method that semantically enriches visual
feature spaces, regardless of data distribution. TextManiA augments visual data
with intra-class semantic perturbation by exploiting easy-to-understand
visually mimetic words, i.e., attributes. To this end, we bridge between the
text representation and a target visual feature space, and propose an efficient
vector augmentation. To empirically support the validity of our design, we
devise two visualization-based analyses and show the plausibility of the bridge
between two different modality spaces. Our experiments demonstrate that
TextManiA is powerful in scarce samples with class imbalance as well as even
distribution. We also show compatibility with the label mix-based approaches in
evenly distributed scarce data.
- Abstract(参考訳): 近年のラベルミックスによる拡張手法は, 単純さに拘わらず, 一般化における有効性を示しており, その有効性は意味レベル向上によるものが多い。
しかし,少ないデータクラスはクラス間摂動に対してはほとんどサンプリングされないため,スキュードクラス分布に弱いことが判明した。
データ分布に関係なく視覚的特徴空間を意味的に豊かにするテキスト駆動型多様体拡張法であるTextManiAを提案する。
TextManiAは、理解しやすい視覚的模倣語、すなわち属性を利用して、クラス内の意味摂動で視覚データを増強する。
この目的のために,テキスト表現と対象視覚特徴空間を橋渡しし,効率的なベクトル拡張を提案する。
設計の有効性を実証的に支援するため、2つの可視化に基づく解析を行い、2つの異なるモダリティ空間間の橋梁の妥当性を示す。
実験の結果,TextManiAはクラス不均衡や分布の少ないサンプルでは強力であることがわかった。
また、均等に分散した不足データに対するラベルミックスベースアプローチとの互換性を示す。
関連論文リスト
- The Solution for Language-Enhanced Image New Category Discovery [5.500122875523184]
本稿では,CLIPのトレーニングプロセスの反転とPseudo Visual Promptsの概念の導入を提案する。
これらのプロンプトは各対象カテゴリに対して行われ、大規模で低コストな文データに基づいて事前訓練される。
次に、コントラスト学習を用いて、記憶された視覚情報をテキストラベルに転送し、その視覚表現能力を高める。
論文 参考訳(メタデータ) (2024-07-06T08:09:29Z) - Instructing Prompt-to-Prompt Generation for Zero-Shot Learning [116.33775552866476]
伝達可能な知識発見のための指導的視覚的プロンプトを蒸留するためのtextbfPrompt-to-textbfPrompt 生成手法 (textbfP2P) を提案する。
P2Pのコアとなるのは、アクセシブル条件付き視覚特徴と、モーダル共有セマンティック概念に関するテキスト命令からセマンティック関連命令をマイニングすることである。
論文 参考訳(メタデータ) (2024-06-05T07:59:48Z) - CLIP-Count: Towards Text-Guided Zero-Shot Object Counting [32.07271723717184]
オープン語彙オブジェクトの密度マップをゼロショットで推定する,最初のエンドツーエンドパイプラインであるCLIP-Countを提案する。
テキスト埋め込みを濃密な視覚特徴と整合させるため、我々は、密集した予測のための情報的パッチレベルの視覚表現を学習するために、モデルを誘導するパッチテキストコントラスト損失を導入する。
本手法は,対象物に対する高品質な密度マップを効果的に生成する。
論文 参考訳(メタデータ) (2023-05-12T08:19:39Z) - Semantic Prompt for Few-Shot Image Recognition [76.68959583129335]
本稿では,数ショット学習のための新しいセマンティック・プロンプト(SP)手法を提案する。
提案手法は,1ショットの学習精度を平均3.67%向上させることにより,有望な結果が得られる。
論文 参考訳(メタデータ) (2023-03-24T16:32:19Z) - Visual-Semantic Contrastive Alignment for Few-Shot Image Classification [1.109560166867076]
Few-Shot Learningは、いくつかのラベル付き例で、目に見えない視覚クラスに適応可能なモデルをトレーニングすることを目的としている。
視覚的特徴ベクトルと意味的特徴ベクトルの対比的なアライメント機構を導入し、より一般化された視覚概念を学習する。
本手法は,視覚カテゴリーの文脈的知識を抽出する補助的コントラスト学習目的を単純に付加する。
論文 参考訳(メタデータ) (2022-10-20T03:59:40Z) - Brief Introduction to Contrastive Learning Pretext Tasks for Visual
Representation [0.0]
教師なし学習手法のサブセットであるコントラスト学習を導入する。
対照的な学習の目的は、互いに近くにある同じサンプルから強化されたサンプルを埋め込んで、そうでないサンプルを押し下げることである。
我々は、最近公開されたコントラスト学習の戦略をいくつか提示し、視覚表現のためのプレテキストタスクに焦点を当てている。
論文 参考訳(メタデータ) (2022-10-06T18:54:10Z) - Visually-Augmented Language Modeling [137.36789885105642]
本稿では,言語モデリングのための関連画像を含むテキストトークンを視覚的に拡張する,VaLMという新しい事前学習フレームワークを提案する。
視覚的に拡張されたコンテキストでは、VaLMは視覚知識融合層を使用してマルチモーダル基底言語モデリングを可能にする。
視覚情報を必要とする多モーダル・コモンセンス推論タスクについて,提案モデルの評価を行った。
論文 参考訳(メタデータ) (2022-05-20T13:41:12Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z) - Integrating Visuospatial, Linguistic and Commonsense Structure into
Story Visualization [81.26077816854449]
まず、構造的入力を符号化するための選挙区解析木の利用について検討する。
第二に、構造化されたインプットをコモンセンス情報で強化し、この外部知識が視覚的ストーリーの生成に与える影響について検討する。
第3に、境界ボックスと高密度キャプションによって視覚構造を組み込んで、生成された画像の文字やオブジェクトに関するフィードバックを提供する。
論文 参考訳(メタデータ) (2021-10-21T00:16:02Z) - From Two to One: A New Scene Text Recognizer with Visual Language
Modeling Network [70.47504933083218]
本稿では,視覚情報と言語情報を結合として見る視覚言語モデリングネットワーク(VisionLAN)を提案する。
VisionLANは39%のスピード向上を実現し、正確な認識のための視覚的特徴を高めるために言語情報を適応的に検討する。
論文 参考訳(メタデータ) (2021-08-22T07:56:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。