論文の概要: TextManiA: Enriching Visual Feature by Text-driven Manifold Augmentation
- arxiv url: http://arxiv.org/abs/2307.14611v3
- Date: Mon, 11 Sep 2023 05:15:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-12 19:17:46.246819
- Title: TextManiA: Enriching Visual Feature by Text-driven Manifold Augmentation
- Title(参考訳): TextManiA: テキスト駆動マニフォールド拡張による視覚機能強化
- Authors: Moon Ye-Bin, Jisoo Kim, Hongyeob Kim, Kilho Son, Tae-Hyun Oh
- Abstract要約: 視覚的特徴空間を意味的に強化するテキスト駆動型多様体拡張法であるTextManiAを提案する。
TextManiAは、理解しやすい視覚的模倣語を活用することで、クラス内のセマンティック摂動で視覚データを増強する。
実験の結果,TextManiAはクラス不均衡や分布の少ないサンプルでは特に強力であることがわかった。
- 参考スコア(独自算出の注目度): 20.00366398989886
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose TextManiA, a text-driven manifold augmentation method that
semantically enriches visual feature spaces, regardless of class distribution.
TextManiA augments visual data with intra-class semantic perturbation by
exploiting easy-to-understand visually mimetic words, i.e., attributes. This
work is built on an interesting hypothesis that general language models, e.g.,
BERT and GPT, encompass visual information to some extent, even without
training on visual training data. Given the hypothesis, TextManiA transfers
pre-trained text representation obtained from a well-established large language
encoder to a target visual feature space being learned. Our extensive analysis
hints that the language encoder indeed encompasses visual information at least
useful to augment visual representation. Our experiments demonstrate that
TextManiA is particularly powerful in scarce samples with class imbalance as
well as even distribution. We also show compatibility with the label mix-based
approaches in evenly distributed scarce data.
- Abstract(参考訳): クラス分布に関係なく視覚的特徴空間を意味的に強化するテキスト駆動型多様体拡張法であるTextManiAを提案する。
TextManiAは、理解しやすい視覚的模倣語、すなわち属性を利用して、クラス内の意味摂動で視覚データを増強する。
この研究は、例えばBERTやGPTといった一般的な言語モデルが、視覚訓練データに関するトレーニングをしなくてもある程度視覚情報を包含する、という興味深い仮説に基づいている。
この仮説を前提として、TextManiAは、十分に確立された大言語エンコーダから得られた訓練済みのテキスト表現を、学習対象の視覚的特徴空間に転送する。
広範に分析した結果,言語エンコーダには視覚情報が含まれることが示唆された。
実験の結果,TextManiAはクラス不均衡や分布の少ないサンプルでは特に強力であることがわかった。
また、均等に分散した不足データに対するラベルミックスベースアプローチとの互換性を示す。
関連論文リスト
- CLIP-Count: Towards Text-Guided Zero-Shot Object Counting [32.07271723717184]
オープン語彙オブジェクトの密度マップをゼロショットで推定する,最初のエンドツーエンドパイプラインであるCLIP-Countを提案する。
テキスト埋め込みを濃密な視覚特徴と整合させるため、我々は、密集した予測のための情報的パッチレベルの視覚表現を学習するために、モデルを誘導するパッチテキストコントラスト損失を導入する。
本手法は,対象物に対する高品質な密度マップを効果的に生成する。
論文 参考訳(メタデータ) (2023-05-12T08:19:39Z) - Semantic Prompt for Few-Shot Image Recognition [76.68959583129335]
本稿では,数ショット学習のための新しいセマンティック・プロンプト(SP)手法を提案する。
提案手法は,1ショットの学習精度を平均3.67%向上させることにより,有望な結果が得られる。
論文 参考訳(メタデータ) (2023-03-24T16:32:19Z) - Visual-Semantic Contrastive Alignment for Few-Shot Image Classification [1.109560166867076]
Few-Shot Learningは、いくつかのラベル付き例で、目に見えない視覚クラスに適応可能なモデルをトレーニングすることを目的としている。
視覚的特徴ベクトルと意味的特徴ベクトルの対比的なアライメント機構を導入し、より一般化された視覚概念を学習する。
本手法は,視覚カテゴリーの文脈的知識を抽出する補助的コントラスト学習目的を単純に付加する。
論文 参考訳(メタデータ) (2022-10-20T03:59:40Z) - Brief Introduction to Contrastive Learning Pretext Tasks for Visual
Representation [0.0]
教師なし学習手法のサブセットであるコントラスト学習を導入する。
対照的な学習の目的は、互いに近くにある同じサンプルから強化されたサンプルを埋め込んで、そうでないサンプルを押し下げることである。
我々は、最近公開されたコントラスト学習の戦略をいくつか提示し、視覚表現のためのプレテキストタスクに焦点を当てている。
論文 参考訳(メタデータ) (2022-10-06T18:54:10Z) - Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。
既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。
ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文 参考訳(メタデータ) (2022-08-04T07:51:48Z) - Visually-Augmented Language Modeling [137.36789885105642]
本稿では,言語モデリングのための関連画像を含むテキストトークンを視覚的に拡張する,VaLMという新しい事前学習フレームワークを提案する。
視覚的に拡張されたコンテキストでは、VaLMは視覚知識融合層を使用してマルチモーダル基底言語モデリングを可能にする。
視覚情報を必要とする多モーダル・コモンセンス推論タスクについて,提案モデルの評価を行った。
論文 参考訳(メタデータ) (2022-05-20T13:41:12Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z) - Integrating Visuospatial, Linguistic and Commonsense Structure into
Story Visualization [81.26077816854449]
まず、構造的入力を符号化するための選挙区解析木の利用について検討する。
第二に、構造化されたインプットをコモンセンス情報で強化し、この外部知識が視覚的ストーリーの生成に与える影響について検討する。
第3に、境界ボックスと高密度キャプションによって視覚構造を組み込んで、生成された画像の文字やオブジェクトに関するフィードバックを提供する。
論文 参考訳(メタデータ) (2021-10-21T00:16:02Z) - From Two to One: A New Scene Text Recognizer with Visual Language
Modeling Network [70.47504933083218]
本稿では,視覚情報と言語情報を結合として見る視覚言語モデリングネットワーク(VisionLAN)を提案する。
VisionLANは39%のスピード向上を実現し、正確な認識のための視覚的特徴を高めるために言語情報を適応的に検討する。
論文 参考訳(メタデータ) (2021-08-22T07:56:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。