論文の概要: TextManiA: Enriching Visual Feature by Text-driven Manifold Augmentation
- arxiv url: http://arxiv.org/abs/2307.14611v3
- Date: Mon, 11 Sep 2023 05:15:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-12 19:17:46.246819
- Title: TextManiA: Enriching Visual Feature by Text-driven Manifold Augmentation
- Title(参考訳): TextManiA: テキスト駆動マニフォールド拡張による視覚機能強化
- Authors: Moon Ye-Bin, Jisoo Kim, Hongyeob Kim, Kilho Son, Tae-Hyun Oh
- Abstract要約: 視覚的特徴空間を意味的に強化するテキスト駆動型多様体拡張法であるTextManiAを提案する。
TextManiAは、理解しやすい視覚的模倣語を活用することで、クラス内のセマンティック摂動で視覚データを増強する。
実験の結果,TextManiAはクラス不均衡や分布の少ないサンプルでは特に強力であることがわかった。
- 参考スコア(独自算出の注目度): 20.00366398989886
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose TextManiA, a text-driven manifold augmentation method that
semantically enriches visual feature spaces, regardless of class distribution.
TextManiA augments visual data with intra-class semantic perturbation by
exploiting easy-to-understand visually mimetic words, i.e., attributes. This
work is built on an interesting hypothesis that general language models, e.g.,
BERT and GPT, encompass visual information to some extent, even without
training on visual training data. Given the hypothesis, TextManiA transfers
pre-trained text representation obtained from a well-established large language
encoder to a target visual feature space being learned. Our extensive analysis
hints that the language encoder indeed encompasses visual information at least
useful to augment visual representation. Our experiments demonstrate that
TextManiA is particularly powerful in scarce samples with class imbalance as
well as even distribution. We also show compatibility with the label mix-based
approaches in evenly distributed scarce data.
- Abstract(参考訳): クラス分布に関係なく視覚的特徴空間を意味的に強化するテキスト駆動型多様体拡張法であるTextManiAを提案する。
TextManiAは、理解しやすい視覚的模倣語、すなわち属性を利用して、クラス内の意味摂動で視覚データを増強する。
この研究は、例えばBERTやGPTといった一般的な言語モデルが、視覚訓練データに関するトレーニングをしなくてもある程度視覚情報を包含する、という興味深い仮説に基づいている。
この仮説を前提として、TextManiAは、十分に確立された大言語エンコーダから得られた訓練済みのテキスト表現を、学習対象の視覚的特徴空間に転送する。
広範に分析した結果,言語エンコーダには視覚情報が含まれることが示唆された。
実験の結果,TextManiAはクラス不均衡や分布の少ないサンプルでは特に強力であることがわかった。
また、均等に分散した不足データに対するラベルミックスベースアプローチとの互換性を示す。
関連論文リスト
- Augmenting a Large Language Model with a Combination of Text and Visual Data for Conversational Visualization of Global Geospatial Data [51.57559025799189]
本稿では,Large Language Model (LLM) をテキストと視覚データの組み合わせで拡張する手法を提案する。
可視化とデータセットのテキスト記述と視覚化のスナップショットを組み合わせることでこの問題に対処する。
論文 参考訳(メタデータ) (2025-01-16T13:16:37Z) - Enhancing Visual Representation for Text-based Person Searching [9.601697802095119]
VFE-TPSは、ビジュアルフィーチャ強化テキストベースのPerson Searchモデルである。
基本的なマルチモーダル機能を学ぶために、トレーニング済みのバックボーンCLIPを導入する。
Text Guided Masked Image Modelingタスクを構築し、局所的な視覚的詳細を学習するモデルの能力を強化する。
論文 参考訳(メタデータ) (2024-12-30T01:38:14Z) - SE-GCL: An Event-Based Simple and Effective Graph Contrastive Learning for Text Representation [23.60337935010744]
テキスト表現のためのイベントベース,シンプル,効果的なグラフコントラスト学習(SE-GCL)を提案する。
正確には、テキストからイベントブロックを抽出し、意味的相互接続を表す内部関係グラフを構築する。
特に、コア表現セマンティクスのためのイベントスケルトンの概念を導入し、典型的には複雑なデータ拡張テクニックを単純化する。
論文 参考訳(メタデータ) (2024-12-16T10:53:24Z) - The Solution for Language-Enhanced Image New Category Discovery [5.500122875523184]
本稿では,CLIPのトレーニングプロセスの反転とPseudo Visual Promptsの概念の導入を提案する。
これらのプロンプトは各対象カテゴリに対して行われ、大規模で低コストな文データに基づいて事前訓練される。
次に、コントラスト学習を用いて、記憶された視覚情報をテキストラベルに転送し、その視覚表現能力を高める。
論文 参考訳(メタデータ) (2024-07-06T08:09:29Z) - CLIP-Count: Towards Text-Guided Zero-Shot Object Counting [32.07271723717184]
オープン語彙オブジェクトの密度マップをゼロショットで推定する,最初のエンドツーエンドパイプラインであるCLIP-Countを提案する。
テキスト埋め込みを濃密な視覚特徴と整合させるため、我々は、密集した予測のための情報的パッチレベルの視覚表現を学習するために、モデルを誘導するパッチテキストコントラスト損失を導入する。
本手法は,対象物に対する高品質な密度マップを効果的に生成する。
論文 参考訳(メタデータ) (2023-05-12T08:19:39Z) - Semantic Prompt for Few-Shot Image Recognition [76.68959583129335]
本稿では,数ショット学習のための新しいセマンティック・プロンプト(SP)手法を提案する。
提案手法は,1ショットの学習精度を平均3.67%向上させることにより,有望な結果が得られる。
論文 参考訳(メタデータ) (2023-03-24T16:32:19Z) - Visually-Augmented Language Modeling [137.36789885105642]
本稿では,言語モデリングのための関連画像を含むテキストトークンを視覚的に拡張する,VaLMという新しい事前学習フレームワークを提案する。
視覚的に拡張されたコンテキストでは、VaLMは視覚知識融合層を使用してマルチモーダル基底言語モデリングを可能にする。
視覚情報を必要とする多モーダル・コモンセンス推論タスクについて,提案モデルの評価を行った。
論文 参考訳(メタデータ) (2022-05-20T13:41:12Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z) - Integrating Visuospatial, Linguistic and Commonsense Structure into
Story Visualization [81.26077816854449]
まず、構造的入力を符号化するための選挙区解析木の利用について検討する。
第二に、構造化されたインプットをコモンセンス情報で強化し、この外部知識が視覚的ストーリーの生成に与える影響について検討する。
第3に、境界ボックスと高密度キャプションによって視覚構造を組み込んで、生成された画像の文字やオブジェクトに関するフィードバックを提供する。
論文 参考訳(メタデータ) (2021-10-21T00:16:02Z) - From Two to One: A New Scene Text Recognizer with Visual Language
Modeling Network [70.47504933083218]
本稿では,視覚情報と言語情報を結合として見る視覚言語モデリングネットワーク(VisionLAN)を提案する。
VisionLANは39%のスピード向上を実現し、正確な認識のための視覚的特徴を高めるために言語情報を適応的に検討する。
論文 参考訳(メタデータ) (2021-08-22T07:56:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。