Fugu-MT 論文翻訳(概要): TextManiA: Enriching Visual Feature by Text-driven Manifold Augmentation

論文の概要: TextManiA: Enriching Visual Feature by Text-driven Manifold Augmentation

arxiv url: http://arxiv.org/abs/2307.14611v3
Date: Mon, 11 Sep 2023 05:15:31 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-12 19:17:46.246819
Title: TextManiA: Enriching Visual Feature by Text-driven Manifold Augmentation
Title（参考訳）: TextManiA: テキスト駆動マニフォールド拡張による視覚機能強化
Authors: Moon Ye-Bin, Jisoo Kim, Hongyeob Kim, Kilho Son, Tae-Hyun Oh
Abstract要約: 視覚的特徴空間を意味的に強化するテキスト駆動型多様体拡張法であるTextManiAを提案する。 TextManiAは、理解しやすい視覚的模倣語を活用することで、クラス内のセマンティック摂動で視覚データを増強する。実験の結果,TextManiAはクラス不均衡や分布の少ないサンプルでは特に強力であることがわかった。
参考スコア（独自算出の注目度）: 20.00366398989886
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We propose TextManiA, a text-driven manifold augmentation method that semantically enriches visual feature spaces, regardless of class distribution. TextManiA augments visual data with intra-class semantic perturbation by exploiting easy-to-understand visually mimetic words, i.e., attributes. This work is built on an interesting hypothesis that general language models, e.g., BERT and GPT, encompass visual information to some extent, even without training on visual training data. Given the hypothesis, TextManiA transfers pre-trained text representation obtained from a well-established large language encoder to a target visual feature space being learned. Our extensive analysis hints that the language encoder indeed encompasses visual information at least useful to augment visual representation. Our experiments demonstrate that TextManiA is particularly powerful in scarce samples with class imbalance as well as even distribution. We also show compatibility with the label mix-based approaches in evenly distributed scarce data.
Abstract（参考訳）: クラス分布に関係なく視覚的特徴空間を意味的に強化するテキスト駆動型多様体拡張法であるTextManiAを提案する。 TextManiAは、理解しやすい視覚的模倣語、すなわち属性を利用して、クラス内の意味摂動で視覚データを増強する。この研究は、例えばBERTやGPTといった一般的な言語モデルが、視覚訓練データに関するトレーニングをしなくてもある程度視覚情報を包含する、という興味深い仮説に基づいている。この仮説を前提として、TextManiAは、十分に確立された大言語エンコーダから得られた訓練済みのテキスト表現を、学習対象の視覚的特徴空間に転送する。広範に分析した結果,言語エンコーダには視覚情報が含まれることが示唆された。実験の結果,TextManiAはクラス不均衡や分布の少ないサンプルでは特に強力であることがわかった。また、均等に分散した不足データに対するラベルミックスベースアプローチとの互換性を示す。

関連論文リスト

Text-driven Multiplanar Visual Interaction for Semi-supervised Medical Image Segmentation [48.76848912120607]
半教師付き医用画像セグメンテーションは,高コストなデータアノテーションを緩和するための重要な手法である。半教師型医用画像セグメンテーションのための新しいテキスト駆動型多面的視覚インタラクションフレームワーク(Termed Text-SemiSeg)を提案する。我々のフレームワークは3つの主要なモジュールで構成されている。テキスト強化多平面表現(TMR)、カテゴリー認識セマンティックアライメント(CSA)、動的認知強化(DCA)である。
論文参考訳（メタデータ） (2025-07-16T16:29:30Z)
Augmenting a Large Language Model with a Combination of Text and Visual Data for Conversational Visualization of Global Geospatial Data [51.57559025799189]
本稿では,Large Language Model (LLM) をテキストと視覚データの組み合わせで拡張する手法を提案する。可視化とデータセットのテキスト記述と視覚化のスナップショットを組み合わせることでこの問題に対処する。
論文参考訳（メタデータ） (2025-01-16T13:16:37Z)
Enhancing Visual Representation for Text-based Person Searching [9.601697802095119]
VFE-TPSは、ビジュアルフィーチャ強化テキストベースのPerson Searchモデルである。基本的なマルチモーダル機能を学ぶために、トレーニング済みのバックボーンCLIPを導入する。 Text Guided Masked Image Modelingタスクを構築し、局所的な視覚的詳細を学習するモデルの能力を強化する。
論文参考訳（メタデータ） (2024-12-30T01:38:14Z)
SE-GCL: An Event-Based Simple and Effective Graph Contrastive Learning for Text Representation [23.60337935010744]
テキスト表現のためのイベントベース,シンプル,効果的なグラフコントラスト学習(SE-GCL)を提案する。正確には、テキストからイベントブロックを抽出し、意味的相互接続を表す内部関係グラフを構築する。特に、コア表現セマンティクスのためのイベントスケルトンの概念を導入し、典型的には複雑なデータ拡張テクニックを単純化する。
論文参考訳（メタデータ） (2024-12-16T10:53:24Z)
The Solution for Language-Enhanced Image New Category Discovery [5.500122875523184]
本稿では,CLIPのトレーニングプロセスの反転とPseudo Visual Promptsの概念の導入を提案する。これらのプロンプトは各対象カテゴリに対して行われ、大規模で低コストな文データに基づいて事前訓練される。次に、コントラスト学習を用いて、記憶された視覚情報をテキストラベルに転送し、その視覚表現能力を高める。
論文参考訳（メタデータ） (2024-07-06T08:09:29Z)
Instructing Prompt-to-Prompt Generation for Zero-Shot Learning [116.33775552866476]
伝達可能な知識発見のための指導的視覚的プロンプトを蒸留するためのtextbfPrompt-to-textbfPrompt 生成手法 (textbfP2P) を提案する。 P2Pのコアとなるのは、アクセシブル条件付き視覚特徴と、モーダル共有セマンティック概念に関するテキスト命令からセマンティック関連命令をマイニングすることである。
論文参考訳（メタデータ） (2024-06-05T07:59:48Z)
CLIP-Count: Towards Text-Guided Zero-Shot Object Counting [32.07271723717184]
オープン語彙オブジェクトの密度マップをゼロショットで推定する,最初のエンドツーエンドパイプラインであるCLIP-Countを提案する。テキスト埋め込みを濃密な視覚特徴と整合させるため、我々は、密集した予測のための情報的パッチレベルの視覚表現を学習するために、モデルを誘導するパッチテキストコントラスト損失を導入する。本手法は,対象物に対する高品質な密度マップを効果的に生成する。
論文参考訳（メタデータ） (2023-05-12T08:19:39Z)
Semantic Prompt for Few-Shot Image Recognition [76.68959583129335]
本稿では,数ショット学習のための新しいセマンティック・プロンプト(SP)手法を提案する。提案手法は,1ショットの学習精度を平均3.67%向上させることにより,有望な結果が得られる。
論文参考訳（メタデータ） (2023-03-24T16:32:19Z)
Visual-Semantic Contrastive Alignment for Few-Shot Image Classification [1.109560166867076]
Few-Shot Learningは、いくつかのラベル付き例で、目に見えない視覚クラスに適応可能なモデルをトレーニングすることを目的としている。視覚的特徴ベクトルと意味的特徴ベクトルの対比的なアライメント機構を導入し、より一般化された視覚概念を学習する。本手法は,視覚カテゴリーの文脈的知識を抽出する補助的コントラスト学習目的を単純に付加する。
論文参考訳（メタデータ） (2022-10-20T03:59:40Z)
Brief Introduction to Contrastive Learning Pretext Tasks for Visual Representation [0.0]
教師なし学習手法のサブセットであるコントラスト学習を導入する。対照的な学習の目的は、互いに近くにある同じサンプルから強化されたサンプルを埋め込んで、そうでないサンプルを押し下げることである。我々は、最近公開されたコントラスト学習の戦略をいくつか提示し、視覚表現のためのプレテキストタスクに焦点を当てている。
論文参考訳（メタデータ） (2022-10-06T18:54:10Z)
Visually-Augmented Language Modeling [137.36789885105642]
本稿では,言語モデリングのための関連画像を含むテキストトークンを視覚的に拡張する,VaLMという新しい事前学習フレームワークを提案する。視覚的に拡張されたコンテキストでは、VaLMは視覚知識融合層を使用してマルチモーダル基底言語モデリングを可能にする。視覚情報を必要とする多モーダル・コモンセンス推論タスクについて,提案モデルの評価を行った。
論文参考訳（メタデータ） (2022-05-20T13:41:12Z)
Language Matters: A Weakly Supervised Pre-training Approach for Scene Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文参考訳（メタデータ） (2022-03-08T08:10:45Z)
Integrating Visuospatial, Linguistic and Commonsense Structure into Story Visualization [81.26077816854449]
まず、構造的入力を符号化するための選挙区解析木の利用について検討する。第二に、構造化されたインプットをコモンセンス情報で強化し、この外部知識が視覚的ストーリーの生成に与える影響について検討する。第3に、境界ボックスと高密度キャプションによって視覚構造を組み込んで、生成された画像の文字やオブジェクトに関するフィードバックを提供する。
論文参考訳（メタデータ） (2021-10-21T00:16:02Z)
From Two to One: A New Scene Text Recognizer with Visual Language Modeling Network [70.47504933083218]
本稿では,視覚情報と言語情報を結合として見る視覚言語モデリングネットワーク(VisionLAN)を提案する。 VisionLANは39%のスピード向上を実現し、正確な認識のための視覚的特徴を高めるために言語情報を適応的に検討する。
論文参考訳（メタデータ） (2021-08-22T07:56:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。