論文の概要: Classifying Textual Data with Pre-trained Vision Models through Transfer
Learning and Data Transformations
- arxiv url: http://arxiv.org/abs/2106.12479v1
- Date: Wed, 23 Jun 2021 15:53:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-24 15:36:43.325140
- Title: Classifying Textual Data with Pre-trained Vision Models through Transfer
Learning and Data Transformations
- Title(参考訳): トランスファーラーニングとデータ変換による事前学習視覚モデルによるテキストデータの分類
- Authors: Charaf Eddine Benarab
- Abstract要約: 我々は、ImageNetで訓練されたベンチマークビジョンモデルによって得られた知識を用いて、より小さなアーキテクチャがテキストの分類を学ぶのを助けることを提案する。
異なるドメインの分析と転送学習を行う。
この研究の主な貢献は、言語とビジョンの両方で事前訓練された大きなモデルを結びつけて、最先端の結果を得るという、新しいアプローチである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Knowledge is acquired by humans through experience, and no boundary is set
between the kinds of knowledge or skill levels we can achieve on different
tasks at the same time. When it comes to Neural Networks, that is not the case,
the major breakthroughs in the field are extremely task and domain specific.
Vision and language are dealt with in separate manners, using separate methods
and different datasets. In this work, we propose to use knowledge acquired by
benchmark Vision Models which are trained on ImageNet to help a much smaller
architecture learn to classify text. After transforming the textual data
contained in the IMDB dataset to gray scale images. An analysis of different
domains and the Transfer Learning method is carried out. Despite the challenge
posed by the very different datasets, promising results are achieved. The main
contribution of this work is a novel approach which links large pretrained
models on both language and vision to achieve state-of-the-art results in
different sub-fields from the original task. Without needing high compute
capacity resources. Specifically, Sentiment Analysis is achieved after
transferring knowledge between vision and language models. BERT embeddings are
transformed into grayscale images, these images are then used as training
examples for pretrained vision models such as VGG16 and ResNet
Index Terms: Natural language, Vision, BERT, Transfer Learning, CNN, Domain
Adaptation.
- Abstract(参考訳): 知識は経験を通じて人間によって獲得され、異なるタスクで同時に達成できる知識の種類やスキルレベルの境界は設定されない。
ニューラルネットワークに関しては、そうではありませんが、この分野における大きなブレークスルーは極めてタスクとドメイン特化です。
ビジョンと言語は別々の方法で処理され、別々のメソッドと異なるデータセットを使用する。
本稿では,imagenetでトレーニングされたベンチマークビジョンモデルによって得られた知識を用いて,より小さなアーキテクチャでテキストの分類を学ぶことを提案する。
IMDBデータセットに含まれるテキストデータをグレースケールイメージに変換する。
異なる領域の解析と転送学習法を実行する。
まったく異なるデータセットによる課題にもかかわらず、有望な結果が得られます。
この研究の主な貢献は、言語とビジョンの両方で事前訓練された大きなモデルを結びつけて、元のタスクと異なるサブフィールドで最新の結果を達成する、新しいアプローチである。
計算能力の高いリソースを必要とせず
具体的には、視覚と言語モデル間の知識を転送して感情分析を行う。
BERT埋め込みはグレースケールのイメージに変換され、これらのイメージはVGG16やResNet Index Terms:自然言語、ビジョン、BERT、Transfer Learning、CNN、ドメイン適応といった事前訓練されたビジョンモデルのトレーニング例として使用される。
関連論文リスト
- Enhancing Vision Models for Text-Heavy Content Understanding and Interaction [0.0]
画像エンコーディングのためのCLIPとMassive Text Embedding Benchmarkのモデルを統合したビジュアルチャットアプリケーションを構築した。
プロジェクトの目的は、複雑な視覚的テキストデータ相互接続データの理解において、先進視覚モデルの能力を高め、強化することである。
論文 参考訳(メタデータ) (2024-05-31T15:17:47Z) - Heuristic Vision Pre-Training with Self-Supervised and Supervised
Multi-Task Learning [0.0]
マルチタスク方式で自己教師型と教師型の両方の視覚的プレテキストタスクを採用することで、新しい事前学習フレームワークを提案する。
その結果、事前学習したモデルでは、複数の視覚的タスクにおいて、最先端(SOTA)結果と同等以上の結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-11T14:06:04Z) - Diversify Your Vision Datasets with Automatic Diffusion-Based
Augmentation [66.6546668043249]
ALIA(Automated Language-Guided Image Augmentation)は、大規模ビジョンと言語モデルを用いてデータセットのドメインの自然言語記述を自動的に生成する手法である。
データ整合性を維持するために、オリジナルのデータセットでトレーニングされたモデルは、最小限の画像編集とクラス関連情報を破損したデータをフィルタリングする。
そこで本研究では,ALIAが従来のデータ拡張や,詳細な分類作業におけるテキストから画像への変換を超越できることを示す。
論文 参考訳(メタデータ) (2023-05-25T17:43:05Z) - Vision Learners Meet Web Image-Text Pairs [32.36188289972377]
本研究では,ノイズの多いWebソースと画像テキストのペアデータに対する自己教師付き事前学習について検討する。
マスク付きトレーニング目標を用いたシングルモーダルトレーニングや,画像テキストコンストラシティブトレーニングを用いたマルチモーダルトレーニングなど,さまざまな手法を比較した。
我々は、スケーラブルなWebソース画像テキストデータから学習する新しいビジュアル表現事前学習手法MUlti-modal Generator(MUG)を提案する。
論文 参考訳(メタデータ) (2023-01-17T18:53:24Z) - Context-driven Visual Object Recognition based on Knowledge Graphs [0.8701566919381223]
本稿では,知識グラフに符号化された外部文脈知識を用いて,ディープラーニング手法を強化する手法を提案する。
我々は、異なる文脈ビューが同じ画像データセットの学習対象表現に与える影響を調べるために、一連の実験を行った。
論文 参考訳(メタデータ) (2022-10-20T13:09:00Z) - Retrieval-Augmented Transformer for Image Captioning [51.79146669195357]
我々は、kNNメモリを用いた画像キャプション手法を開発し、外部コーパスから知識を抽出して生成プロセスを支援する。
我々のアーキテクチャは、視覚的類似性に基づく知識検索と、識別可能なエンコーダと、トークンを予測するためにkNN拡張アテンション層を組み合わせる。
COCOデータセットで実施した実験結果は、明示的な外部メモリを利用することで、生成プロセスの助けとなり、キャプションの品質が向上することを示した。
論文 参考訳(メタデータ) (2022-07-26T19:35:49Z) - K-LITE: Learning Transferable Visual Models with External Knowledge [242.3887854728843]
K-LITE (Knowledge-augmented Language- Image Training and Evaluation) は、外部知識を活用して伝達可能な視覚システムを構築する戦略である。
トレーニングでは、WordNetとWiktionaryの知識で自然言語のエンティティを豊かにする。
評価において、自然言語は外部知識で拡張され、学習された視覚概念を参照するために使用される。
論文 参考訳(メタデータ) (2022-04-20T04:47:01Z) - Align before Fuse: Vision and Language Representation Learning with
Momentum Distillation [52.40490994871753]
本稿では,ALBEF (BEfore Fusing) の表現に対して,モーダルな注意を通したコントラスト的損失を導入する。
本研究では,運動量モデルで生成した擬似ターゲットから学習する自己学習法である運動量蒸留を提案する。
ALBEFは、複数の下流視覚言語タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-07-16T00:19:22Z) - Factors of Influence for Transfer Learning across Diverse Appearance
Domains and Task Types [50.1843146606122]
現在の最新のコンピュータビジョンモデルでは、簡単な転送学習が一般的です。
転校学習に関するこれまでの体系的な研究は限られており、作業が期待される状況は十分に理解されていない。
本論文では,非常に異なる画像領域にまたがる転送学習の広範な実験的研究を行う。
論文 参考訳(メタデータ) (2021-03-24T16:24:20Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。