論文の概要: T-VSE: Transformer-Based Visual Semantic Embedding
- arxiv url: http://arxiv.org/abs/2005.08399v1
- Date: Sun, 17 May 2020 23:40:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 05:43:07.524363
- Title: T-VSE: Transformer-Based Visual Semantic Embedding
- Title(参考訳): T-VSE: トランスフォーマーベースのビジュアルセマンティック埋め込み
- Authors: Muhammet Bastan, Arnau Ramisa, Mehmet Tek
- Abstract要約: トランスフォーマーをベースとしたクロスモーダル埋め込みは,電子商取引製品イメージタイトルペアの大規模なデータセットでトレーニングした場合,ワード平均やRNNベースの埋め込みをはるかに上回ることを示す。
- 参考スコア(独自算出の注目度): 5.317624228510748
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer models have recently achieved impressive performance on NLP
tasks, owing to new algorithms for self-supervised pre-training on very large
text corpora. In contrast, recent literature suggests that simple average word
models outperform more complicated language models, e.g., RNNs and
Transformers, on cross-modal image/text search tasks on standard benchmarks,
like MS COCO. In this paper, we show that dataset scale and training strategy
are critical and demonstrate that transformer-based cross-modal embeddings
outperform word average and RNN-based embeddings by a large margin, when
trained on a large dataset of e-commerce product image-title pairs.
- Abstract(参考訳): トランスフォーマーモデルは、非常に大きなテキストコーパス上での自己教師付き事前学習のための新しいアルゴリズムのおかげで、NLPタスクにおいて印象的なパフォーマンスを達成した。
対照的に、最近の文献では、単純な平均語モデルは、MS COCOのような標準ベンチマーク上のクロスモーダル画像/テキスト検索タスクにおいて、RNNやTransformerのようなより複雑な言語モデルよりも優れていることを示唆している。
本稿では,データセットのスケールとトレーニング戦略が重要であり,トランスフォーマティブベースのクロスモーダル組込みが,eコマース製品イメージタイトルペアの大規模なデータセット上でトレーニングされた場合,単語平均やrnnベースの組込みよりも大きなマージンがあることを実証する。
関連論文リスト
- HTR-VT: Handwritten Text Recognition with Vision Transformer [7.997204893256558]
手書き文字認識における視覚変換器(ViT)の適用について検討する。
以前のトランスフォーマーベースのモデルでは、外部データや大規模なデータセットの広範な事前トレーニングが必要だった。
元のパッチ埋め込みの代わりに特徴抽出にConAwareal Neural Network(CNN)を導入し,シャープネス最小化(SAM)エンコーダを用いることで,モデルがフラットなミニマに向けて収束することを保証している。
論文 参考訳(メタデータ) (2024-09-13T06:46:23Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - Extensive Evaluation of Transformer-based Architectures for Adverse Drug
Events Extraction [6.78974856327994]
逆イベント(ADE)抽出は、デジタル製薬における中核的なタスクの1つである。
我々は、非公式テキストを用いたADE抽出のための19のトランスフォーマーモデルを評価する。
分析の最後には、実験データから導出可能なテイクホームメッセージのリストを同定する。
論文 参考訳(メタデータ) (2023-06-08T15:25:24Z) - Optimizing Non-Autoregressive Transformers with Contrastive Learning [74.46714706658517]
非自己回帰変換器(NAT)は、逐次順序ではなく全ての単語を同時に予測することにより、自動回帰変換器(AT)の推論遅延を低減する。
本稿では,データ分布ではなく,モデル分布からのサンプリングによるモダリティ学習の容易化を提案する。
論文 参考訳(メタデータ) (2023-05-23T04:20:13Z) - Pre-Training a Graph Recurrent Network for Language Representation [34.4554387894105]
本稿では,言語モデルの事前学習のためのグラフリカレントネットワークについて考察し,各シーケンスのグラフ構造を局所的なトークンレベルの通信で構築する。
我々のモデルは、既存の注意に基づくモデルよりもコンテキスト化された特徴冗長性が少なく、より多様な出力を生成することができる。
論文 参考訳(メタデータ) (2022-09-08T14:12:15Z) - N-Grammer: Augmenting Transformers with latent n-grams [35.39961549040385]
本稿では,テキストシーケンスの離散潜在表現から構築したn-gramでモデルを拡張することにより,統計言語モデリングの文献に触発されたトランスフォーマーアーキテクチャの簡易かつ効果的な変更を提案する。
我々は、C4データセットの言語モデリングにおけるN-GrammerモデルとSuperGLUEデータセットのテキスト分類を評価し、TransformerやPrimerといった強力なベースラインよりも優れていることを発見した。
論文 参考訳(メタデータ) (2022-07-13T17:18:02Z) - HETFORMER: Heterogeneous Transformer with Sparse Attention for Long-Text
Extractive Summarization [57.798070356553936]
HETFORMERはトランスフォーマーをベースとした事前学習モデルであり、抽出要約のための多粒度スパースアテンションを持つ。
単一文書と複数文書の要約タスクの実験から,HETFORMERがルージュF1の最先端性能を達成することが示された。
論文 参考訳(メタデータ) (2021-10-12T22:42:31Z) - Discriminative and Generative Transformer-based Models For Situation
Entity Classification [8.029049649310211]
我々は、状況エンティティ(SE)分類タスクを、利用可能なトレーニングデータの量に応じて再検討する。
変換器を用いた変分オートエンコーダを用いて文を低次元の潜在空間に符号化する。
論文 参考訳(メタデータ) (2021-09-15T17:07:07Z) - SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。
既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文 参考訳(メタデータ) (2021-01-02T01:15:57Z) - Mixup-Transformer: Dynamic Data Augmentation for NLP Tasks [75.69896269357005]
Mixupは、入力例と対応するラベルを線形に補間する最新のデータ拡張技術である。
本稿では,自然言語処理タスクにmixupを適用する方法について検討する。
我々は、様々なNLPタスクに対して、mixup-transformerと呼ばれる、トランスフォーマーベースの事前学習アーキテクチャにmixupを組み込んだ。
論文 参考訳(メタデータ) (2020-10-05T23:37:30Z) - Learning Source Phrase Representations for Neural Machine Translation [65.94387047871648]
本稿では,対応するトークン表現から句表現を生成可能な注意句表現生成機構を提案する。
実験では,強力なトランスフォーマーベースライン上でのWMT 14の英語・ドイツ語・英語・フランス語タスクにおいて,大幅な改善が得られた。
論文 参考訳(メタデータ) (2020-06-25T13:43:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。