論文の概要: ITEm: Unsupervised Image-Text Embedding Learning for eCommerce
- arxiv url: http://arxiv.org/abs/2311.02084v1
- Date: Sun, 22 Oct 2023 15:39:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-12 19:57:41.580451
- Title: ITEm: Unsupervised Image-Text Embedding Learning for eCommerce
- Title(参考訳): ITEm:eコマースのための教師なしイメージテキスト埋め込み学習
- Authors: Baohao Liao, Michael Kozielski, Sanjika Hewavitharana, Jiangbo Yuan,
Shahram Khadivi, Tomer Lancewicki
- Abstract要約: 製品埋め込みは、電子商取引における幅広い応用の基礎となる。
本稿では,画像とテキストのモダリティによく対応できる画像テキスト埋め込みモデル(ITEm)を提案する。
我々は、非常に類似した商品の探索と製品カテゴリーの予測という2つのタスクにおいて、事前訓練されたITTmを評価する。
- 参考スコア(独自算出の注目度): 9.307841602452678
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Product embedding serves as a cornerstone for a wide range of applications in
eCommerce. The product embedding learned from multiple modalities shows
significant improvement over that from a single modality, since different
modalities provide complementary information. However, some modalities are more
informatively dominant than others. How to teach a model to learn embedding
from different modalities without neglecting information from the less dominant
modality is challenging. We present an image-text embedding model (ITEm), an
unsupervised learning method that is designed to better attend to image and
text modalities. We extend BERT by (1) learning an embedding from text and
image without knowing the regions of interest; (2) training a global
representation to predict masked words and to construct masked image patches
without their individual representations. We evaluate the pre-trained ITEm on
two tasks: the search for extremely similar products and the prediction of
product categories, showing substantial gains compared to strong baseline
models.
- Abstract(参考訳): プロダクトの埋め込みは、eコマースにおける幅広いアプリケーションの基盤となる。
複数のモダリティから学んだ製品埋め込みは、異なるモダリティが補完的な情報を提供するため、単一のモダリティからそれよりも大きな改善を示している。
しかし、いくつかのモダリティは他のモダリティよりも情報的に優位である。
より支配的なモダリティからの情報を無視することなく、異なるモダリティから埋め込みを学ぶためのモデルを教える方法は難しい。
本稿では,画像とテキストのモダリティをよりよく扱うために,教師なし学習手法である画像テキスト埋め込みモデル(ITEm)を提案する。
bertを拡張して,(1)興味のある領域を知らずにテキストや画像から埋め込みを学習し,(2)グローバル表現を訓練してマスクされた単語を予測し,個々の表現を伴わずにマスク画像パッチを構築する。
我々は,非常に類似した商品の探索と,製品カテゴリーの予測という2つのタスクについて事前学習した項目を評価し,強力なベースラインモデルと比較してかなりの利益を示した。
関連論文リスト
- TIPS: Text-Image Pretraining with Spatial Awareness [13.38247732379754]
自己教師付き画像のみの事前訓練は、多くの視覚的応用にとって依然としてゴートな方法である。
本稿では,高密度かつ大域的な視覚タスクに有効な汎用画像テキストモデルを提案する。
論文 参考訳(メタデータ) (2024-10-21T21:05:04Z) - Weakly-Supervised Visual-Textual Grounding with Semantic Prior
Refinement [52.80968034977751]
画像-文ペアのみを用いて、弱い教師付き視覚-テクスチュアルグラウンドは、各エンティティの言及の領域-フレーズ対応を学習することを目的としている。
本稿では,2つの主モジュールの出力を組み合わせて予測を行うセマンティック・プライオリファインメント・モデル(SPRM)を提案する。
このアプローチでは、Flickr30k EntitiesとReferItの2つの一般的なデータセットに対する最先端の結果が9.6%の絶対的な改善で示されている。
論文 参考訳(メタデータ) (2023-05-18T12:25:07Z) - Learning Transferable Pedestrian Representation from Multimodal
Information Supervision [174.5150760804929]
VAL-PATは、移動可能な表現を学習し、様々な歩行者分析タスクをマルチモーダル情報で強化する新しいフレームワークである。
まず、LUPerson-TAデータセットで事前トレーニングを行い、各画像にはテキストと属性アノテーションが含まれている。
次に、学習した表現を、人物のreID、人物属性認識、テキストベースの人物検索など、さまざまな下流タスクに転送する。
論文 参考訳(メタデータ) (2023-04-12T01:20:58Z) - Multi-Modal Representation Learning with Text-Driven Soft Masks [48.19806080407593]
自己教師型学習フレームワークにおける視覚言語表現学習手法を提案する。
画像中の領域をソフトメイキングすることで、画像テキストマッチング(ITM)タスクの多様な特徴を生成する。
マルチモーダルエンコーダを用いて単語条件の視覚的注意を計算し,各単語に関連する領域を同定する。
論文 参考訳(メタデータ) (2023-04-03T05:07:49Z) - e-CLIP: Large-Scale Vision-Language Representation Learning in
E-commerce [9.46186546774799]
本研究では,未ラベルの製品テキストや画像を用いて,言語モデルと視覚モデルとを整合させるコントラスト学習フレームワークを提案する。
我々は、大規模表現学習モデルを訓練し、ドメイン固有の課題に対処するソリューションを共有するために使用したテクニックを提示する。
論文 参考訳(メタデータ) (2022-07-01T05:16:47Z) - Visually-Augmented Language Modeling [137.36789885105642]
本稿では,言語モデリングのための関連画像を含むテキストトークンを視覚的に拡張する,VaLMという新しい事前学習フレームワークを提案する。
視覚的に拡張されたコンテキストでは、VaLMは視覚知識融合層を使用してマルチモーダル基底言語モデリングを可能にする。
視覚情報を必要とする多モーダル・コモンセンス推論タスクについて,提案モデルの評価を行った。
論文 参考訳(メタデータ) (2022-05-20T13:41:12Z) - Multimodal Semi-Supervised Learning for Text Recognition [10.33262222726707]
本稿では,モダリティ学習の各段階におけるラベルなしデータを活用する多モーダルテキスト認識器(SemiMTR)について半教師付き学習を行う。
我々のアルゴリズムは、教師あり学習と自己教師あり学習を一体化する一段階の訓練を通して、視覚モデルを事前訓練することから始まる。
新たなセットアップでは、各モダリティに個別に一貫性が強制される。
論文 参考訳(メタデータ) (2022-05-08T13:55:30Z) - UNIMO-2: End-to-End Unified Vision-Language Grounded Learning [46.914284894632]
本稿では, エンドツーエンドの統一モーダル事前学習フレームワーク, UNIMO-2を提案する。
我々は、画像とテキスト間の視覚表現、テキスト表現、意味的アライメントを共同で学習する統合トランスフォーマーモデルを構築した。
コードとモデルは、UNIMOプロジェクトページで公開されています。
論文 参考訳(メタデータ) (2022-03-17T03:53:11Z) - Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic [72.60554897161948]
最近のテキストと画像のマッチングモデルは、未修正画像と文の大きなコーパスに対してコントラスト学習を適用している。
本研究では、そのようなモデルを用いて、推論時に画像が与えられた記述テキストを生成する。
結果として得られたキャプションは、教師付きキャプション法によるキャプションよりもはるかに制限を受けない。
論文 参考訳(メタデータ) (2021-11-29T11:01:49Z) - Align before Fuse: Vision and Language Representation Learning with
Momentum Distillation [52.40490994871753]
本稿では,ALBEF (BEfore Fusing) の表現に対して,モーダルな注意を通したコントラスト的損失を導入する。
本研究では,運動量モデルで生成した擬似ターゲットから学習する自己学習法である運動量蒸留を提案する。
ALBEFは、複数の下流視覚言語タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-07-16T00:19:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。