論文の概要: Multi-Modal Attribute Extraction for E-Commerce
- arxiv url: http://arxiv.org/abs/2203.03441v1
- Date: Mon, 7 Mar 2022 14:48:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-08 14:42:40.265940
- Title: Multi-Modal Attribute Extraction for E-Commerce
- Title(参考訳): 電子商取引におけるマルチモーダル属性抽出
- Authors: Alo\"is De la Comble, Anuvabh Dutt, Pablo Montalvo, Aghiles Salah
- Abstract要約: モダリティをシームレスに組み合わせるための新しいアプローチを開発しており、これは我々の単一モダリティ調査にインスパイアされている。
楽天・一葉データの実験は、我々のアプローチの利点の実証的な証拠を提供する。
- 参考スコア(独自算出の注目度): 4.626261940793027
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To improve users' experience as they navigate the myriad of options offered
by online marketplaces, it is essential to have well-organized product
catalogs. One key ingredient to that is the availability of product attributes
such as color or material. However, on some marketplaces such as
Rakuten-Ichiba, which we focus on, attribute information is often incomplete or
even missing. One promising solution to this problem is to rely on deep models
pre-trained on large corpora to predict attributes from unstructured data, such
as product descriptive texts and images (referred to as modalities in this
paper). However, we find that achieving satisfactory performance with this
approach is not straightforward but rather the result of several refinements,
which we discuss in this paper. We provide a detailed description of our
approach to attribute extraction, from investigating strong single-modality
methods, to building a solid multimodal model combining textual and visual
information. One key component of our multimodal architecture is a novel
approach to seamlessly combine modalities, which is inspired by our
single-modality investigations. In practice, we notice that this new
modality-merging method may suffer from a modality collapse issue, i.e., it
neglects one modality. Hence, we further propose a mitigation to this problem
based on a principled regularization scheme. Experiments on Rakuten-Ichiba data
provide empirical evidence for the benefits of our approach, which has been
also successfully deployed to Rakuten-Ichiba. We also report results on
publicly available datasets showing that our model is competitive compared to
several recent multimodal and unimodal baselines.
- Abstract(参考訳): オンラインマーケットプレースが提供する無数のオプションをナビゲートする上で、ユーザエクスペリエンスを向上させるためには、適切に整理された製品カタログを持つことが不可欠である。
ひとつ重要な要素は、色や素材などの製品属性が利用できることだ。
しかし、私たちが注目する落天一葉など一部の市場では、属性情報が不完全あるいは欠落していることが多い。
この問題に対する有望な解決策の1つは、大きなコーパスに事前訓練された深層モデルに頼り、製品記述テキストや画像などの非構造化データから属性を予測することである。
しかし,本論文では,本手法で満足な性能を実現することは容易ではなく,いくつかの改良の結果であることがわかった。
本稿では,属性抽出のアプローチについて,強い単一モダリティ法の検討から,テキスト情報と視覚情報を組み合わせた定型マルチモーダルモデルの構築まで,詳細な説明を行う。
マルチモーダルアーキテクチャの重要なコンポーネントのひとつは、単一モダリティ調査から着想を得た、シームレスにモダリティを結合する新しいアプローチです。
実際、この新しいモダリティマージ手法はモダリティ崩壊の問題、すなわち1つのモダリティを無視する可能性があることに気付く。
そこで本研究では,本問題に対する原理的正則化スキームに基づく緩和を提案する。
楽天一葉データを用いた実験は,楽天一葉への展開にも成功している。
また,最近のマルチモーダルベースラインやユニモーダルベースラインと比較して,我々のモデルが競争力があることを示すデータセットの公開結果も報告した。
関連論文リスト
- Versatile Medical Image Segmentation Learned from Multi-Source Datasets via Model Self-Disambiguation [9.068045557591612]
本稿では,トレーニングのために,部分的あるいはスパースなセグメンテーションラベルのみを用いたマルチソースデータを活用する,費用対効果の代替案を提案する。
我々は,非一貫性なラベル付きマルチソースデータに関わる課題に対処するために,自己曖昧性,事前知識の取り込み,不均衡緩和の戦略を考案する。
論文 参考訳(メタデータ) (2023-11-17T18:28:32Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Read, Look or Listen? What's Needed for Solving a Multimodal Dataset [7.0430001782867]
マルチモーダル・データセットを解析するための2段階の手法を提案する。これは、人間のアノテーションの小さなシードを利用して、各マルチモーダル・インスタンスをその処理に必要なモダリティにマッピングする。
ビデオ質問応答データセットであるTVQAに我々のアプローチを適用し、ほとんどの質問が特定のモダリティに対して実質的な偏見を伴わずに単一のモダリティで答えられることを発見した。
我々は、MERLOT Reserveを分析し、テキストや音声よりも画像に基づく質問に苦しむが、聴覚話者の識別にも苦しむことを発見した。
論文 参考訳(メタデータ) (2023-07-06T08:02:45Z) - Modeling Entities as Semantic Points for Visual Information Extraction
in the Wild [55.91783742370978]
文書画像から鍵情報を正確かつ堅牢に抽出する手法を提案する。
我々は、エンティティを意味的ポイントとして明示的にモデル化する。つまり、エンティティの中心点は、異なるエンティティの属性と関係を記述する意味情報によって豊かになる。
提案手法は,従来の最先端モデルと比較して,エンティティラベルとリンクの性能を著しく向上させることができる。
論文 参考訳(メタデータ) (2023-03-23T08:21:16Z) - Multi-Modal Experience Inspired AI Creation [33.34566822058209]
シーケンシャルなマルチモーダル情報に基づいてテキストを生成する方法について検討する。
まず,マルチモーダルアテンションネットワークを備えたマルチチャネルシーケンス・ツー・シーケンスアーキテクチャを設計する。
次に、逐次入力に適したカリキュラム負サンプリング戦略を提案する。
論文 参考訳(メタデータ) (2022-09-02T11:50:41Z) - Entity-Graph Enhanced Cross-Modal Pretraining for Instance-level Product
Retrieval [152.3504607706575]
本研究の目的は, 細粒度製品カテゴリを対象とした, 弱制御型マルチモーダル・インスタンスレベルの製品検索である。
まず、Product1Mデータセットをコントリビュートし、2つの実際のインスタンスレベルの検索タスクを定義します。
我々は、マルチモーダルデータから重要な概念情報を組み込むことができるより効果的なクロスモーダルモデルを訓練するために活用する。
論文 参考訳(メタデータ) (2022-06-17T15:40:45Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z) - Latent Structures Mining with Contrastive Modality Fusion for Multimedia
Recommendation [22.701371886522494]
マルチモーダルコンテンツに基づく潜在意味的項目-項目構造は,より優れた項目表現を学習する上で有益である,と我々は主張する。
モータリティを意識した構造学習モジュールを考案し,各モータリティの項目間関係を学習する。
論文 参考訳(メタデータ) (2021-11-01T03:37:02Z) - Product1M: Towards Weakly Supervised Instance-Level Product Retrieval
via Cross-modal Pretraining [108.86502855439774]
弱教師付きマルチモーダル・インスタンスレベルの製品検索を目的とした,より現実的な設定について検討する。
実世界のインスタンスレベルの検索において,最も大規模なマルチモーダル化粧品データセットであるProduct1Mをコントリビュートする。
ケースレベルの予測検索(CAPTURE)のためのクロスモーダル・コントラサシブ・プロダクト・トランスフォーマーという新しいモデルを提案する。
論文 参考訳(メタデータ) (2021-07-30T12:11:24Z) - Mining Latent Structures for Multimedia Recommendation [46.70109406399858]
本稿では,マルチモーダル再圧縮のためのLATent sTructureマイニング手法を提案する。
各モダリティの項目構造を学び、複数のモダリティを集約して潜在アイテムグラフを得る。
学習した潜在グラフに基づいてグラフ畳み込みを行い、アイテム表現に高次項目親和性を明示的に注入する。
論文 参考訳(メタデータ) (2021-04-19T03:50:24Z) - Automatic Validation of Textual Attribute Values in E-commerce Catalog
by Learning with Limited Labeled Data [61.789797281676606]
そこで我々はMetaBridgeと呼ばれる新しいメタ学習潜伏変数アプローチを提案する。
限られたラベル付きデータを持つカテゴリのサブセットから、転送可能な知識を学ぶことができる。
ラベルのないデータで、目に見えないカテゴリの不確実性を捉えることができる。
論文 参考訳(メタデータ) (2020-06-15T21:31:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。