論文の概要: Multimodal E-Commerce Product Classification Using Hierarchical Fusion
- arxiv url: http://arxiv.org/abs/2207.03305v1
- Date: Thu, 7 Jul 2022 14:04:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-08 20:22:51.436747
- Title: Multimodal E-Commerce Product Classification Using Hierarchical Fusion
- Title(参考訳): 階層的融合を用いたマルチモーダルEコマース製品分類
- Authors: Tsegaye Misikir Tashu, Sara Fattouh, Peter Kiss, Tomas Horvath
- Abstract要約: 提案手法は,本課題における一助モデルの性能と類似モデルの性能を有意に向上させた。
我々は,複数のヒューズ技術を用いて実験を行い,単一モーダルネットワークの個別埋め込みを結合する最も優れた手法は,結合と特徴ベクトルの平均化によるものであることを確認した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we present a multi-modal model for commercial product
classification, that combines features extracted by multiple neural network
models from textual (CamemBERT and FlauBERT) and visual data (SE-ResNeXt-50),
using simple fusion techniques. The proposed method significantly outperformed
the unimodal models' performance and the reported performance of similar models
on our specific task. We did experiments with multiple fusing techniques and
found, that the best performing technique to combine the individual embedding
of the unimodal network is based on combining concatenation and averaging the
feature vectors. Each modality complemented the shortcomings of the other
modalities, demonstrating that increasing the number of modalities can be an
effective method for improving the performance of multi-label and multimodal
classification problems.
- Abstract(参考訳): 本稿では,商用製品分類のためのマルチモーダルモデルを提案する。単純な融合技術を用いて,テキスト(camembertおよびflaubert)とビジュアルデータ(se-resnext-50)から抽出した複数のニューラルネットワークモデルから抽出した特徴を組み合わせる。
提案手法は,本課題における一助モデルの性能と類似モデルの性能を有意に向上させた。
我々は,複数のフレージング手法を用いて実験を行い,単一モダルネットワークの個別埋め込みを結合する最善の手法は,結合と特徴ベクトルの平均化を組み合わせたものであることを見出した。
それぞれのモダリティは、他のモダリティの欠点を補い、モダリティの数を増やすことは、マルチラベルおよびマルチモーダル分類問題の性能を改善する効果的な方法であることを示した。
関連論文リスト
- A Unified Graph Transformer for Overcoming Isolations in Multi-modal Recommendation [9.720586396359906]
既存のマルチモーダルレコメンダシステムは、通常、特徴抽出とモダリティモデリングの両方に分離されたプロセスを使用する。
本稿では, マルチウェイ変換器を用いて, 整列したマルチモーダル特徴を抽出するUnified Multi-modal Graph Transformer (UGT) という新しいモデルを提案する。
UGTモデルは, 一般的に使用されるマルチモーダルレコメンデーション損失と共同最適化した場合に, 特に有意な有効性が得られることを示す。
論文 参考訳(メタデータ) (2024-07-29T11:04:31Z) - FusionBench: A Comprehensive Benchmark of Deep Model Fusion [78.80920533793595]
ディープモデル融合(Deep Model fusion)とは、複数のディープニューラルネットワークの予測やパラメータを単一のモデルに統合する手法である。
FusionBenchは、ディープモデル融合に特化した最初の包括的なベンチマークである。
論文 参考訳(メタデータ) (2024-06-05T13:54:28Z) - U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。
我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。
実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-24T08:58:48Z) - Multimodal Fusion with Pre-Trained Model Features in Affective Behaviour Analysis In-the-wild [37.32217405723552]
本稿では,表現(Expr)認識とValence-Arousal(VA)推定の課題に対処するためのアプローチを提案する。
我々は,事前学習モデルを用いてAff-Wild2データベースを評価し,モデルの最終層を特徴として抽出する。
抽出した特徴を整合させる前処理や畳み込みに続いて、異なるモデルがモーダル融合に使用される。
論文 参考訳(メタデータ) (2024-03-22T09:00:24Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Improving Discriminative Multi-Modal Learning with Large-Scale
Pre-Trained Models [51.5543321122664]
本稿では,大規模な事前学習型ユニモーダルモデルを用いて,識別型マルチモーダル学習を向上する方法について検討する。
MMLoRA(Multi-Modal Low-Rank Adaptation Learning)を導入する。
論文 参考訳(メタデータ) (2023-10-08T15:01:54Z) - MMSFormer: Multimodal Transformer for Material and Semantic Segmentation [16.17270247327955]
本稿では,異なるモダリティの組み合わせから情報を効果的に融合できる新しい融合戦略を提案する。
また,MMSFormer(Multi-Modal TransFormer)と呼ばれる新たなモデルを提案する。
MMSFormerは、現在の最先端モデルを3つの異なるデータセットで上回る。
論文 参考訳(メタデータ) (2023-09-07T20:07:57Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - Modular and Parameter-Efficient Multimodal Fusion with Prompting [4.2854066077037265]
提案手法は,低リソース環境下でのマルチモーダル融合法に匹敵する性能を実現する。
本手法は,2つ以上のデータモダリティを含むタスクの処理において,モジュール構造であり,パラメータ効率が高い。
論文 参考訳(メタデータ) (2022-03-15T16:50:15Z) - Abstractive Sentence Summarization with Guidance of Selective Multimodal
Reference [3.505062507621494]
モーダル間の相互関係を考慮したマルチモーダル階層選択変換器(mhsf)モデルを提案する。
提案したmhsfモデルの汎用性を,事前学習+微調整および新鮮トレーニング戦略を用いて評価した。
論文 参考訳(メタデータ) (2021-08-11T09:59:34Z) - Relating by Contrasting: A Data-efficient Framework for Multimodal
Generative Models [86.9292779620645]
生成モデル学習のための対照的なフレームワークを開発し、モダリティ間の共通性だけでなく、「関連」と「関連しない」マルチモーダルデータの区別によってモデルを訓練することができる。
提案手法では, 生成モデルを用いて, 関係のないサンプルから関連サンプルを正確に識別し, ラベルのない多モードデータの利用が可能となる。
論文 参考訳(メタデータ) (2020-07-02T15:08:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。