論文の概要: Large Scale Multimodal Classification Using an Ensemble of Transformer
Models and Co-Attention
- arxiv url: http://arxiv.org/abs/2011.11735v1
- Date: Mon, 23 Nov 2020 21:22:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-22 01:08:06.379317
- Title: Large Scale Multimodal Classification Using an Ensemble of Transformer
Models and Co-Attention
- Title(参考訳): 変圧器モデルとコアテンションのアンサンブルを用いた大規模マルチモーダル分類
- Authors: Varnith Chordia, Vijay Kumar BG
- Abstract要約: 本稿では,SIGIR eCom Rakuten Data Challengeの方法論と結果について述べる。
我々は、事前訓練された言語と画像埋め込みを用いて、画像とテキストの関係をモデル化するために、二重注意法を用いる。
- 参考スコア(独自算出の注目度): 2.842794675894731
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate and efficient product classification is significant for E-commerce
applications, as it enables various downstream tasks such as recommendation,
retrieval, and pricing. Items often contain textual and visual information, and
utilizing both modalities usually outperforms classification utilizing either
mode alone. In this paper we describe our methodology and results for the SIGIR
eCom Rakuten Data Challenge. We employ a dual attention technique to model
image-text relationships using pretrained language and image embeddings. While
dual attention has been widely used for Visual Question Answering(VQA) tasks,
ours is the first attempt to apply the concept for multimodal classification.
- Abstract(参考訳): Eコマースアプリケーションでは、推薦、検索、価格などのさまざまな下流タスクを可能にするため、正確で効率的な製品分類が重要である。
項目にはテキスト情報と視覚情報が含まれており、両方のモダリティを利用すると、どちらのモードのみを利用する分類よりも優れている。
本稿では,SIGIR eCom Rakuten Data Challengeの方法論と結果について述べる。
我々は,事前学習された言語と画像埋め込みを用いた画像-テキスト関係のモデル化に2つの注意手法を用いる。
VQA(Visual Question Answering)タスクには2つの注意が広く使われているが、この概念をマルチモーダル分類に適用するための最初の試みである。
関連論文リスト
- Leveraging Entity Information for Cross-Modality Correlation Learning: The Entity-Guided Multimodal Summarization [49.08348604716746]
Multimodal Summarization with Multimodal Output (MSMO) は、テキストと関連する画像の両方を統合するマルチモーダル要約を作成することを目的としている。
本稿では,Entity-Guided Multimodal Summarization Model (EGMS)を提案する。
我々のモデルは,BART上に構築され,共有重み付きデュアルマルチモーダルエンコーダを用いて,テキスト画像とエンティティ画像情報を並列に処理する。
論文 参考訳(メタデータ) (2024-08-06T12:45:56Z) - Attention-based sequential recommendation system using multimodal data [8.110978727364397]
本稿では,画像やテキスト,カテゴリといった項目のマルチモーダルなデータを用いた注意に基づくシーケンシャルレコメンデーション手法を提案する。
Amazonデータセットから得られた実験結果は,提案手法が従来の逐次レコメンデーションシステムよりも優れていることを示している。
論文 参考訳(メタデータ) (2024-05-28T08:41:05Z) - NoteLLM-2: Multimodal Large Representation Models for Recommendation [60.17448025069594]
マルチモーダルなアイテム・ツー・イテムレコメンデーションにおけるマルチモーダル表現を強化するための大規模言語モデルの可能性について検討する。
1つの実現可能な方法は、表現タスクのためにMLLM(Multimodal Large Language Models)を転送することである。
マルチモーダル表現に特化して設計された新しいトレーニングフレームワークNoteLLM-2を提案する。
論文 参考訳(メタデータ) (2024-05-27T03:24:01Z) - Generative Multi-Modal Knowledge Retrieval with Large Language Models [75.70313858231833]
マルチモーダル知識検索のための革新的なエンドツーエンド生成フレームワークを提案する。
我々のフレームワークは,大規模言語モデル(LLM)が仮想知識ベースとして効果的に機能するという事実を生かしている。
強いベースラインと比較すると,すべての評価指標に対して3.0%から14.6%の大幅な改善が見られた。
論文 参考訳(メタデータ) (2024-01-16T08:44:29Z) - FaD-VLP: Fashion Vision-and-Language Pre-training towards Unified
Retrieval and Captioning [66.38951790650887]
ファッション分野におけるマルチモーダルタスクは、eコマースにとって大きな可能性を秘めている。
本稿では,ファッションとテクストのペアから構築した弱教師付き三つ組に基づく,ファッション特有の事前学習フレームワークを提案する。
3重項に基づくタスクは、標準的なマルチモーダル事前学習タスクに有効な追加であることを示す。
論文 参考訳(メタデータ) (2022-10-26T21:01:19Z) - e-CLIP: Large-Scale Vision-Language Representation Learning in
E-commerce [9.46186546774799]
本研究では,未ラベルの製品テキストや画像を用いて,言語モデルと視覚モデルとを整合させるコントラスト学習フレームワークを提案する。
我々は、大規模表現学習モデルを訓練し、ドメイン固有の課題に対処するソリューションを共有するために使用したテクニックを提示する。
論文 参考訳(メタデータ) (2022-07-01T05:16:47Z) - Entity-Graph Enhanced Cross-Modal Pretraining for Instance-level Product
Retrieval [152.3504607706575]
本研究の目的は, 細粒度製品カテゴリを対象とした, 弱制御型マルチモーダル・インスタンスレベルの製品検索である。
まず、Product1Mデータセットをコントリビュートし、2つの実際のインスタンスレベルの検索タスクを定義します。
我々は、マルチモーダルデータから重要な概念情報を組み込むことができるより効果的なクロスモーダルモデルを訓練するために活用する。
論文 参考訳(メタデータ) (2022-06-17T15:40:45Z) - Extending CLIP for Category-to-image Retrieval in E-commerce [36.386210802938656]
Eコマースは、実際はほとんど活用されていないリッチなマルチモーダルデータを提供する。
実際には、テキストと与えられたカテゴリの視覚的表現の間には、しばしばミスマッチがある。
電子商取引におけるカテゴリ・ツー・イメージ検索の課題を紹介し,その課題のモデルであるCLIP-ITAを提案する。
論文 参考訳(メタデータ) (2021-12-21T15:33:23Z) - Logically at the Factify 2022: Multimodal Fact Verification [2.8914815569249823]
本稿では,AAAI 2022におけるマルチモーダル事実検証(Factify)課題の参加者システムについて述べる。
アンサンブルモデルとマルチモーダルアテンションネットワークを含む2つのベースラインアプローチを提案し,検討した。
我々の最良モデルは、検証セットとテストセットの両方において、重み付き平均F値が0.77となるリーダーボードで第1位にランクされている。
論文 参考訳(メタデータ) (2021-12-16T23:34:07Z) - Pre-training Graph Transformer with Multimodal Side Information for
Recommendation [82.4194024706817]
本稿では,項目側情報とその関連性を考慮した事前学習戦略を提案する。
我々はMCNSamplingという新しいサンプリングアルゴリズムを開発し、各項目のコンテキスト近傍を選択する。
The proposed Pre-trained Multimodal Graph Transformer (PMGT) learns item representations with two objectives: 1) graph structure reconstruction, 2) masked node feature reconstruction。
論文 参考訳(メタデータ) (2020-10-23T10:30:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。