論文の概要: Multi-modal Extreme Classification
- arxiv url: http://arxiv.org/abs/2309.04961v1
- Date: Sun, 10 Sep 2023 08:23:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-12 15:30:49.218634
- Title: Multi-modal Extreme Classification
- Title(参考訳): マルチモーダルエクストリーム分類
- Authors: Anshul Mittal, Kunal Dahiya, Shreya Malani, Janani Ramaswamy, Seba
Kuruvilla, Jitendra Ajmera, Keng-hao Chang, Sumeet Agarwal, Purushottam Kar,
Manik Varma
- Abstract要約: 本稿では,数百万のラベルを持つ極端分類タスク(XC)のためのMUFIN技術を開発した。
MUFINは、数百万のラベルでXC問題としてマルチモーダル分類を再構成することでギャップを埋める。
MUFINは、主要なテキストベース、画像ベース、マルチモーダル技術よりも少なくとも3%高い精度を提供する。
- 参考スコア(独自算出の注目度): 14.574342454143023
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper develops the MUFIN technique for extreme classification (XC) tasks
with millions of labels where datapoints and labels are endowed with visual and
textual descriptors. Applications of MUFIN to product-to-product recommendation
and bid query prediction over several millions of products are presented.
Contemporary multi-modal methods frequently rely on purely embedding-based
methods. On the other hand, XC methods utilize classifier architectures to
offer superior accuracies than embedding only methods but mostly focus on
text-based categorization tasks. MUFIN bridges this gap by reformulating
multi-modal categorization as an XC problem with several millions of labels.
This presents the twin challenges of developing multi-modal architectures that
can offer embeddings sufficiently expressive to allow accurate categorization
over millions of labels; and training and inference routines that scale
logarithmically in the number of labels. MUFIN develops an architecture based
on cross-modal attention and trains it in a modular fashion using pre-training
and positive and negative mining. A novel product-to-product recommendation
dataset MM-AmazonTitles-300K containing over 300K products was curated from
publicly available amazon.com listings with each product endowed with a title
and multiple images. On the all datasets MUFIN offered at least 3% higher
accuracy than leading text-based, image-based and multi-modal techniques. Code
for MUFIN is available at https://github.com/Extreme-classification/MUFIN
- Abstract(参考訳): 本稿では,データポイントとラベルに視覚的およびテキスト的記述子を付与した,数百万のラベルを用いた超過度分類(XC)タスクのためのMUFIN技術を開発した。
MUFINの製品間レコメンデーションおよび数百万の製品に対する入札クエリ予測への応用について述べる。
現代のマルチモーダル法は、しばしば純粋に埋め込みベースの方法に依存する。
一方、XC法は分類器アーキテクチャを利用して、メソッドのみを埋め込むよりも優れた精度を提供するが、主にテキストベースの分類タスクにフォーカスする。
MUFINはこのギャップを、数百万のラベルでXC問題としてマルチモーダル分類を再構成することで埋める。
これは、何百万ものラベルに対して正確な分類を可能にするために十分に表現力のある埋め込みを提供するマルチモーダルアーキテクチャを開発するという2つの課題を示す。
MUFINは、クロスモーダルな注意に基づくアーキテクチャを開発し、事前学習と肯定的、否定的なマイニングを用いてモジュール方式でトレーニングする。
300万以上の製品を含む新しい製品間レコメンデーションデータセットMM-AmazonTitles-300Kは、タイトルと複数のイメージが与えられた各製品で公開されているAmazon.comのリストからキュレートされた。
すべてのデータセットに対してMUFINは、主要なテキストベース、画像ベース、マルチモーダル技術よりも少なくとも3%高い精度を提供している。
MUFINのコードはhttps://github.com/Extreme-classification/MUFINで入手できる。
関連論文リスト
- Exploring Fine-grained Retail Product Discrimination with Zero-shot Object Classification Using Vision-Language Models [50.370043676415875]
スマートリテールアプリケーションでは、多数の製品とその頻繁なターンオーバーは信頼性の高いゼロショットオブジェクト分類方法を必要とする。
我々は28の異なる製品カテゴリからなるMIMEXデータセットを紹介した。
我々は、提案したMIMEXデータセット上で、最先端ビジョン言語モデル(VLM)のゼロショットオブジェクト分類性能をベンチマークする。
論文 参考訳(メタデータ) (2024-09-23T12:28:40Z) - UniDEC : Unified Dual Encoder and Classifier Training for Extreme Multi-Label Classification [42.36546066941635]
Extreme Multi-label Classification (XMC) は非常に大きなラベル空間から関連するラベルのサブセットを予測する。
この研究は、デュアルエンコーダと分類器を同時に訓練する新しいエンドツーエンドのトレーニング可能なフレームワークであるUniDECを提案する。
論文 参考訳(メタデータ) (2024-05-04T17:27:51Z) - Learning label-label correlations in Extreme Multi-label Classification via Label Features [44.00852282861121]
Extreme Multi-label Text Classification (XMC)は、数百万のラベル選択から最も関連性の高いラベルのサブセットで入力を割り当てることができる分類器を学習する。
ラベル機能付き短文XMCは、検索広告におけるクエリ・ツー・アド・フレーズマッチング、タイトルベースの製品推薦、関連する検索の予測など、多くの分野に応用されている。
本稿では,ラベル共起グラフを用いてラベル特徴を付加データポイントとして活用し,トレーニング分布を補完する新しい手法であるガンダルフを提案する。
論文 参考訳(メタデータ) (2024-05-03T21:18:43Z) - Multimodal Prompt Learning for Product Title Generation with Extremely
Limited Labels [66.54691023795097]
本稿では,ラベルが限定された新商品のタイトルを生成するためのプロンプトベースアプローチ,すなわちマルチモーダル・プロンプト学習フレームワークを提案する。
我々は、新しい製品の対応する特性と書体を維持するために、異なるモダリティから多モーダルなプロンプトのセットを構築する。
トレーニング用ラベル付きデータの完全化により,本手法は最先端の結果が得られる。
論文 参考訳(メタデータ) (2023-07-05T00:40:40Z) - Reliable Representations Learning for Incomplete Multi-View Partial Multi-Label Classification [78.15629210659516]
本稿ではRANKという不完全なマルチビュー部分的マルチラベル分類ネットワークを提案する。
既存の手法に固有のビューレベルの重みを分解し、各サンプルのビューに品質スコアを動的に割り当てる品質対応サブネットワークを提案する。
我々のモデルは、完全なマルチビューマルチラベルデータセットを処理できるだけでなく、欠落したインスタンスやラベルを持つデータセットでも機能する。
論文 参考訳(メタデータ) (2023-03-30T03:09:25Z) - M5Product: A Multi-modal Pretraining Benchmark for E-commercial Product
Downstream Tasks [94.80043324367858]
我々は600万以上のマルチモーダルペアからなるM5Productという大規模データセットをコントリビュートする。
M5Productには、画像、テキスト、テーブル、ビデオ、オーディオなど、複数のモードの豊富な情報が含まれている。
論文 参考訳(メタデータ) (2021-09-09T13:50:22Z) - DECAF: Deep Extreme Classification with Label Features [9.768907751312396]
極端なマルチラベル分類(XML)では、非常に大きなラベルセットから最も関連性の高いラベルのサブセットにデータポイントをタグ付けする。
リードXMLアルゴリズムは数百万のラベルにスケールするが、ラベルのテキスト記述のようなラベルメタデータは無視される。
本稿では,ラベルメタデータに富んだ学習モデルを用いて,これらの課題に対処するDECAFアルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-08-01T05:36:05Z) - ECLARE: Extreme Classification with Label Graph Correlations [13.429436351837653]
本稿では,ラベルテキストだけでなくラベル相関も組み込んだスケーラブルなディープラーニングアーキテクチャECLAREを提案し,数ミリ秒以内の正確なリアルタイム予測を実現する。
ECLAREは、Bing検索エンジンからソースされた関連製品レコメンデーションタスク用のプロプライエタリデータセットと同様に、公開可能なベンチマークデータセットの両方で2~14%精度の予測を提供する。
論文 参考訳(メタデータ) (2021-07-31T15:13:13Z) - Label Disentanglement in Partition-based Extreme Multilabel
Classification [111.25321342479491]
分割型XMCにおけるラベル割り当て問題を最適化問題として定式化できることを示す。
提案手法はマルチモーダルラベルのアンタングル化に成功し、4つのXMCベンチマークでSOTA(State-of-the-art)結果が得られた。
論文 参考訳(メタデータ) (2021-06-24T03:24:18Z) - An Empirical Study on Large-Scale Multi-Label Text Classification
Including Few and Zero-Shot Labels [49.036212158261215]
大規模なMulti-label Text Classification (LMTC) は、幅広い自然言語処理 (NLP) アプリケーションを持つ。
Label-Wise Attention Networks (LWANs) を用いた最新のLMTCモデル
確率的ラベル木(PLT)に基づく階層的手法がLWANより優れていることを示す。
BERTとLWANを組み合わせた最先端手法を提案する。
論文 参考訳(メタデータ) (2020-10-04T18:55:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。