論文の概要: Captions Speak Louder than Images (CASLIE): Generalizing Foundation Models for E-commerce from High-quality Multimodal Instruction Data
- arxiv url: http://arxiv.org/abs/2410.17337v1
- Date: Tue, 22 Oct 2024 18:11:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-24 13:57:01.433129
- Title: Captions Speak Louder than Images (CASLIE): Generalizing Foundation Models for E-commerce from High-quality Multimodal Instruction Data
- Title(参考訳): 画像(CASLIE):高品質マルチモーダルインストラクションデータによる電子商取引基盤モデルの一般化
- Authors: Xinyi Ling, Bo Peng, Hanwen Du, Zhihui Zhu, Xia Ning,
- Abstract要約: 本稿では,eコマースのためのマルチモーダル・インストラクション・データセットMMECInstructを紹介する。
また、eコマースのためのマルチモーダル情報を統合するための、シンプルで軽量で効果的なフレームワークであるCASLIEを開発した。
- 参考スコア(独自算出の注目度): 19.191477918391726
- License:
- Abstract: Leveraging multimodal data to drive breakthroughs in e-commerce applications through Multimodal Foundation Models (MFMs) is gaining increasing attention from the research community. However, there are significant challenges that hinder the optimal use of multimodal e-commerce data by foundation models: (1) the scarcity of large-scale, high-quality multimodal benchmark datasets; and (2) the lack of effective multimodal information integration methods. To address these challenges, in this paper, we introduce MMECInstruct, the first-ever, large-scale, and high-quality multimodal instruction dataset for e-commerce. We also develop CASLIE, a simple, lightweight, yet effective framework for integrating multimodal information for e-commerce. Leveraging MMECInstruct, we fine-tune a series of e-commerce MFMs within CASLIE, denoted as CASLIE models. Our comprehensive evaluation demonstrates that CASLIE models substantially outperform 5 categories of advanced baseline models in the in-domain evaluation. Moreover, CASLIE models show strong generalizability to out-of-domain settings. MMECInstruct and CASLIE models are publicly accessible through https://ninglab.github.io/CASLIE/.
- Abstract(参考訳): マルチモーダル・ファンデーション・モデル(MFM)を通じた電子商取引アプリケーションのブレークスルーを促進するためにマルチモーダル・データの活用が研究コミュニティから注目を集めている。
しかし,1)大規模かつ高品質なマルチモーダルベンチマークデータセットの不足,2)効果的なマルチモーダル情報統合手法の欠如など,基礎モデルによるマルチモーダルeコマースデータの最適利用を妨げる重要な課題がある。
これらの課題に対処するため、本稿では、eコマースのための最初の大規模かつ高品質なマルチモーダル・インストラクション・データセットであるMMECInstructを紹介する。
また、eコマースのためのマルチモーダル情報を統合するための、シンプルで軽量で効果的なフレームワークであるCASLIEを開発した。
MMECインストラクタを活用することで,CASLIE内の一連のeコマースMFMを微調整し,CASLIEモデルと表現する。
包括的評価は,CASLIEモデルがドメイン内評価において,高度なベースラインモデルの5つのカテゴリを大幅に上回っていることを示す。
さらに、CASLIEモデルはドメイン外設定に対して強い一般化性を示す。
MMECInstructとCASLIEモデルはhttps://ninglab.github.io/CASLIE/.comで公開されている。
関連論文リスト
- Data-Juicer Sandbox: A Comprehensive Suite for Multimodal Data-Model Co-development [67.55944651679864]
統合データモデル共同開発に適した新しいサンドボックススイートを提案する。
このサンドボックスは包括的な実験プラットフォームを提供し、データとモデルの両方の迅速なイテレーションと洞察駆動による改善を可能にする。
また、徹底的なベンチマークから得られた実りある洞察を明らかにし、データ品質、多様性、モデル行動の間の重要な相互作用に光を当てています。
論文 参考訳(メタデータ) (2024-07-16T14:40:07Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts [54.529880848937104]
そこで我々は,MoEアーキテクチャをUni-MoEと呼ぶ一貫したMLLMを開発し,様々なモダリティを扱えるようにした。
具体的には、統一マルチモーダル表現のためのコネクタを持つモダリティ特化エンコーダを特徴とする。
マルチモーダルデータセットの包括的集合を用いた命令調整Uni-MoEの評価を行った。
論文 参考訳(メタデータ) (2024-05-18T12:16:01Z) - eCeLLM: Generalizing Large Language Models for E-commerce from Large-scale, High-quality Instruction Data [12.895762133464103]
電子商取引のための,最初のオープンソース,大規模,高品質なベンチマークインストラクションデータセットであるECInstructを構築した。
我々は,eコマース LLM のシリーズである eCeLLM を開発した。
eCeLLMは、目に見えない製品や目に見えない命令を含む、ドメイン外の設定に優れた一般化性を示す。
論文 参考訳(メタデータ) (2024-02-13T22:26:24Z) - CaMML: Context-Aware Multimodal Learner for Large Models [16.30752006781618]
大規模マルチモーダルモデル(LMM)をチューニングするためのコンテキスト認識型マルチモーダル学習器(CaMML)を導入する。
CaMMLは、マルチモーダルなコンテキストサンプルを大きなモデルにシームレスに統合し、類似したドメイン固有の最新の情報から知識を引き出すことができるように設計されている。
CaMMLに基づく2つのマルチモーダルモデルであるCaMML-7BとCaMML-13Bを開発した。
論文 参考訳(メタデータ) (2024-01-06T07:54:58Z) - Improving Discriminative Multi-Modal Learning with Large-Scale
Pre-Trained Models [51.5543321122664]
本稿では,大規模な事前学習型ユニモーダルモデルを用いて,識別型マルチモーダル学習を向上する方法について検討する。
MMLoRA(Multi-Modal Low-Rank Adaptation Learning)を導入する。
論文 参考訳(メタデータ) (2023-10-08T15:01:54Z) - MESED: A Multi-modal Entity Set Expansion Dataset with Fine-grained
Semantic Classes and Hard Negative Entities [25.059177235004952]
本稿では,マルチモーダル・エンティティ・セット・エクスパンジョン(MESE)を提案する。
4つのマルチモーダル事前学習タスクで事前学習を行う強力なマルチモーダルモデルであるMultiExpanを提案する。
MESEDデータセットは、大規模かつ精巧な手動キャリブレーションを備えたESEのための最初のマルチモーダルデータセットである。
論文 参考訳(メタデータ) (2023-07-27T14:09:59Z) - Benchmarking Diverse-Modal Entity Linking with Generative Models [78.93737257356784]
既存の EL データセットから様々なモード EL (DMEL) のベンチマークを構築した。
DMEL タスクにアプローチするため,マルチモーダルエンコーダ・デコーダのパラダイムに則って生成多モードモデル (GDMM) を提案する。
GDMMは、より強力なDMELベースラインを構築し、平均8.51F1スコアで最先端のタスク固有のELモデルを上回っている。
論文 参考訳(メタデータ) (2023-05-27T02:38:46Z) - Learning Instance-Level Representation for Large-Scale Multi-Modal
Pretraining in E-commerce [35.73830796500975]
本研究では, ECLIPと呼ばれるインスタンス中心のマルチモーダル事前学習パラダイムを提案する。
高価な手作業によるアノテーションに頼ることなく、モデルが望ましい製品インスタンスに集中できるようにするために、2つの特別な設定されたプレテキストタスクが提案されている。
ECLIPは、さまざまな下流タスクにおいて既存の手法をはるかに上回り、現実世界のEコマースアプリケーションへの強力な転送可能性を示している。
論文 参考訳(メタデータ) (2023-04-06T04:14:41Z) - M5Product: A Multi-modal Pretraining Benchmark for E-commercial Product
Downstream Tasks [94.80043324367858]
我々は600万以上のマルチモーダルペアからなるM5Productという大規模データセットをコントリビュートする。
M5Productには、画像、テキスト、テーブル、ビデオ、オーディオなど、複数のモードの豊富な情報が含まれている。
論文 参考訳(メタデータ) (2021-09-09T13:50:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。