論文の概要: Harnessing Large Language Models for Multimodal Product Bundling
- arxiv url: http://arxiv.org/abs/2407.11712v2
- Date: Wed, 17 Jul 2024 13:57:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-10 19:46:10.399272
- Title: Harnessing Large Language Models for Multimodal Product Bundling
- Title(参考訳): マルチモーダル製品バンドルのための大規模言語モデルのハーネス化
- Authors: Xiaohao Liu, Jie Wu, Zhulin Tao, Yunshan Ma, Yinwei Wei, Tat-seng Chua,
- Abstract要約: 大型言語モデル(LLM)と製品バンドルタスクのギャップを埋めるために、Bundle-LLMを導入します。
具体的には、マルチモーダル情報を統合するために、ハイブリッドアイテムトークン化を使用し、単純なマルチモーダル融合モジュールとトレーニング可能なプロジェクタが、すべての非テキスト機能を単一のトークンに埋め込む。
我々の手法は、最先端(SOTA)の手法よりも優れています。
- 参考スコア(独自算出の注目度): 53.01642741096356
- License:
- Abstract: Product bundling provides clients with a strategic combination of individual items. And it has gained significant attention in recent years as a fundamental prerequisite for online services. Recent methods utilize multimodal information through sophisticated extractors for bundling, but remain limited by inferior semantic understanding, the restricted scope of knowledge, and an inability to handle cold-start issues. Despite the extensive knowledge and complex reasoning capabilities of large language models (LLMs), their direct utilization fails to process multimodalities and exploit their knowledge for multimodal product bundling. Adapting LLMs for this purpose involves demonstrating the synergies among different modalities and designing an effective optimization strategy for bundling, which remains challenging. To this end, we introduce Bundle-LLM to bridge the gap between LLMs and product bundling tasks. Specifically, we utilize a hybrid item tokenization to integrate multimodal information, where a simple yet powerful multimodal fusion module followed by a trainable projector embeds all non-textual features into a single token. This module not only explicitly exhibits the interplays among modalities but also shortens the prompt length, thereby boosting efficiency. By designing a prompt template, we formulate product bundling as a multiple-choice question given candidate items. Furthermore, we adopt progressive optimization strategy to fine-tune the LLMs for disentangled objectives, achieving effective product bundling capability with comprehensive multimodal semantic understanding. Extensive experiments on four datasets from two application domains show that our approach outperforms a range of state-of-the-art (SOTA) methods.
- Abstract(参考訳): プロダクトバンドルは、クライアントに個々のアイテムの戦略的組み合わせを提供する。
近年、オンラインサービスの基本前提として注目されている。
近年の手法では, セマンティック理解の劣る部分, 知識の範囲の制限, コールドスタート問題に対処できない部分によって, 厳密な抽出器を通じてマルチモーダル情報を利用する方法が提案されている。
大規模言語モデル(LLM)の豊富な知識と複雑な推論能力にもかかわらず、それらの直接的な利用はマルチモーダル処理に失敗し、その知識を多モーダル製品バンドルに活用する。
この目的のためにLLMを適用するには、異なるモダリティ間の相乗効果を実証し、バンドルのための効果的な最適化戦略を設計する必要がある。
この目的のために,LLM と製品バンドルタスクのギャップを埋めるために Bundle-LLM を導入する。
具体的には、マルチモーダル情報を統合するために、ハイブリッドアイテムトークン化を使用し、単純なマルチモーダル融合モジュールとトレーニング可能なプロジェクタが、すべての非テキスト機能を単一のトークンに埋め込む。
このモジュールは、モダリティ間の相互作用を明示的に示すだけでなく、プロンプトの長さを短縮し、効率を高める。
プロンプトテンプレートを設計することにより、製品バンドルを候補項目の多重選択質問として定式化する。
さらに,多モーダルなセマンティック理解を網羅し,効率的な製品バンドル機能を実現するため,LLMを微調整するプログレッシブ最適化戦略を採用した。
2つのアプリケーションドメインからの4つのデータセットに対する大規模な実験は、我々のアプローチが、最先端(SOTA)メソッドよりも優れていることを示している。
関連論文リスト
- LLMs Can Evolve Continually on Modality for X-Modal Reasoning [62.2874638875554]
既存の手法は、モーダル固有の事前訓練とジョイント・モーダルチューニングに大きく依存しており、新しいモーダルへと拡張する際の計算上の負担が大きくなった。
PathWeaveは、Modal-Path sWitchingとExpAnsion機能を備えた柔軟でスケーラブルなフレームワークである。
PathWeaveは最先端のMLLMと互換性があり、パラメータトレーニングの負担を98.73%削減する。
論文 参考訳(メタデータ) (2024-10-26T13:19:57Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - M$^2$PT: Multimodal Prompt Tuning for Zero-shot Instruction Learning [90.75075886543404]
MLLM(Multimodal Large Language Models)は、幅広い領域にわたる顕著なパフォーマンスを示す。
本研究では,MLLMの効率的な命令チューニングのための新しいMultimodal Prompt Tuning (M$2$PT) 手法を提案する。
論文 参考訳(メタデータ) (2024-09-24T01:40:24Z) - UniMEL: A Unified Framework for Multimodal Entity Linking with Large Language Models [0.42832989850721054]
MEL(Multimodal Entities Linking)は、ウィキペディアのようなマルチモーダル知識ベースの参照エンティティに、多モーダルコンテキスト内で曖昧な言及をリンクすることを目的とした重要なタスクである。
既存の方法はMELタスクを過度に複雑にし、視覚的意味情報を見渡す。
大規模言語モデルを用いたマルチモーダル・エンティティ・リンクタスクを処理するための新しいパラダイムを確立する統一フレームワークUniMELを提案する。
論文 参考訳(メタデータ) (2024-07-23T03:58:08Z) - Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts [54.529880848937104]
そこで我々は,MoEアーキテクチャをUni-MoEと呼ぶ一貫したMLLMを開発し,様々なモダリティを扱えるようにした。
具体的には、統一マルチモーダル表現のためのコネクタを持つモダリティ特化エンコーダを特徴とする。
マルチモーダルデータセットの包括的集合を用いた命令調整Uni-MoEの評価を行った。
論文 参考訳(メタデータ) (2024-05-18T12:16:01Z) - Mixture-of-Prompt-Experts for Multi-modal Semantic Understanding [7.329728566839757]
ブロック認識型prompt Fusion (MoPE-BAF) を用いたMixture-of-prompt-Expertsを提案する。
MoPE-BAFは、統合視覚言語モデル(VLM)に基づく、新しいマルチモーダルソフトプロンプトフレームワークである。
論文 参考訳(メタデータ) (2024-03-17T19:12:26Z) - Multi-modal Semantic Understanding with Contrastive Cross-modal Feature
Alignment [11.897888221717245]
マルチモーダルな特徴アライメントを実現するためのCLIP誘導型コントラスト学習型アーキテクチャを提案する。
我々のモデルはタスク固有の外部知識を使わずに実装が簡単であり、そのため、他のマルチモーダルタスクに容易に移行できる。
論文 参考訳(メタデータ) (2024-03-11T01:07:36Z) - Browse and Concentrate: Comprehending Multimodal Content via prior-LLM Context Fusion [70.9767518332692]
LLMを事前訓練された視覚モデルに組み込んだマルチモーダル大規模言語モデル(MLLM)は、近年、多様な視覚言語タスクにまたがる印象的なパフォーマンスを実証している。
しかし、複数の画像を含む文脈を理解するには不十分である。
本稿では,2つのフェーズ・パラダイムであるブラウズ・アンド・集中型を提案し,より深いマルチモーダルコンテキスト融合を実現する。
論文 参考訳(メタデータ) (2024-02-19T14:59:07Z) - Boosting Multi-Modal E-commerce Attribute Value Extraction via Unified
Learning Scheme and Dynamic Range Minimization [14.223683006262151]
本稿では,統合学習スキームとダイナミックレンジ最小化によるマルチモーダルeコマース属性値抽出手法を提案する。
一般的なマルチモーダル電子商取引ベンチマークの実験は、我々の手法が他の最先端技術よりも優れた性能を発揮することを示している。
論文 参考訳(メタデータ) (2022-07-15T03:58:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。