Fugu-MT 論文翻訳(概要): MIND: Multimodal Shopping Intention Distillation from Large Vision-language Models for E-commerce Purchase Understanding

論文の概要: MIND: Multimodal Shopping Intention Distillation from Large Vision-language Models for E-commerce Purchase Understanding

arxiv url: http://arxiv.org/abs/2406.10701v3
Date: Sat, 12 Oct 2024 05:08:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 13:07:50.613101
Title: MIND: Multimodal Shopping Intention Distillation from Large Vision-language Models for E-commerce Purchase Understanding
Title（参考訳）: MIND:Eコマース購入理解のための大規模視覚言語モデルからのマルチモーダルショッピング意図蒸留
Authors: Baixuan Xu, Weiqi Wang, Haochen Shi, Wenxuan Ding, Huihao Jing, Tianqing Fang, Jiaxin Bai, Xin Liu, Changlong Yu, Zheng Li, Chen Luo, Qingyu Yin, Bing Yin, Long Chen, Yangqiu Song,
Abstract要約: MINDは、マルチモーダル製品メタデータから購入意図を推測し、人間中心のものを優先するフレームワークである。 Amazon Reviewのデータを使用して、1,264,441万の意図を含むマルチモーダルな意図的知識ベースを作成します。得られた意図は2つの意図的理解タスクにおいて大きな言語モデルを大幅に向上させる。
参考スコア（独自算出の注目度）: 67.26334044239161
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Improving user experience and providing personalized search results in E-commerce platforms heavily rely on understanding purchase intention. However, existing methods for acquiring large-scale intentions bank on distilling large language models with human annotation for verification. Such an approach tends to generate product-centric intentions, overlook valuable visual information from product images, and incurs high costs for scalability. To address these issues, we introduce MIND, a multimodal framework that allows Large Vision-Language Models (LVLMs) to infer purchase intentions from multimodal product metadata and prioritize human-centric ones. Using Amazon Review data, we apply MIND and create a multimodal intention knowledge base, which contains 1,264,441 million intentions derived from 126,142 co-buy shopping records across 107,215 products. Extensive human evaluations demonstrate the high plausibility and typicality of our obtained intentions and validate the effectiveness of our distillation framework and filtering mechanism. Additional experiments reveal that our obtained intentions significantly enhance large language models in two intention comprehension tasks.
Abstract（参考訳）: Eコマースプラットフォームにおけるユーザエクスペリエンスの向上とパーソナライズされた検索結果の提供は,購入意図の理解に大きく依存している。しかし,大規模な意図獲得のための既存の手法は,人間のアノテーションを付加した大規模言語モデルの蒸留に有効である。このようなアプローチは、製品中心の意図を生成し、製品イメージから価値のある視覚情報を見落とし、スケーラビリティのために高いコストを発生させる傾向があります。これらの問題に対処するために、MINDは、LVLM(Large Vision-Language Models)がマルチモーダル製品メタデータから購入意図を推測し、人間中心のものを優先順位付けすることを可能にするマルチモーダルフレームワークである。 Amazon Reviewのデータを用いて、MINDを適用し、1264,441万の意図を含むマルチモーダルな意図的知識ベースを作成します。広範囲な人的評価は, 得られた意図の妥当性と典型性を示し, 蒸留の枠組みとろ過機構の有効性を検証した。追加実験により,2つの意図的理解タスクにおいて,得られた意図が大規模言語モデルを大幅に向上することが確認された。

関連論文リスト

Beyond Language Modeling: An Exploration of Multimodal Pretraining [125.34714978184638]
我々は、制御されたオフスクラッチ事前学習実験を通して経験的明瞭度を提供する。我々はトランスフュージョン・フレームワークを採用し、言語と視覚の拡散を次々に予測する。我々は、MoEアーキテクチャが、言語によって要求される高いモデル容量を提供することにより、このスケーリング非対称性を調和させることを実証する。
論文参考訳（メタデータ） (2026-03-03T18:58:00Z)
Research on E-Commerce Long-Tail Product Recommendation Mechanism Based on Large-Scale Language Models [7.792622257477251]
大規模言語モデル(LLM)を用いた製品記述とユーザ行動シーケンスを統合した,新しいロングテール製品レコメンデーション機構を提案する。我々の研究は、今後のeコマースレコメンデーションシステムにおいて、製品コンテンツとユーザ意図を解釈するLLMの可能性を強調します。
論文参考訳（メタデータ） (2025-05-31T19:17:48Z)
OCC-MLLM-CoT-Alpha: Towards Multi-stage Occlusion Recognition Based on Large Language Models via 3D-Aware Supervision and Chain-of-Thoughts Guidance [3.832135091367811]
OCC-MLLM-CoT-Alphaは3D認識とChain-of-Thoughtsガイダンスを統合したマルチモーダルな大規模視覚言語フレームワークである。提案手法は, 各種最先端モデルの2つの設定に対して, 15.75%, 15.30%, 16.98%, 14.62%, 4.42%, 3.63%, 6.94%, 10.70% の判定スコア向上を示した。
論文参考訳（メタデータ） (2025-04-07T07:15:26Z)
Personalized Multimodal Large Language Models: A Survey [127.9521218125761]
マルチモーダル大言語モデル(MLLM)は、最先端の性能と複数のデータモダリティを統合する能力により、ますます重要になっている。本稿では,パーソナライズされたマルチモーダルな大規模言語モデルに関する包括的調査を行い,そのアーキテクチャ,トレーニング方法,アプリケーションに焦点をあてる。
論文参考訳（メタデータ） (2024-12-03T03:59:03Z)
Retrieve, Annotate, Evaluate, Repeat: Leveraging Multimodal LLMs for Large-Scale Product Retrieval Evaluation [3.670782697615276]
大規模言語モデル(LLM)はこのスケーリング問題に対処する可能性がある。本稿では,大規模なeコマース環境で製品検索エンジンを評価するためのフレームワークを提案する。提案手法は,大規模なeコマースプラットフォームへの展開を通じて検証され,人間のアノテーションに匹敵する品質を示す。
論文参考訳（メタデータ） (2024-09-18T10:30:50Z)
Image Score: Learning and Evaluating Human Preferences for Mercari Search [2.1555050262085027]
大規模言語モデル(LLM)は、データラベリングタスクに積極的に研究され、使用されている。本稿では,電子商取引環境における画像品質の評価と予測のためのコスト効率の高いLCM駆動手法を提案する。 LLMが生成したラベルはMercuri上でのユーザ行動と相関していることを示す。
論文参考訳（メタデータ） (2024-08-21T05:30:06Z)
LLAVADI: What Matters For Multimodal Large Language Models Distillation [77.73964744238519]
本研究では,新しい効率的なモデル構造を提案するのではなく,スクラッチから小規模MLLMを訓練する。本研究は, 知識蒸留プロセスにおける学習戦略, モデル選択, 蒸留アルゴリズムに関するものである。異なるベンチマークと適切な戦略を評価することで、2.7Bの小型モデルでも7Bまたは13Bのパラメータを持つ大型モデルと同等に動作することができる。
論文参考訳（メタデータ） (2024-07-28T06:10:47Z)
IntentionQA: A Benchmark for Evaluating Purchase Intention Comprehension Abilities of Language Models in E-commerce [71.37481473399559]
本稿では,eコマースにおけるLMの購入意図の理解を評価するためのベンチマークであるIntentionQAを提案する。インテンションQAは、自動化パイプラインを使用して構築された3つの困難レベルにわたる4,360の慎重に計算された問題で構成されている。人間の評価は、我々のベンチマークの高品質で低い偽陰性率を示す。
論文参考訳（メタデータ） (2024-06-14T16:51:21Z)
Visual Anchors Are Strong Information Aggregators For Multimodal Large Language Model [82.93634081255942]
本稿では,MLLMが低コストを維持しつつ高い精度を達成できるビジョン言語コネクタを提案する。まず、視覚変換器における視覚アンカーの存在を明らかにし、それらを抽出するためのコスト効率の良い探索アルゴリズムを提案する。 Anchor former (AcFormer) は、事前学習中に得られた視覚的アンカーから得られる豊富な事前知識を活用するために設計された、新しい視覚言語コネクタである。
論文参考訳（メタデータ） (2024-05-28T04:23:00Z)
ItemSage: Learning Product Embeddings for Shopping Recommendations at Pinterest [60.841761065439414]
Pinterestでは、ItemSageと呼ばれるプロダクトの埋め込みセットを構築して、すべてのショッピングユースケースに適切なレコメンデーションを提供しています。このアプローチによって、エンゲージメントとコンバージョンメトリクスが大幅に改善され、インフラストラクチャとメンテナンスコストの両方が削減された。
論文参考訳（メタデータ） (2022-05-24T02:28:58Z)
Product1M: Towards Weakly Supervised Instance-Level Product Retrieval via Cross-modal Pretraining [108.86502855439774]
弱教師付きマルチモーダル・インスタンスレベルの製品検索を目的とした,より現実的な設定について検討する。実世界のインスタンスレベルの検索において,最も大規模なマルチモーダル化粧品データセットであるProduct1Mをコントリビュートする。ケースレベルの予測検索(CAPTURE)のためのクロスモーダル・コントラサシブ・プロダクト・トランスフォーマーという新しいモデルを提案する。
論文参考訳（メタデータ） (2021-07-30T12:11:24Z)
A Multimodal Late Fusion Model for E-Commerce Product Classification [7.463657960984954]
本研究では,テキストと画像のモダリティに基づくマルチモーダルレイトフュージョン手法を用いて,楽天上での電子商取引商品の分類を行った。具体的には、各入力モードに対して、特定の最先端のディープニューラルネットワークを開発し、それらを決定レベルで融合させた。 pa_curisという名前のチームが、最終リーダーボードで0.9144のマクロF1で優勝しました。
論文参考訳（メタデータ） (2020-08-14T03:46:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。