論文の概要: Bridging Modality Gaps in e-Commerce Products via Vision-Language Alignment
- arxiv url: http://arxiv.org/abs/2508.10116v1
- Date: Wed, 13 Aug 2025 18:22:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.082827
- Title: Bridging Modality Gaps in e-Commerce Products via Vision-Language Alignment
- Title(参考訳): ビジョンランゲージアライメントによる電子商取引製品におけるブリッジングモダリティギャップ
- Authors: Yipeng Zhang, Hongju Yu, Aritra Mandal, Canran Xu, Qunzhi Zhou, Zhe Wu,
- Abstract要約: 我々は、画像から高品質な項目記述を生成するために、リスト作成のための好みベースのAI(OPAL)を提案する。
OPALは視覚的モダリティとテキスト的モダリティのギャップを埋め、より豊かで、より正確で、一貫性のあるアイテム記述を提供する。
この作業は自動リスティング最適化を推進し、eコマースプラットフォームにおけるスケーラブルで高品質なコンテンツ生成をサポートする。
- 参考スコア(独自算出の注目度): 15.068156309599662
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Item information, such as titles and attributes, is essential for effective user engagement in e-commerce. However, manual or semi-manual entry of structured item specifics often produces inconsistent quality, errors, and slow turnaround, especially for Customer-to-Customer sellers. Generating accurate descriptions directly from item images offers a promising alternative. Existing retrieval-based solutions address some of these issues but often miss fine-grained visual details and struggle with niche or specialized categories. We propose Optimized Preference-Based AI for Listings (OPAL), a framework for generating schema-compliant, high-quality item descriptions from images using a fine-tuned multimodal large language model (MLLM). OPAL addresses key challenges in multimodal e-commerce applications, including bridging modality gaps and capturing detailed contextual information. It introduces two data refinement methods: MLLM-Assisted Conformity Enhancement, which ensures alignment with structured schema requirements, and LLM-Assisted Contextual Understanding, which improves the capture of nuanced and fine-grained information from visual inputs. OPAL uses visual instruction tuning combined with direct preference optimization to fine-tune the MLLM, reducing hallucinations and improving robustness across different backbone architectures. We evaluate OPAL on real-world e-commerce datasets, showing that it consistently outperforms baseline methods in both description quality and schema completion rates. These results demonstrate that OPAL effectively bridges the gap between visual and textual modalities, delivering richer, more accurate, and more consistent item descriptions. This work advances automated listing optimization and supports scalable, high-quality content generation in e-commerce platforms.
- Abstract(参考訳): タイトルや属性などのアイテム情報は、eコマースにおける効果的なユーザエンゲージメントに不可欠である。
しかしながら、構造化されたアイテムのマニュアルまたはセミマニュアルの入力は、特に顧客から顧客への販売者にとって、一貫性のない品質、エラー、遅いターンアラウンドをもたらすことが多い。
アイテムイメージから直接正確な記述を生成することは、有望な代替手段だ。
既存の検索ベースのソリューションは、これらの問題のいくつかに対処するが、細かな視覚的詳細を見逃したり、ニッチや特殊カテゴリーで苦労することが多い。
我々は,MLLM (Optimized Preference-based AI for Listings) を用いて,画像からスキーマに準拠した高品質な項目記述を生成するためのフレームワークを提案する。
OPALは、モダリティギャップのブリッジや詳細なコンテキスト情報の取得など、マルチモーダルなeコマースアプリケーションにおける重要な課題に対処する。
構造化スキーマ要求との整合性を保証するMLLM-Assisted Conformity Enhancementと、視覚入力からのニュアンス付きおよびきめ細かい情報のキャプチャを改善するLLM-Assisted Contextual Understandingという2つのデータ改善手法を導入している。
OPALは視覚的命令チューニングと直接選好最適化を組み合わせてMLLMを微調整し、幻覚を減らし、異なるバックボーンアーキテクチャ間の堅牢性を改善する。
実世界のeコマースデータセット上でOPALを評価し、記述品質とスキーマ完了率の両方において、ベースライン手法を一貫して上回っていることを示す。
これらの結果は、OPALが視覚とテキストのモダリティのギャップを効果的に埋め、より豊かで、より正確で、より一貫性のあるアイテム記述を提供することを示した。
この作業は自動リスティング最適化を推進し、eコマースプラットフォームにおけるスケーラブルで高品質なコンテンツ生成をサポートする。
関連論文リスト
- Adapting Large VLMs with Iterative and Manual Instructions for Generative Low-light Enhancement [41.66776033752888]
たいていの低照度画像強調法は、事前訓練されたモデル事前、低照度入力、またはその両方に依存している。
提案する VLM-IMI は,大規模視覚言語モデルに反復的および手動命令を付加した新しいフレームワークである。
VLM-IMIは、所望のノーマルライトコンテンツのテキスト記述をエンハンスメントキューとして組み込んで、意味的にインフォメーションされた復元を可能にする。
論文 参考訳(メタデータ) (2025-07-24T03:35:20Z) - VL-CLIP: Enhancing Multimodal Recommendations via Visual Grounding and LLM-Augmented CLIP Embeddings [11.209519424876762]
マルチモーダル学習は今日,eコマースレコメンデーションプラットフォームにおいて重要な役割を担っている。
CLIPのような既存のビジョン言語モデルは、eコマースレコメンデーションシステムにおいて重要な課題に直面している。
視覚的理解のきめ細かな理解のためにVisual Groundingを統合することにより,CLIPの埋め込みを強化するフレームワークであるVL-CLIPを提案する。
論文 参考訳(メタデータ) (2025-07-22T23:45:43Z) - Learning Item Representations Directly from Multimodal Features for Effective Recommendation [51.49251689107541]
マルチモーダルレコメンデータシステムは、主にベイズパーソナライズされたランク付け(BPR)最適化を利用してアイテム表現を学習する。
本稿では,マルチモーダルな特徴からアイテム表現を直接学習し,推薦性能を向上する新しいモデル(LIRDRec)を提案する。
論文 参考訳(メタデータ) (2025-05-08T05:42:22Z) - Aligning Vision to Language: Annotation-Free Multimodal Knowledge Graph Construction for Enhanced LLMs Reasoning [10.761218096540976]
LLM(Large Language Models)におけるマルチモーダル推論は、不完全な知識と幻覚に苦しむ。
本稿では,マルチモーダルな知識グラフを構築するための新しいアプローチであるVaLiK(Vision-Align-to-Language Integrated Knowledge Graph)を提案する。
論文 参考訳(メタデータ) (2025-03-17T09:31:14Z) - Training Large Recommendation Models via Graph-Language Token Alignment [53.3142545812349]
本稿では,グラフ言語トークンアライメントによる大規模推薦モデルのトレーニングを行う新しいフレームワークを提案する。
インタラクショングラフからアイテムとユーザノードを事前訓練されたLLMトークンにアライメントすることで、GLTAはLLMの推論能力を効果的に活用する。
さらに、エンドツーエンドのアイテム予測のためのトークンアライメントを最適化するために、GLLM(Graph-Language Logits Matching)を導入する。
論文 参考訳(メタデータ) (2025-02-26T02:19:10Z) - Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - ARMADA: Attribute-Based Multimodal Data Augmentation [93.05614922383822]
Attribute-based Multimodal Data Augmentation (ARMADA) は、知識誘導による視覚属性の操作による新しいマルチモーダルデータ拡張手法である。
ARMADAは、新しいマルチモーダルデータ生成フレームワークである。 (i) 意味的に一貫性があるがユニークな画像-テキストペア生成のために、シンボリックKBから知識基底属性を抽出する。
これはまた、解釈可能性の向上と現実世界の接地のために外部の知識プロキシを活用する必要性を強調している。
論文 参考訳(メタデータ) (2024-08-19T15:27:25Z) - Fine-tuning Multimodal Large Language Models for Product Bundling [53.01642741096356]
Bundle-MLLMは,大規模言語モデル(LLM)をハイブリットアイテムトークン化アプローチにより微調整する新しいフレームワークである。
具体的には、テキスト、メディア、およびリレーショナルデータを統一トークン化に統合し、テキストトークンと非テキストトークンを区別するソフトな分離トークンを導入する。
1)バンドルパターンを学習し,2)製品バンドル固有のマルチモーダルセマンティック理解の強化を行う。
論文 参考訳(メタデータ) (2024-07-16T13:30:14Z) - A Multimodal In-Context Tuning Approach for E-Commerce Product
Description Generation [47.70824723223262]
マーケティングキーワードを付加した画像から製品記述を生成するための新しい設定を提案する。
本稿では, ModICT という, シンプルで効果的なマルチモーダル・インコンテキスト・チューニング手法を提案する。
実験の結果、ModICTは従来の方法と比較して精度(ルージュ-Lでは最大3.3%)と多様性(D-5では最大9.4%)を著しく改善することが示された。
論文 参考訳(メタデータ) (2024-02-21T07:38:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。