論文の概要: A Multimodal, Multitask System for Generating E Commerce Text Listings from Images
- arxiv url: http://arxiv.org/abs/2510.21835v1
- Date: Wed, 22 Oct 2025 11:50:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:14.602018
- Title: A Multimodal, Multitask System for Generating E Commerce Text Listings from Images
- Title(参考訳): 画像からEコマーステキストリスティングを生成するマルチモーダルマルチタスクシステム
- Authors: Nayan Kumar Singh,
- Abstract要約: 本稿では,1つの画像から現実的なテキストリストを生成するエンド・ツー・エンドマルチタスクシステムを提案する。
階層的な生成プロセスは非常に効果的であることが証明され、事実の幻覚率を12.7%から7.1%に下げる。
1つの小さな欠点は、ROUGE-Lスコアで直接視覚から言語へのモデルよりも3.5%悪い性能を発揮することである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Manually generating catchy descriptions and names is labor intensive and a slow process for retailers. Although generative AI provides an automation solution in form of Vision to Language Models (VLM), the current VLMs are prone to factual "hallucinations". Siloed, single task models are not only inefficient but also fail to capture interdependent relationships between features. To address these challenges, we propose an end to end, multi task system that generates factually grounded textual listings from a single image. The contributions of this study are two proposals for the model architecture. First, application of multi task learning approach for fine tuning a vision encoder where a single vision backbone is jointly trained on attribute prediction such as color, hemline and neck style and price regression. Second, introduction of a hierarchical generation process where the model's own predicted attributes are embedded in a prompt and fed to the text decoder to improve factual consistency. The experiments demonstrate the superiority of this architecture. The multi tasking approach outperforms both the independent price regression, with a 3.6% better R2 Value and attribute classification, with a 6.6% improvement F1 score. Critically, the hierarchical generation process proves highly effective, slashing the factual hallucination rate from 12.7% to 7.1%, a 44.5% relative reduction, compared to a non hierarchical ablation. The hierarchical approach also reduces the latency of the autoregressive text generation process by a factor of 3.5 when compared to direct vision to language model of similar size. One minor caveat is that the model does perform 3.5% worse than direct vision-to-language model on ROUGE-L score.
- Abstract(参考訳): 手動でキャッチーな説明や名前を生成するのは労働集約的であり、小売業者にとって遅いプロセスだ。
生成AIは、ビジョン・トゥ・ランゲージ・モデル(VLM)という形で自動化ソリューションを提供するが、現在のVLMは事実上の「幻覚」の傾向にある。
サイロ化された単一タスクモデルは非効率であるだけでなく、機能間の相互依存関係をキャプチャできない。
これらの課題に対処するため,本研究では,1つの画像から現実的に根拠付けられたテキストリストを生成する,エンド・ツー・エンドのマルチタスクシステムを提案する。
本研究の貢献はモデルアーキテクチャに関する2つの提案である。
まず,色,ヘムライン,ネックスタイルなどの属性予測と価格回帰に基づいて,単一の視覚バックボーンを協調訓練した視覚エンコーダの微調整にマルチタスク学習アプローチを適用する。
第二に、モデル自身の予測属性をプロンプトに埋め込んでテキストデコーダに送って事実整合性を改善する階層的生成プロセスを導入する。
実験は、このアーキテクチャの優位性を実証している。
マルチタスク方式は、独立価格回帰よりも3.6%、R2値と属性の分類が6.6%、F1スコアが6.6%向上している。
批判的に、階層生成プロセスは非常に効果的であることが証明され、非階層的アブレーションと比較して、事実の幻覚率を12.7%から7.1%に下げる。
階層的なアプローチは、同様の大きさの言語モデルへの直接的なビジョンと比較して、自動回帰テキスト生成プロセスのレイテンシを3.5倍に削減する。
1つの小さな欠点は、ROUGE-Lスコアで直接視覚から言語へのモデルよりも3.5%悪い性能を発揮することである。
関連論文リスト
- EfficientLLaVA:Generalizable Auto-Pruning for Large Vision-language Models [64.18350535770357]
マルチモーダル推論の効率を高めるために,大規模視覚言語モデルの自動プルーニング手法を提案する。
提案手法では,所望のプルーニングポリシーを探索するために,少数のサンプルのみを活用する。
視覚的質問応答のためのScienceQA, Vizwiz, MM-vet, LLaVA-Benchデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2025-03-19T16:07:04Z) - Aligning Modalities in Vision Large Language Models via Preference
Fine-tuning [67.62925151837675]
本研究では,幻覚の問題をアライメント問題とみなし,好みのチューニングで対処する。
具体的には,AIモデルを用いたフィードバックデータを生成するPOVIDを提案する。
提案手法は,好ましくないデータを生成するための2段階のアプローチである。
広範ベンチマークを用いた実験では、幻覚を減らすだけでなく、標準ベンチマークでのモデル性能を向上させることができ、従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-02-18T00:56:16Z) - Foundation Model is Efficient Multimodal Multitask Model Selector [47.017463595702274]
ブルートフォースアプローチは、すべてのターゲットデータセット上のすべてのモデルを微調整し、高い計算コストをもたらす。
マルチタスクモデルセレクタ(EMMS)を提案し,多様なラベル形式を統一的な雑音ラベル埋め込みに変換する。
EMMSは、事前訓練されたモデルの転送可能性を評価するのに十分な高速で効果的で汎用的であり、マルチタスクシナリオにおける最初のモデル選択方法である。
論文 参考訳(メタデータ) (2023-08-11T17:54:44Z) - Beyond First Impressions: Integrating Joint Multi-modal Cues for
Comprehensive 3D Representation [72.94143731623117]
既存の方法は、単に3D表現を単一ビューの2D画像と粗い親カテゴリテキストに整列させる。
十分でないシナジーは、堅牢な3次元表現は共同視覚言語空間と一致すべきという考えを無視している。
我々は,JM3Dと呼ばれる多視点共同モダリティモデリング手法を提案し,点雲,テキスト,画像の統一表現を求める。
論文 参考訳(メタデータ) (2023-08-06T01:11:40Z) - Enabling Multimodal Generation on CLIP via Vision-Language Knowledge
Distillation [79.72299298976525]
我々は、視覚言語知識蒸留(VLKD)を通して、テキスト事前学習言語モデル(PLM)を用いた視覚言語事前学習モデルの拡張を提案する。
実験の結果,複数モーダル生成タスクにおいて,視覚的質問応答や画像キャプションなどのゼロショット性能が強いことがわかった。
PLMの本来のテキスト言語理解と生成能力は、VLKDの後に維持される。
論文 参考訳(メタデータ) (2022-03-12T09:33:37Z) - Error Detection in Large-Scale Natural Language Understanding Systems
Using Transformer Models [0.0]
Alexa、Siri、Cortana、Google Assistantといった大規模な会話アシスタントは、ドメイン、インテント、名前付きエンティティ認識の複数のモデルを使用して、発話毎に処理する。
オフラインのTransformerモデルを用いて、ドメイン分類エラーを検出する。
そこで我々は,RoBERTaモデルから生成した発話エンコーディングと生産システムのNbest仮説を組み合わせた。
論文 参考訳(メタデータ) (2021-09-04T00:10:48Z) - AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。
最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。
第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。
3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文 参考訳(メタデータ) (2020-01-15T18:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。