論文の概要: Generating Rich Product Descriptions for Conversational E-commerce
Systems
- arxiv url: http://arxiv.org/abs/2111.15298v1
- Date: Tue, 30 Nov 2021 11:22:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-01 13:58:23.670161
- Title: Generating Rich Product Descriptions for Conversational E-commerce
Systems
- Title(参考訳): 会話型eコマースシステムのためのリッチ製品記述の生成
- Authors: Shashank Kedia, Aditya Mantha, Sneha Gupta, Stephen Guo, Kannan Achan
- Abstract要約: 通常、eコマース企業は短い商品のタイトルをウェブページに表示している。
本稿では,eコマース製品記述コーパスへのBERT埋め込みをさらに事前学習することで,シーケンス・ツー・シーケンスのアプローチであるeBERTを提案する。
実世界の産業データセットと,モデル出力の人間による評価実験により,eBERTの要約が同等のベースラインモデルより優れていることが示された。
- 参考スコア(独自算出の注目度): 6.594755784216671
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Through recent advancements in speech technologies and introduction of smart
assistants, such as Amazon Alexa, Apple Siri and Google Home, increasing number
of users are interacting with various applications through voice commands.
E-commerce companies typically display short product titles on their webpages,
either human-curated or algorithmically generated, when brevity is required.
However, these titles are dissimilar from natural spoken language. For example,
"Lucky Charms Gluten Free Break-fast Cereal, 20.5 oz a box Lucky Charms Gluten
Free" is acceptable to display on a webpage, while a similar title cannot be
used in a voice based text-to-speech application. In such conversational
systems, an easy to comprehend sentence, such as "a 20.5 ounce box of lucky
charms gluten free cereal" is preferred. Compared to display devices, where
images and detailed product information can be presented to users, short titles
for products which convey the most important information, are necessary when
interfacing with voice assistants. We propose eBERT, a sequence-to-sequence
approach by further pre-training the BERT embeddings on an e-commerce product
description corpus, and then fine-tuning the resulting model to generate short,
natural, spoken language titles from input web titles. Our extensive
experiments on a real-world industry dataset, as well as human evaluation of
model output, demonstrate that eBERT summarization outperforms comparable
baseline models. Owing to the efficacy of the model, a version of this model
has been deployed in real-world setting.
- Abstract(参考訳): 最近の音声技術の進歩とAmazon Alexa、Apple Siri、Google Homeといったスマートアシスタントの導入により、音声コマンドを通じてさまざまなアプリケーションと対話するユーザが増えています。
eコマース企業は通常、簡潔さが必要なときに、人力で作成するかアルゴリズムで生成した短い商品タイトルをウェブページに表示する。
しかし、これらのタイトルは自然言語とは異なる。
例えば、「Lucky Charms Gluten Free Break-fast Cereal, 20.5 oz a box Lucky Charms Gluten Free」はウェブページに表示でき、音声ベースのテキスト・音声アプリケーションでは同様のタイトルは使用できない。
このような会話システムでは、「運のよいチャームの20.5オンスの箱グルテンフリーシリアル」のような理解しやすい文が好まれる。
ユーザに対して画像や詳細な製品情報を提示できる表示装置と比較して、最も重要な情報を伝える製品の短いタイトルは、音声アシスタントと対話する際に必要である。
e-commerce製品記述コーパスにbert埋め込みを事前トレーニングし、入力されたwebタイトルから短い自然言語タイトルを生成するようにモデルを微調整することで、シーケンシャル・ツー・シーケンスアプローチを提案する。
実世界の産業データセットに関する広範な実験と、モデル出力の人間による評価は、eBERTの要約が同等のベースラインモデルより優れていることを示した。
モデルの有効性のため、このモデルのバージョンは実際の設定でデプロイされている。
関連論文リスト
- Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming [0.0]
ミニオムニ(Mini-Omni)は、リアルタイム音声対話が可能な音声ベースのエンドツーエンド会話モデルである。
そこで本研究では,テキストによる音声生成手法と,推論中のバッチ並列戦略を併用して,性能を向上させる手法を提案する。
また、最適化音声出力のための微調整モデルにVoiceAssistant-400Kデータセットを導入する。
論文 参考訳(メタデータ) (2024-08-29T17:18:53Z) - A Multimodal In-Context Tuning Approach for E-Commerce Product
Description Generation [47.70824723223262]
マーケティングキーワードを付加した画像から製品記述を生成するための新しい設定を提案する。
本稿では, ModICT という, シンプルで効果的なマルチモーダル・インコンテキスト・チューニング手法を提案する。
実験の結果、ModICTは従来の方法と比較して精度(ルージュ-Lでは最大3.3%)と多様性(D-5では最大9.4%)を著しく改善することが示された。
論文 参考訳(メタデータ) (2024-02-21T07:38:29Z) - Code-Mixed Text to Speech Synthesis under Low-Resource Constraints [6.544954579068865]
本稿では,eコマースアプリケーション向けに構築されたHindi-English TTSシステムについて述べる。
本稿では,個々の言語におけるモノリンガルデータセットを利用したデータ指向手法を提案する。
純粋なコード混在テストセットでは、コード混在のない単一のスクリプトバイランガルトレーニングが有効であることを示す。
論文 参考訳(メタデータ) (2023-12-02T10:40:38Z) - Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - TextrolSpeech: A Text Style Control Speech Corpus With Codec Language
Text-to-Speech Models [51.529485094900934]
リッチテキスト属性を付加した最初の大規模音声感情データセットであるTextrolSpeechを提案する。
本稿では,GPTモデルを利用した多段階プロンプトプログラミング手法を提案する。
そこで我々は,より多様なスタイルで音声を生成する必要性に対処するため,Salleと呼ばれる効率的なアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-08-28T09:06:32Z) - Product Information Extraction using ChatGPT [69.12244027050454]
本稿では,製品記述から属性/値対を抽出するChatGPTの可能性について検討する。
以上の結果から,ChatGPTは事前学習した言語モデルに類似した性能を達成できるが,微調整を行うにはトレーニングデータや計算処理がはるかに少ないことが示唆された。
論文 参考訳(メタデータ) (2023-06-23T09:30:01Z) - A Sequence to Sequence Model for Extracting Multiple Product Name
Entities from Dialog [2.9299798085291195]
Amazon Alexaのような既存の音声注文システムは、単一の製品名エンティティのみをキャプチャできる。
本稿では,最大10項目を発話で認識するエンティティトランスフォーマー(ET)ニューラルネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-10-28T01:54:02Z) - E-BERT: A Phrase and Product Knowledge Enhanced Language Model for
E-commerce [63.333860695727424]
電子商取引タスクは、ドメインフレーズの正確な理解を必要とするが、そのようなきめ細かいフレーズレベルの知識は、BERTの訓練目的によって明示的にモデル化されていない。
この問題に対処するため、我々はE-BERTという統合事前学習フレームワークを提案する。
具体的には、フレーズレベルの知識を保存するために、適応的ハイブリッドマスキングを導入し、モデルが予備単語の知識から複雑なフレーズの学習に適応的に切り替えることを可能にする。
製品レベルの知識を活用するために,E-BERT を訓練し,製品に付随する隣人を認知的なクロスアテンション層で予測するNighbor Product Restruction を導入する。
論文 参考訳(メタデータ) (2020-09-07T00:15:36Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z) - Product Title Generation for Conversational Systems using BERT [9.52564724798302]
入力されたWebタイトルから、短時間で自然な音声言語タイトルを生成するためのシーケンス・ツー・シーケンス手法を提案する。
BERTの要約は、実世界の業界データセットでの実験において、同等のベースラインモデルを上回っている。
論文 参考訳(メタデータ) (2020-07-23T03:15:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。