論文の概要: Enhancing E-commerce Product Title Translation with Retrieval-Augmented Generation and Large Language Models
- arxiv url: http://arxiv.org/abs/2409.12880v1
- Date: Thu, 19 Sep 2024 16:23:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 13:10:09.657286
- Title: Enhancing E-commerce Product Title Translation with Retrieval-Augmented Generation and Large Language Models
- Title(参考訳): 検索型生成モデルと大規模言語モデルによるEコマース製品タイトル翻訳の強化
- Authors: Bryan Zhang, Taichi Nakatani, Stephan Walter,
- Abstract要約: 本研究では,電子商取引における既存のバイリンガル製品情報を活用する検索強化世代(RAG)アプローチを提案する。
実験の結果,提案手法は製品タイトルの翻訳品質を最大15.3%向上させることができた。
- 参考スコア(独自算出の注目度): 0.20482269513546458
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: E-commerce stores enable multilingual product discovery which require accurate product title translation. Multilingual large language models (LLMs) have shown promising capacity to perform machine translation tasks, and it can also enhance and translate product titles cross-lingually in one step. However, product title translation often requires more than just language conversion because titles are short, lack context, and contain specialized terminology. This study proposes a retrieval-augmented generation (RAG) approach that leverages existing bilingual product information in e-commerce by retrieving similar bilingual examples and incorporating them as few-shot prompts to enhance LLM-based product title translation. Experiment results show that our proposed RAG approach improve product title translation quality with chrF score gains of up to 15.3% for language pairs where the LLM has limited proficiency.
- Abstract(参考訳): Eコマースストアは、正確な製品タイトルの翻訳を必要とする多言語製品発見を可能にする。
多言語大言語モデル(LLM)は,機械翻訳作業を行う上で有望な能力を示した。
しかし、タイトルが短く、文脈が欠如し、専門用語を含むため、製品タイトルの翻訳は単に言語変換以上のものを必要とすることが多い。
本研究では、類似のバイリンガル例を検索し、LLMに基づく製品タイトル翻訳を向上するために、少数のプロンプトとして組み込むことにより、電子商取引における既存のバイリンガル製品情報を活用する検索強化世代(RAG)アプローチを提案する。
実験の結果,LLMの習熟度に限界がある言語対では,chrFスコアが最大15.3%向上し,製品タイトルの翻訳品質が向上することが示唆された。
関連論文リスト
- UltraLink: An Open-Source Knowledge-Enhanced Multilingual Supervised
Fine-tuning Dataset [69.33424532827608]
オープンソースの大規模言語モデル(LLM)は、様々な分野において大きな強みを持っている。
本研究では,オープンソースの多言語教師付き微調整データセットを構築する。
結果として得られたUltraLinkデータセットは、5つの言語にわたる約100万のサンプルで構成されている。
論文 参考訳(メタデータ) (2024-02-07T05:05:53Z) - InstructPTS: Instruction-Tuning LLMs for Product Title Summarization [38.87781022894529]
InstructPTSはProduct Title Summarization(PTS)タスクの制御可能なアプローチである
提案手法は,新しい指導的微調整戦略を用いて学習し,様々な基準に従って製品タイトルを要約することができる。
提案手法は,14点以上のBLEU点と8点以上のROUGE点を改良し,より正確な製品名要約を生成する。
論文 参考訳(メタデータ) (2023-10-25T04:56:07Z) - Translate to Disambiguate: Zero-shot Multilingual Word Sense
Disambiguation with Pretrained Language Models [67.19567060894563]
事前訓練された言語モデル(PLM)は、豊富な言語間知識を学習し、多様なタスクでうまく機能するように微調整することができる。
C-WLT(Contextual Word-Level Translation)を用いた言語間単語感覚の捉え方の検討を行った。
モデルのサイズが大きくなるにつれて、PLMはより言語間単語認識の知識をエンコードし、WLT性能を改善するためのコンテキストを良くする。
論文 参考訳(メタデータ) (2023-04-26T19:55:52Z) - Modeling Sequential Sentence Relation to Improve Cross-lingual Dense
Retrieval [87.11836738011007]
マスク付き文モデル(MSM)と呼ばれる多言語多言語言語モデルを提案する。
MSMは、文表現を生成する文エンコーダと、文書から文ベクトルのシーケンスに適用される文書エンコーダとから構成される。
モデルをトレーニングするために,サンプル負の階層的コントラスト損失によって文ベクトルをマスクし,予測するマスク付き文予測タスクを提案する。
論文 参考訳(メタデータ) (2023-02-03T09:54:27Z) - Bootstrapping Multilingual Semantic Parsers using Large Language Models [28.257114724384806]
複数の言語にまたがって英語データセットを転送するTranslation-trainパラダイムは、タスク固有の多言語モデルをトレーニングする上で重要な要素である。
本稿では,多言語意味解析の課題を考察し,英語データセットを複数言語に翻訳する大規模言語モデル(LLM)の有効性と柔軟性を示す。
論文 参考訳(メタデータ) (2022-10-13T19:34:14Z) - Massively Multilingual Lexical Specialization of Multilingual
Transformers [18.766379322798837]
本稿では,2つの標準言語間語彙タスクにおいて,多言語レキシカル特殊化が著しく向上することを示す。
我々は,語彙制約のない言語への多言語語彙の特殊化によって一般化できることを示唆し,特殊化に欠かせない言語に対するゲインを観察する。
論文 参考訳(メタデータ) (2022-08-01T17:47:03Z) - Exposing Cross-Lingual Lexical Knowledge from Multilingual Sentence
Encoders [85.80950708769923]
本稿では,多言語言語モデルを用いて,それらのパラメータに格納された言語間語彙の知識量を探索し,元の多言語LMと比較する。
また、この知識を付加的に微調整した多言語モデルにより公開する新しい手法も考案した。
標準ベンチマークの大幅な向上を報告します。
論文 参考訳(メタデータ) (2022-04-30T13:23:16Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z) - Cross-Lingual Low-Resource Set-to-Description Retrieval for Global
E-Commerce [83.72476966339103]
言語間情報検索は、国境を越えたeコマースにおける新しい課題である。
文脈依存型言語間マッピングの強化を図った新しい言語間マッチングネットワーク(CLMN)を提案する。
実験結果から,提案したCLMNは課題に対して印象的な結果をもたらすことが示唆された。
論文 参考訳(メタデータ) (2020-05-17T08:10:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。