論文の概要: Product-oriented Machine Translation with Cross-modal Cross-lingual
Pre-training
- arxiv url: http://arxiv.org/abs/2108.11119v1
- Date: Wed, 25 Aug 2021 08:36:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-26 13:00:14.141330
- Title: Product-oriented Machine Translation with Cross-modal Cross-lingual
Pre-training
- Title(参考訳): cross-modal cross-lingual pre-trainingを用いた製品指向機械翻訳
- Authors: Yuqing Song, Shizhe Chen, Qin Jin, Wei Luo, Jun Xie, Fei Huang
- Abstract要約: 製品指向機械翻訳(PMT)は、世界中のeショップ向けに必要不可欠である。
ドメインの専門性のため、PMTタスクは従来の機械翻訳問題よりも難しい。
本稿では,Fashion-MMTと呼ばれる大規模バイリンガル製品記述データセットを最初に構築する。
製品指向のクロスモーダル言語モデル(upoc)を事前学習と微調整のために設計する。
- 参考スコア(独自算出の注目度): 47.18792577471746
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Translating e-commercial product descriptions, a.k.a product-oriented machine
translation (PMT), is essential to serve e-shoppers all over the world.
However, due to the domain specialty, the PMT task is more challenging than
traditional machine translation problems. Firstly, there are many specialized
jargons in the product description, which are ambiguous to translate without
the product image. Secondly, product descriptions are related to the image in
more complicated ways than standard image descriptions, involving various
visual aspects such as objects, shapes, colors or even subjective styles.
Moreover, existing PMT datasets are small in scale to support the research. In
this paper, we first construct a large-scale bilingual product description
dataset called Fashion-MMT, which contains over 114k noisy and 40k manually
cleaned description translations with multiple product images. To effectively
learn semantic alignments among product images and bilingual texts in
translation, we design a unified product-oriented cross-modal cross-lingual
model (\upoc~) for pre-training and fine-tuning. Experiments on the Fashion-MMT
and Multi30k datasets show that our model significantly outperforms the
state-of-the-art models even pre-trained on the same dataset. It is also shown
to benefit more from large-scale noisy data to improve the translation quality.
We will release the dataset and codes at
https://github.com/syuqings/Fashion-MMT.
- Abstract(参考訳): e-commercialの製品記述を翻訳する、すなわち製品指向機械翻訳(PMT)は、世界中のe-shopperを提供するために不可欠である。
しかし、ドメインの専門性のため、PMTタスクは従来の機械翻訳問題よりも難しい。
第一に、製品記述には多くの専門用語があり、製品イメージなしで翻訳することは曖昧である。
第二に、製品記述は、通常の画像記述よりも複雑な方法で画像と関連しており、オブジェクト、形状、色、さらには主観的なスタイルなど様々な視覚的な側面を含んでいる。
さらに、研究を支援するため、既存のPMTデータセットは小規模である。
本稿では、まず、Fashion-MMTと呼ばれる大規模なバイリンガル製品記述データセットを構築し、複数の製品画像による114kのノイズと40k以上の手作業による記述翻訳を含む。
翻訳における製品画像とバイリンガルテキスト間のセマンティックアライメントを効果的に学習するために,事前学習と微調整のための製品指向のクロスランガルモデル (\upoc~) を設計する。
Fashion-MMTとMulti30kデータセットの実験では、私たちのモデルは、同じデータセット上で事前トレーニングされた最先端モデルよりも大幅に優れています。
また、翻訳品質を向上させるために、大規模ノイズデータの恩恵を受けることも示されている。
データセットとコードはhttps://github.com/syuqings/Fashion-MMT.comで公開します。
関連論文リスト
- TRINS: Towards Multimodal Language Models that Can Read [61.17806538631744]
TRINSはText-RichイメージINStructionデータセットである。
39,153の画像、キャプション、102,437の質問が含まれている。
本稿では,画像中のテキスト内容の理解に長けたLanguage-vision Reading Assistant(LaRA)を提案する。
論文 参考訳(メタデータ) (2024-06-10T18:52:37Z) - 3AM: An Ambiguity-Aware Multi-Modal Machine Translation Dataset [90.95948101052073]
英語と中国語で26,000のパラレル文対からなる曖昧性を考慮したMMTデータセットである3AMを導入する。
我々のデータセットは、他のMTデータセットよりもあいまいで、キャプションと画像の両方が多種多様であるように設計されています。
実験の結果,我々のデータセットでトレーニングしたMTモデルは,他のMTデータセットでトレーニングしたMTモデルよりも視覚情報を活用する能力が高いことがわかった。
論文 参考訳(メタデータ) (2024-04-29T04:01:30Z) - Exploring the Necessity of Visual Modality in Multimodal Machine Translation using Authentic Datasets [3.54128607634285]
実世界の翻訳データセットを活用し,視覚的モダリティが翻訳効率に与える影響について検討した。
視覚的モダリティは、実際の翻訳データセットの大部分に有利であることが判明した。
以上の結果から,視覚情報は多モーダル翻訳における補助的役割を担っていることが示唆された。
論文 参考訳(メタデータ) (2024-04-09T08:19:10Z) - A Multimodal In-Context Tuning Approach for E-Commerce Product
Description Generation [47.70824723223262]
マーケティングキーワードを付加した画像から製品記述を生成するための新しい設定を提案する。
本稿では, ModICT という, シンプルで効果的なマルチモーダル・インコンテキスト・チューニング手法を提案する。
実験の結果、ModICTは従来の方法と比較して精度(ルージュ-Lでは最大3.3%)と多様性(D-5では最大9.4%)を著しく改善することが示された。
論文 参考訳(メタデータ) (2024-02-21T07:38:29Z) - A Survey of Vision-Language Pre-training from the Lens of Multimodal
Machine Translation [13.426403221815063]
本稿では,マルチモーダル機械翻訳のレンズによる言語とビジョンの事前学習の状況について調査する。
我々は、共通アーキテクチャ、事前学習目的、文献からのデータセットを要約し、マルチモーダル機械翻訳の進展に何が必要かを推測する。
論文 参考訳(メタデータ) (2023-06-12T15:56:10Z) - Exploring Better Text Image Translation with Multimodal Codebook [39.12169843196739]
テキスト画像翻訳(TIT)は、画像に埋め込まれたソーステキストをターゲット翻訳に変換することを目的としている。
本研究ではまず,中国語のTITデータセットOCRMT30Kに注釈を付け,その後の研究に便宜を提供する。
そこで本研究では,画像と関連するテキストを関連付けることができるマルチモーダルコードブックを用いたTITモデルを提案する。
本稿では,テキスト機械翻訳,画像テキストアライメント,TITタスクを含む多段階学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-27T08:41:18Z) - Unified Model Learning for Various Neural Machine Translation [63.320005222549646]
既存の機械翻訳(NMT)研究は主にデータセット固有のモデルの開発に焦点を当てている。
我々は,NMT(UMLNMT)のための統一モデル学習モデル(Unified Model Learning for NMT)を提案する。
OurNMTは、データセット固有のモデルよりも大幅に改善され、モデルデプロイメントコストが大幅に削減される。
論文 参考訳(メタデータ) (2023-05-04T12:21:52Z) - Beyond Triplet: Leveraging the Most Data for Multimodal Machine
Translation [53.342921374639346]
マルチモーダル機械翻訳は、視覚などの他のモーダルからの情報を取り入れることで、翻訳品質を向上させることを目的としている。
従来のMMTシステムは主に視覚情報へのアクセスと利用に重点を置いており、画像関連データセット上でそれらの手法を検証する傾向がある。
本稿では,MTのための新しい手法と新しいデータセットを確立する。
論文 参考訳(メタデータ) (2022-12-20T15:02:38Z) - UC2: Universal Cross-lingual Cross-modal Vision-and-Language
Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。
Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。
提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-01T08:30:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。