論文の概要: Bilingual Terminology Extraction from Non-Parallel E-Commerce Corpora
- arxiv url: http://arxiv.org/abs/2104.07398v1
- Date: Thu, 15 Apr 2021 11:59:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-16 15:02:25.695083
- Title: Bilingual Terminology Extraction from Non-Parallel E-Commerce Corpora
- Title(参考訳): 非パラレルeコマースコーパスからのバイリンガル用語抽出
- Authors: Hao Jia, Shuqin Gu, Yangbin Shi, Xiangyu Duan, Zhongkai Hu, Yuqi
Zhang, Weihua Luo
- Abstract要約: 電子商取引における非並列比較コーパスからバイリンガル用語を抽出する新しい枠組みを提案する。
本フレームワークは,ソース側用語とターゲット側文の深い意味関係を十分に活用することにより,対応する対象用語を抽出することができる。
- 参考スコア(独自算出の注目度): 16.795361175663153
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Bilingual terminologies are important resources for natural language
processing (NLP) applications. The acquisition of bilingual terminology pairs
is either human translation or automatic extraction from parallel data. We
notice that comparable corpora could also be a good resource for extracting
bilingual terminology pairs, especially for e-commerce domain. The parallel
corpora are particularly scarce in e-commerce settings, but the non-parallel
corpora in different languages from the same domain are easily available. In
this paper, we propose a novel framework of extracting bilingual terminologies
from non-parallel comparable corpus in e-commerce. Benefiting from
cross-lingual pre-training in e-commerce, our framework can extract the
corresponding target terminology by fully utilizing the deep semantic
relationship between source-side terminology and target-side sentence.
Experimental results on various language pairs show that our approaches achieve
significantly better performance than various strong baselines.
- Abstract(参考訳): バイリンガル用語は自然言語処理(NLP)アプリケーションにとって重要な資源である。
バイリンガル用語対の取得は、人間の翻訳または並列データからの自動抽出である。
比較コーパスは、特にeコマースドメインにおいて、バイリンガル用語のペアを抽出するのにも良い資源になり得ることに気付きました。
並列コーパスは特にeコマース環境では乏しいが、同一ドメインの異なる言語での非並列コーパスは容易に利用できる。
本稿では,eコマースにおける非並列比較コーパスからバイリンガル用語を抽出する新しい枠組みを提案する。
eコマースにおける言語間事前学習の利点を生かして、ソースサイド用語とターゲットサイド文の深い意味関係を十分に活用することにより、対応するターゲット用語を抽出することができる。
各種言語対の実験結果から,本手法は各種の強いベースラインよりもはるかに優れた性能を示した。
関連論文リスト
- A Recipe of Parallel Corpora Exploitation for Multilingual Large Language Models [64.79218405438871]
最近の研究は、多言語大言語モデルを強化するために並列コーパスを利用する可能性を強調している。
並列コーパスで強化された多言語大言語モデルの性能に及ぼす並列コーパスの品質と量,訓練目標,モデルサイズの影響について検討した。
論文 参考訳(メタデータ) (2024-06-29T13:12:39Z) - Towards a Deep Understanding of Multilingual End-to-End Speech
Translation [52.26739715012842]
我々は22言語以上で訓練された多言語エンドツーエンド音声翻訳モデルで学習した表現を解析する。
我々は分析から3つの大きな発見を得た。
論文 参考訳(メタデータ) (2023-10-31T13:50:55Z) - Beyond Shared Vocabulary: Increasing Representational Word Similarities
across Languages for Multilingual Machine Translation [9.794506112999823]
本稿では,単語等価クラスによる単語レベルの情報伝達経路を定義し,言語間の単語埋め込みを融合するグラフネットワークに依存する。
1) 類似した意味を持つ単語の埋め込みは言語間で整合性がよいこと,2) 提案手法は高・低リソースのMNMTに対して最大2.3ポイントのBLEU改善を実現すること,3) 計算コストの制限により1.0%未満のトレーニング可能なパラメータを必要とすること,である。
論文 参考訳(メタデータ) (2023-05-23T16:11:00Z) - Ensembling Transformers for Cross-domain Automatic Term Extraction [8.38711330675001]
本稿では,トランスフォーマーをベースとした事前学習型言語モデルの,多言語クロスドメイン設定における項抽出に対する予測能力の比較研究を提案する。
この実験は,4つの専門ドメイン(倒壊,風力エネルギー,気流,心不全)と3つの言語(英語,フランス語,オランダ語)をカバーするACTERコーパスを用いて行った。
その結果、モノリンガルモデルを採用する戦略は、関連する研究から最先端のアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2022-12-12T04:20:11Z) - Language Agnostic Multilingual Information Retrieval with Contrastive
Learning [59.26316111760971]
本稿では,多言語情報検索システムの学習方法を提案する。
並列コーパスと非並列コーパスを利用して、事前訓練された多言語言語モデルを改善する。
我々のモデルは少数のパラレル文でもうまく機能する。
論文 参考訳(メタデータ) (2022-10-12T23:53:50Z) - Multilingual Representation Distillation with Contrastive Learning [20.715534360712425]
コントラスト学習を多言語表現蒸留に統合し,並列文の品質評価に利用する。
我々は,多言語類似性探索とコーパスフィルタリングタスクによるアプローチの有効性を検証した。
論文 参考訳(メタデータ) (2022-10-10T22:27:04Z) - Exposing Cross-Lingual Lexical Knowledge from Multilingual Sentence
Encoders [85.80950708769923]
本稿では,多言語言語モデルを用いて,それらのパラメータに格納された言語間語彙の知識量を探索し,元の多言語LMと比較する。
また、この知識を付加的に微調整した多言語モデルにより公開する新しい手法も考案した。
標準ベンチマークの大幅な向上を報告します。
論文 参考訳(メタデータ) (2022-04-30T13:23:16Z) - ParCourE: A Parallel Corpus Explorer for a Massively Multilingual Corpus [2.7036498789349244]
多言語NLPの進展には,言語の種類的特性の研究が不可欠である。
私たちはParCourEという,1334の言語をカバーする,単語を並べた並列コーパスを閲覧できるオンラインツールを提供しています。
論文 参考訳(メタデータ) (2021-07-14T12:16:21Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。