論文の概要: Localizing Open-Ontology QA Semantic Parsers in a Day Using Machine
Translation
- arxiv url: http://arxiv.org/abs/2010.05106v1
- Date: Sat, 10 Oct 2020 22:03:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-08 22:37:21.923643
- Title: Localizing Open-Ontology QA Semantic Parsers in a Day Using Machine
Translation
- Title(参考訳): 機械翻訳を用いたオープンオントロジーQAセマンティックパーザの地域化
- Authors: Mehrad Moradshahi, Giovanni Campagna, Sina J. Semnani, Silei Xu,
Monica S. Lam
- Abstract要約: セマンティックローカライザ(Semantic Localizer, SPL)は, 機械翻訳(NMT)システムを利用して, 新しい言語のセマンティックデータセットをローカライズするツールキットである。
提案手法は,公共のWebサイトから抽出したローカルエンティティを機械翻訳して,ターゲット言語で自動的に学習データを生成する手法である。
提案手法は, ホテルで30%以上, レストランで40%以上, テスト言語でローカライズされたレストランで40%以上, 従来の最先端手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 7.104736898689835
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose Semantic Parser Localizer (SPL), a toolkit that leverages Neural
Machine Translation (NMT) systems to localize a semantic parser for a new
language. Our methodology is to (1) generate training data automatically in the
target language by augmenting machine-translated datasets with local entities
scraped from public websites, (2) add a few-shot boost of human-translated
sentences and train a novel XLMR-LSTM semantic parser, and (3) test the model
on natural utterances curated using human translators.
We assess the effectiveness of our approach by extending the current
capabilities of Schema2QA, a system for English Question Answering (QA) on the
open web, to 10 new languages for the restaurants and hotels domains. Our
models achieve an overall test accuracy ranging between 61% and 69% for the
hotels domain and between 64% and 78% for restaurants domain, which compares
favorably to 69% and 80% obtained for English parser trained on gold English
data and a few examples from validation set. We show our approach outperforms
the previous state-of-the-art methodology by more than 30% for hotels and 40%
for restaurants with localized ontologies for the subset of languages tested.
Our methodology enables any software developer to add a new language
capability to a QA system for a new domain, leveraging machine translation, in
less than 24 hours.
- Abstract(参考訳): 本稿では,ニューラルマシン翻訳(nmt)システムを活用した意味的パーサローカライザ(spl)を提案する。
提案手法は,(1)公開webサイトから抽出したローカルエンティティを用いた機械翻訳データセットの強化,(2)人間翻訳文の数発増や新たなxlmr-lstm意味構文解析器の訓練,(3)人間翻訳者を用いた自然発話モデルのテスト,などにより,対象言語での自動トレーニングデータを生成する。
オープンウェブ上での英語質問回答システムであるSchema2QAを,レストランやホテルのドメイン向けに10の新しい言語に拡張することで,アプローチの有効性を評価する。
本モデルでは,ホテルドメインの61%から69%,レストランドメインの64%から78%という総合的なテスト精度を実現している。
提案手法は,ホテルの30%以上,テスト対象の言語サブセットに局所的オントロジーを持つレストランの40%という,これまでの最先端手法を上回っている。
我々の手法により、あらゆるソフトウェア開発者が新しいドメインのQAシステムに新しい言語機能を追加でき、機械翻訳を24時間以内で利用できる。
関連論文リスト
- KInIT at SemEval-2024 Task 8: Fine-tuned LLMs for Multilingual Machine-Generated Text Detection [0.0]
SemEval-2024 Task 8は、マルチジェネレータ、マルチドメイン、マルチランガルブラックボックスマシン生成テキスト検出に重点を置いている。
提案手法は,第4位にランクインし,勝者のわずか1ポイント未満の競争結果を得た。
論文 参考訳(メタデータ) (2024-02-21T10:09:56Z) - Cross-lingual neural fuzzy matching for exploiting target-language
monolingual corpora in computer-aided translation [0.0]
本稿では,ドメイン内ターゲット言語(TL)モノリンガルコーパスの活用を目的とした,新しいニューラルアプローチを提案する。
本手法は,TL単言語コーパスから翻訳提案を検索するための言語間文の埋め込みと,後処理を推定するためのニューラルモデルに頼っている。
本稿では,これらの手法を4つの言語ペア上で自動評価することにより,TMベースのCAT環境におけるモノリンガルテキストの活用に成功していることを示す。
論文 参考訳(メタデータ) (2024-01-16T14:00:28Z) - Strategies for improving low resource speech to text translation relying
on pre-trained ASR models [59.90106959717875]
本稿では,テキスト翻訳(ST)における低音源音声の性能向上のための技術と知見について述べる。
本研究は,英語とポルトガル語,タマシェク語とフランス語の2つの言語対について,シミュレーションおよび実低資源設定について実験を行った。
論文 参考訳(メタデータ) (2023-05-31T21:58:07Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - Active Learning for Neural Machine Translation [0.0]
NMTツールキットのJoey NMTにActive Learningと呼ばれるテクニックを組み込んで、低リソース言語翻訳の十分な精度と堅牢な予測を行った。
この研究は、トランスフォーマーベースのNMTシステム、ベースラインモデル(BM)、フルトレーニングモデル(FTM)、アクティブラーニング最小信頼ベースモデル(ALLCM)、アクティブラーニングマージンサンプリングベースモデル(ALMSM)を用いて、英語をヒンディー語に翻訳する。
論文 参考訳(メタデータ) (2022-12-30T17:04:01Z) - FRMT: A Benchmark for Few-Shot Region-Aware Machine Translation [64.9546787488337]
本稿では、Few-shot Region-aware Machine Translationのための新しいデータセットと評価ベンチマークFRMTを提案する。
このデータセットは、英語からポルトガル語と中国語の2つの地域変種へのプロの翻訳で構成されている。
論文 参考訳(メタデータ) (2022-10-01T05:02:04Z) - Improving Multilingual Neural Machine Translation System for Indic
Languages [0.0]
低リソース言語翻訳に関わる問題に対処する多言語ニューラルマシン翻訳(MNMT)システムを提案する。
提案モデルの実現には最先端のトランスフォーマーアーキテクチャを用いる。
大量のデータに対する試行は、従来のモデルよりもその優位性を明らかにしている。
論文 参考訳(メタデータ) (2022-09-27T09:51:56Z) - Meta-Learning a Cross-lingual Manifold for Semantic Parsing [75.26271012018861]
新しい言語をサポートするためにセマンティックをローカライズするには、効果的な言語間一般化が必要である。
本稿では,言語間移動において,最大サンプル効率で注釈付きセマンティックを学習するための一階メタ学習アルゴリズムを提案する。
ATIS上の6つの言語にまたがる結果は、ステップの組み合わせによって、各新言語におけるソーストレーニングデータの10パーセントを正確なセマンティクスでサンプリングできることを示している。
論文 参考訳(メタデータ) (2022-09-26T10:42:17Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - Bootstrapping a Crosslingual Semantic Parser [74.99223099702157]
我々は、英語のような単一の言語で訓練された意味を、最小限のアノテーションで新しい言語や複数のドメインに適用する。
我々は、機械翻訳がトレーニングデータの適切な代用であるかどうかを問うとともに、英語、パラフレーズ、多言語事前学習モデルとの併用トレーニングを用いて、ブートストラップを調査するように拡張する。
論文 参考訳(メタデータ) (2020-04-06T12:05:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。