論文の概要: Detecting Foodborne Illness Complaints in Multiple Languages Using
English Annotations Only
- arxiv url: http://arxiv.org/abs/2010.05194v1
- Date: Sun, 11 Oct 2020 08:46:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-08 13:24:20.079466
- Title: Detecting Foodborne Illness Complaints in Multiple Languages Using
English Annotations Only
- Title(参考訳): 英語注釈のみを用いた多言語における食中毒問題の検出
- Authors: Ziyi Liu, Giannis Karamanolakis, Daniel Hsu, Luis Gravano
- Abstract要約: 医療省は、Yelpのレストランレビューなどのソーシャルメディア文書に、食品関連疾患の早期発見のためのテキスト分類システムを展開している。
この課題に対処するために、英語レビューのためのアノテーションのみを用いて、言語間学習と多言語分類器の訓練について検討する。
ラベル付き文書を複数の言語に翻訳すると、いくつかのターゲット言語の性能が向上することを示す。
- 参考スコア(独自算出の注目度): 14.518925018909119
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Health departments have been deploying text classification systems for the
early detection of foodborne illness complaints in social media documents such
as Yelp restaurant reviews. Current systems have been successfully applied for
documents in English and, as a result, a promising direction is to increase
coverage and recall by considering documents in additional languages, such as
Spanish or Chinese. Training previous systems for more languages, however,
would be expensive, as it would require the manual annotation of many documents
for each new target language. To address this challenge, we consider
cross-lingual learning and train multilingual classifiers using only the
annotations for English-language reviews. Recent zero-shot approaches based on
pre-trained multi-lingual BERT (mBERT) have been shown to effectively align
languages for aspects such as sentiment. Interestingly, we show that those
approaches are less effective for capturing the nuances of foodborne illness,
our public health application of interest. To improve performance without extra
annotations, we create artificial training documents in the target language
through machine translation and train mBERT jointly for the source (English)
and target language. Furthermore, we show that translating labeled documents to
multiple languages leads to additional performance improvements for some target
languages. We demonstrate the benefits of our approach through extensive
experiments with Yelp restaurant reviews in seven languages. Our classifiers
identify foodborne illness complaints in multilingual reviews from the Yelp
Challenge dataset, which highlights the potential of our general approach for
deployment in health departments.
- Abstract(参考訳): 医療省は、Yelpのレストランレビューなどのソーシャルメディア文書に、食品関連疾患の早期発見のためのテキスト分類システムを展開している。
現在のシステムは英語の文書にうまく適用されており、その結果、スペイン語や中国語などの追加言語での文書を考慮し、カバレッジとリコールを高めることが期待できる。
しかし、より多くの言語に対する以前のシステムのトレーニングは、新しいターゲット言語ごとに多くのドキュメントのマニュアルアノテーションを必要とするため、コストがかかる。
この課題に対処すべく,多言語学習と多言語分類の訓練を,英語レビューのアノテーションのみを用いて検討した。
事前訓練された多言語BERT(mBERT)に基づく最近のゼロショットアプローチは、感情などの側面に対して、言語を効果的に整合させることが示されている。
興味深いことに、これらのアプローチは、私たちの公衆衛生分野である食品病のニュアンスを捉えるのにあまり効果がないことが示されています。
追加のアノテーションを使わずに、機械翻訳によってターゲット言語で人工的な訓練文書を作成し、ソース(英語)とターゲット言語を併用してmBERTを訓練する。
さらに,ラベル付き文書を複数言語に翻訳することで,対象言語の性能が向上することを示す。
Yelpのレストランレビューを7言語で広範囲に実験することで,このアプローチのメリットを実証する。
我々の分類器は、Yelp Challengeデータセットからの多言語レビューで食品由来の病気の苦情を特定し、健康部門への展開に対する私たちの一般的なアプローチの可能性を強調します。
関連論文リスト
- Breaking the Script Barrier in Multilingual Pre-Trained Language Models with Transliteration-Based Post-Training Alignment [50.27950279695363]
転送性能は、低リソースのターゲット言語が高リソースのソース言語とは異なるスクリプトで書かれている場合、しばしば妨げられる。
本論文は,この問題に対処するために翻訳を用いた最近の研究に触発されて,翻訳に基づくポストプレトレーニングアライメント(PPA)手法を提案する。
論文 参考訳(メタデータ) (2024-06-28T08:59:24Z) - Towards Building an End-to-End Multilingual Automatic Lyrics Transcription Model [14.39119862985503]
利用可能なデータセットを用いた多言語ALTシステムの構築を目指している。
英語のALTに有効であることが証明されたアーキテクチャにヒントを得て,これらの手法を多言語シナリオに適用する。
単言語モデルと比較して,多言語モデルの性能を評価する。
論文 参考訳(メタデータ) (2024-06-25T15:02:32Z) - Soft Prompt Decoding for Multilingual Dense Retrieval [30.766917713997355]
本稿では,MLIRタスクへの言語間情報検索のための最先端手法の適用により,準最適性能が得られることを示す。
これは多言語コレクションの不均一性と不均衡性に起因する。
KD-SPDはMLIRの新しいソフトプロンプトデコーディング手法で、異なる言語における文書の表現を同じ埋め込み空間に暗黙的に「翻訳」する。
論文 参考訳(メタデータ) (2023-05-15T21:17:17Z) - Romanization-based Large-scale Adaptation of Multilingual Language
Models [124.57923286144515]
大規模多言語事前学習言語モデル (mPLMs) は,NLPにおける多言語間移動のデファクトステートとなっている。
我々は、mPLMをローマン化および非ロマン化した14の低リソース言語コーパスに適用するためのデータとパラメータ効率の戦略を多数検討し、比較した。
以上の結果から, UROMAN をベースとしたトランスリテラルは,多くの言語で高い性能を達成できることがわかった。
論文 参考訳(メタデータ) (2023-04-18T09:58:34Z) - Matching Tweets With Applicable Fact-Checks Across Languages [27.762055254009017]
ソーシャルメディア投稿(ツイート)のクレームに対する既存のファクトチェックを自動的に見つけることに重点を置いています。
モノリンガル(英語のみ)、マルチリンガル(スペイン語、ポルトガル語)、クロスリンガル(ヒンディー語-英語)の設定において、分類と検索の両方の実験を行う。
4つの言語対における「マッチ」分類(平均精度93%)の有望な結果を示す。
論文 参考訳(メタデータ) (2022-02-14T23:33:02Z) - Cross-Lingual Training with Dense Retrieval for Document Retrieval [56.319511218754414]
我々は、英語のアノテーションから複数の非英語言語への文書ランク付けのための異なる転送手法について検討する。
6つの言語(中国語、アラビア語、フランス語、ヒンディー語、ベンガル語、スペイン語)におけるテストコレクションの実験。
弱教師付きターゲット言語転送は、世代ベースターゲット言語転送に対する競合性能をもたらすことが判明した。
論文 参考訳(メタデータ) (2021-09-03T17:15:38Z) - Looking for Clues of Language in Multilingual BERT to Improve
Cross-lingual Generalization [56.87201892585477]
多言語BERT (m-BERT) には、言語情報と意味情報の両方が含まれている。
トークン埋め込みを操作することで多言語BERTの出力言語を制御する。
論文 参考訳(メタデータ) (2020-10-20T05:41:35Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z) - On the Importance of Word Order Information in Cross-lingual Sequence
Labeling [80.65425412067464]
ソース言語の単語順に適合する言語間モデルでは、ターゲット言語を処理できない可能性がある。
本研究では,ソース言語の単語順序に敏感なモデルを作成することで,対象言語の適応性能が向上するかどうかを検討する。
論文 参考訳(メタデータ) (2020-01-30T03:35:44Z) - Teaching a New Dog Old Tricks: Resurrecting Multilingual Retrieval Using
Zero-shot Learning [30.868309879441615]
我々は、事前訓練された多言語言語モデルを利用して、英語コレクションで訓練された検索システムを非英語クエリや文書に転送することで、データの欠如に対処する。
提案手法は,アラビア語,中国語,スペイン語の教師なし検索手法を著しく上回りうることを示す。
論文 参考訳(メタデータ) (2019-12-30T20:46:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。