論文の概要: Out of Thin Air: Is Zero-Shot Cross-Lingual Keyword Detection Better
Than Unsupervised?
- arxiv url: http://arxiv.org/abs/2202.06650v1
- Date: Mon, 14 Feb 2022 12:06:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-16 00:04:52.662007
- Title: Out of Thin Air: Is Zero-Shot Cross-Lingual Keyword Detection Better
Than Unsupervised?
- Title(参考訳): ゼロショットのクロスリンガルキーワード検出は教師なしより優れているか?
- Authors: Boshko Koloski and Senja Pollak and Bla\v{z} \v{S}krlj and Matej
Martinc
- Abstract要約: 低リソース言語におけるゼロショット言語間キーワード抽出に事前学習した多言語言語モデルを用いることができるかを検討する。
この比較は、英語とロシア語の2つの高リソース言語と4つの低リソース言語をカバーする6つのニュース記事データセットで実施されている。
事前訓練されたモデルは、テストセットに現れない言語をカバーする多言語コーパスで微調整され、6つの言語すべてにおいて、一貫して教師なしモデルよりも優れています。
- 参考スコア(独自算出の注目度): 8.594972401685649
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Keyword extraction is the task of retrieving words that are essential to the
content of a given document. Researchers proposed various approaches to tackle
this problem. At the top-most level, approaches are divided into ones that
require training - supervised and ones that do not - unsupervised. In this
study, we are interested in settings, where for a language under investigation,
no training data is available. More specifically, we explore whether pretrained
multilingual language models can be employed for zero-shot cross-lingual
keyword extraction on low-resource languages with limited or no available
labeled training data and whether they outperform state-of-the-art unsupervised
keyword extractors. The comparison is conducted on six news article datasets
covering two high-resource languages, English and Russian, and four
low-resource languages, Croatian, Estonian, Latvian, and Slovenian. We find
that the pretrained models fine-tuned on a multilingual corpus covering
languages that do not appear in the test set (i.e. in a zero-shot setting),
consistently outscore unsupervised models in all six languages.
- Abstract(参考訳): キーワード抽出は、ある文書の内容に不可欠な単語を検索するタスクである。
研究者はこの問題に取り組むための様々なアプローチを提案した。
最上位のレベルでは、アプローチはトレーニング(教師なし)と教師なし(教師なし)に分けられます。
本研究では,調査中の言語について,トレーニングデータがないような設定に興味を持っている。
より具体的には、ラベル付きトレーニングデータに制限のある低リソース言語におけるゼロショットのクロスリンガルキーワード抽出に、事前学習された多言語言語モデルが利用できるか、そして、それらが最先端の教師なしキーワード抽出器よりも優れているかを検討する。
この比較は、英語とロシア語の2つの高リソース言語とクロアチア語、エストニア語、ラトビア語、スロベニア語という4つの低リソース言語をカバーする6つのニュース記事データセットで行われている。
事前訓練されたモデルは、テストセットに現れない言語(すなわちゼロショット設定)をカバーする多言語コーパスで微調整され、6つの言語すべてにおいて、一貫して教師なしモデルよりも優れている。
関連論文リスト
- Decoupled Vocabulary Learning Enables Zero-Shot Translation from Unseen Languages [55.157295899188476]
ニューラルマシン翻訳システムは、異なる言語の文を共通の表現空間にマッピングすることを学ぶ。
本研究では、この仮説を未知の言語からのゼロショット翻訳により検証する。
この設定により、全く見えない言語からのゼロショット翻訳が可能になることを実証する。
論文 参考訳(メタデータ) (2024-08-05T07:58:58Z) - Zero-shot Sentiment Analysis in Low-Resource Languages Using a
Multilingual Sentiment Lexicon [78.12363425794214]
私たちは、34の言語にまたがるゼロショットの感情分析タスクに重点を置いています。
文レベルの感情データを使用しない多言語語彙を用いた事前学習は、英語の感情データセットに微調整されたモデルと比較して、ゼロショット性能が優れていることを示す。
論文 参考訳(メタデータ) (2024-02-03T10:41:05Z) - Improving Cross-lingual Information Retrieval on Low-Resource Languages
via Optimal Transport Distillation [21.057178077747754]
本稿では,低リソースな言語間情報検索のためのOPTICAL: Optimal Transport 蒸留法を提案する。
クエリドキュメントマッチングの知識から言語間知識を分離することにより、OPTICALは蒸留訓練のためのbitextデータのみを必要とする。
実験結果から,OPTICALは最小限のトレーニングデータにより,低リソース言語上での強いベースラインを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2023-01-29T22:30:36Z) - Cross-lingual Transfer Learning for Check-worthy Claim Identification
over Twitter [7.601937548486356]
ソーシャルメディアに拡散する誤報は、疑わしいインフォデミックになっている。
本稿では,多言語BERT(mBERT)モデルを用いて,5つの多言語対をまたいだ言語間チェックハーネス推定のための6つの手法を体系的に検討する。
以上の結果から,いくつかの言語対では,ゼロショットの言語間移動が可能であり,対象言語で訓練された単言語モデルに匹敵する性能が得られた。
論文 参考訳(メタデータ) (2022-11-09T18:18:53Z) - Detecting Languages Unintelligible to Multilingual Models through Local
Structure Probes [15.870989191524094]
我々は、言語間モデルでよく理解されていない言語を検出するために、未理解のテキストのみを必要とする一般的なアプローチを開発する。
我々のアプローチは、もしモデルの理解が言語のテキストに対する摂動に無関心であるなら、その言語について限られた理解を持つ可能性が高いという仮説から導かれる。
論文 参考訳(メタデータ) (2022-11-09T16:45:16Z) - From Masked Language Modeling to Translation: Non-English Auxiliary
Tasks Improve Zero-shot Spoken Language Understanding [24.149299722716155]
非常に低リソースの方言を含む6言語ファミリーの13言語を対象に,言語間SlotとIntent Detectionの新しいベンチマークであるxSIDを紹介した。
本研究では,英語SLU学習データと原文,構文,翻訳による非英語補助課題を併用した共同学習手法を提案する。
その結果,マスキング言語モデルによる主タスクの学習はスロットに有効であり,機械翻訳は意図分類に最適であることがわかった。
論文 参考訳(メタデータ) (2021-05-15T23:51:11Z) - AmericasNLI: Evaluating Zero-shot Natural Language Understanding of
Pretrained Multilingual Models in Truly Low-resource Languages [75.08199398141744]
我々は、XNLI(Conneau et al)の拡張である AmericasNLI を提示する。
は、アメリカ大陸の10の原住民の言語である。
XLM-Rで実験を行い、複数のゼロショットおよび翻訳ベースのアプローチをテストします。
XLM-Rのゼロショット性能は全10言語で低調であり、平均性能は38.62%である。
論文 参考訳(メタデータ) (2021-04-18T05:32:28Z) - Improving the Lexical Ability of Pretrained Language Models for
Unsupervised Neural Machine Translation [127.81351683335143]
クロスリンガルプリトレーニングは、2つの言語の語彙的表現と高レベル表現を整列させるモデルを必要とする。
これまでの研究では、これは表現が十分に整合していないためです。
本稿では,語彙レベルの情報で事前学習するバイリンガルマスク言語モデルを,型レベルのクロスリンガルサブワード埋め込みを用いて強化する。
論文 参考訳(メタデータ) (2021-03-18T21:17:58Z) - Harnessing Multilinguality in Unsupervised Machine Translation for Rare
Languages [48.28540903568198]
マルチリンガル性は低リソース環境において教師なしシステムの実現に不可欠であることを示す。
我々は,5つの低リソース言語(グジャラート語,カザフ語,ネパール語,シンハラ語,トルコ語)について,英語方向と英語方向の単一モデルを提案する。
我々は、これらの言語の現在最先端の教師なしベースラインを全て上回り、最大14.4BLEUのゲインを得る。
論文 参考訳(メタデータ) (2020-09-23T15:07:33Z) - A Call for More Rigor in Unsupervised Cross-lingual Learning [76.6545568416577]
このような研究の既存の理論的根拠は、世界の多くの言語における並列データの欠如に基づいている。
並列データと豊富なモノリンガルデータのないシナリオは現実的には非現実的であると我々は主張する。
論文 参考訳(メタデータ) (2020-04-30T17:06:23Z) - Multilingual acoustic word embedding models for processing zero-resource
languages [37.78342106714364]
我々は,複数言語からのラベル付きデータに対して,単一の教師付き埋め込みモデルを訓練する。
次に、見知らぬゼロリソース言語に適用します。
論文 参考訳(メタデータ) (2020-02-06T05:53:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。