論文の概要: A Call for More Rigor in Unsupervised Cross-lingual Learning
- arxiv url: http://arxiv.org/abs/2004.14958v1
- Date: Thu, 30 Apr 2020 17:06:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 02:45:14.646754
- Title: A Call for More Rigor in Unsupervised Cross-lingual Learning
- Title(参考訳): 教師なし言語学習におけるさらなるリゴリティーの呼びかけ
- Authors: Mikel Artetxe, Sebastian Ruder, Dani Yogatama, Gorka Labaka, Eneko
Agirre
- Abstract要約: このような研究の既存の理論的根拠は、世界の多くの言語における並列データの欠如に基づいている。
並列データと豊富なモノリンガルデータのないシナリオは現実的には非現実的であると我々は主張する。
- 参考スコア(独自算出の注目度): 76.6545568416577
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We review motivations, definition, approaches, and methodology for
unsupervised cross-lingual learning and call for a more rigorous position in
each of them. An existing rationale for such research is based on the lack of
parallel data for many of the world's languages. However, we argue that a
scenario without any parallel data and abundant monolingual data is unrealistic
in practice. We also discuss different training signals that have been used in
previous work, which depart from the pure unsupervised setting. We then
describe common methodological issues in tuning and evaluation of unsupervised
cross-lingual models and present best practices. Finally, we provide a unified
outlook for different types of research in this area (i.e., cross-lingual word
embeddings, deep multilingual pretraining, and unsupervised machine
translation) and argue for comparable evaluation of these models.
- Abstract(参考訳): 我々は,教師なし言語学習のためのモチベーション,定義,アプローチ,方法論をレビューし,それぞれにより厳格な立場を求める。
このような研究の理論的根拠は、世界の多くの言語における並列データ不足に基づいている。
しかし、並列データや豊富な単言語データを持たないシナリオは現実的ではないと論じている。
また、教師なしの純粋な設定から外れた、以前の作業で使用された異なるトレーニング信号についても論じる。
次に、教師なし言語間モデルのチューニングと評価における一般的な方法論的問題について述べる。
最後に、この分野における様々な種類の研究(言語間埋め込み、ディープ・マルチリンガル・プリトレーニング、教師なし機械翻訳など)の統一的な展望を提供し、これらのモデルの比較評価について論じる。
関連論文リスト
- Analyzing the Mono- and Cross-Lingual Pretraining Dynamics of
Multilingual Language Models [73.11488464916668]
本研究では,多言語事前学習プロセスのダイナミクスについて検討する。
我々は,XLM-Rプレトレーニング全体から抽出したチェックポイントを,一連の言語的タスクを用いて探索する。
分析の結果,より複雑なものよりも低レベルな言語スキルが得られ,早期に高い言語性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-05-24T03:35:00Z) - Cross-lingual Lifelong Learning [53.06904052325966]
本稿では,言語間連続学習(CCL)の評価パラダイムを提案する。
マルチリンガルなシーケンシャルな学習を特に難しいものにするための洞察を提供する。
この分析の意味は、異なる言語間連続学習のデシダータを測り、バランスをとる方法のレシピを含む。
論文 参考訳(メタデータ) (2022-05-23T09:25:43Z) - Out of Thin Air: Is Zero-Shot Cross-Lingual Keyword Detection Better
Than Unsupervised? [8.594972401685649]
低リソース言語におけるゼロショット言語間キーワード抽出に事前学習した多言語言語モデルを用いることができるかを検討する。
この比較は、英語とロシア語の2つの高リソース言語と4つの低リソース言語をカバーする6つのニュース記事データセットで実施されている。
事前訓練されたモデルは、テストセットに現れない言語をカバーする多言語コーパスで微調整され、6つの言語すべてにおいて、一貫して教師なしモデルよりも優れています。
論文 参考訳(メタデータ) (2022-02-14T12:06:45Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - It's All in the Heads: Using Attention Heads as a Baseline for
Cross-Lingual Transfer in Commonsense Reasoning [4.200736775540874]
我々は,重みを重み付けした線形分類器を特徴として訓練するコモンセンス推論への簡単なアプローチを設計する。
本手法は,近年のコモンセンス推論における教師なし・教師なしの手法と競合する。
パフォーマンスの大部分は、すべての研究対象言語に対する注目の小さなサブセットによって与えられる。
論文 参考訳(メタデータ) (2021-06-22T21:25:43Z) - Bilingual alignment transfers to multilingual alignment for unsupervised
parallel text mining [3.4519649635864584]
本研究は、ペアまたはペアなしのバイリンガルテキストを用いた言語間表現の学習手法を提案する。
我々は、言語間アライメント戦略は転送可能であり、2つの言語のみをアライメントするように訓練されたモデルは、多言語的によりアライメントされた表現を符号化できると仮定する。
論文 参考訳(メタデータ) (2021-04-15T17:51:22Z) - Globetrotter: Unsupervised Multilingual Translation from Visual
Alignment [24.44204156935044]
視覚的モダリティを用いて複数の言語を整列させるフレームワークを提案する。
言語と画像のクロスモーダルアライメントを推定し,この推定値を用いて言語間表現の学習を指導する。
私たちの言語表現は、1つのステージを持つ1つのモデルで共同で訓練されます。
論文 参考訳(メタデータ) (2020-12-08T18:50:40Z) - Probing Task-Oriented Dialogue Representation from Language Models [106.02947285212132]
本稿では,タスク指向対話タスクにおいて,どのモデルが本質的に最も有意義な表現を担っているかを明らかにするために,事前学習された言語モデルについて検討する。
我々は、アノテートラベルを教師付き方法で固定された事前学習言語モデルの上に、分類器プローブとしてフィードフォワード層を微調整する。
論文 参考訳(メタデータ) (2020-10-26T21:34:39Z) - On the Language Neutrality of Pre-trained Multilingual Representations [70.93503607755055]
語彙意味論に関して,多言語文脈埋め込みの言語中立性を直接的に検討する。
その結果、文脈埋め込みは言語ニュートラルであり、概して静的な単語型埋め込みよりも情報的であることがわかった。
本稿では,言語識別における最先端の精度に到達し,並列文の単語アライメントのための統計的手法の性能を一致させる方法について述べる。
論文 参考訳(メタデータ) (2020-04-09T19:50:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。