論文の概要: Why Does Zero-Shot Cross-Lingual Generation Fail? An Explanation and a
Solution
- arxiv url: http://arxiv.org/abs/2305.17325v1
- Date: Sat, 27 May 2023 02:04:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 20:23:24.196503
- Title: Why Does Zero-Shot Cross-Lingual Generation Fail? An Explanation and a
Solution
- Title(参考訳): なぜゼロショットのクロスリンガル世代は失敗するのか?
説明と解決法
- Authors: Tianjian Li and Kenton Murray
- Abstract要約: 細調整プロセスは言語不変表現を学習し、分類タスクには有益であるが、生成タスクには有害であることを示す。
3つの意味的に多様な生成タスクの実験により,提案手法は事故翻訳問題を68%削減し,ROUGE-Lスコアを平均1.5改善した。
- 参考スコア(独自算出の注目度): 0.9085116579988537
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Zero-shot cross-lingual transfer is when a multilingual model is trained to
perform a task in one language and then is applied to another language.
Although the zero-shot cross-lingual transfer approach has achieved success in
various classification tasks, its performance on natural language generation
tasks falls short in quality and sometimes outputs an incorrect language. In
our study, we show that the fine-tuning process learns language invariant
representations, which is beneficial for classification tasks but harmful for
generation tasks. Motivated by this, we propose a simple method to regularize
the model from learning language invariant representations and a method to
select model checkpoints without a development set in the target language, both
resulting in better generation quality. Experiments on three semantically
diverse generation tasks show that our method reduces the accidental
translation problem by 68% and improves the ROUGE-L score by 1.5 on average.
- Abstract(参考訳): ゼロショットの言語間移動は、多言語モデルを訓練してある言語でタスクを実行し、別の言語に適用される場合である。
ゼロショットの言語間移動アプローチは様々な分類タスクで成功したが、自然言語生成タスクのパフォーマンスは品質が低く、時に誤った言語を出力する。
本研究では,微調整プロセスが言語不変表現を学習し,分類タスクには有益であるが,生成タスクには有害であることを示す。
そこで本研究では,学習言語不変表現からモデルを正規化するための簡単な手法と,対象言語の開発セットを使わずにモデルチェックポイントを選択する方法を提案する。
3つの意味的に多様な生成タスクの実験により,提案手法は事故翻訳問題を68%削減し,ROUGE-Lスコアを平均1.5改善した。
関連論文リスト
- No Train but Gain: Language Arithmetic for training-free Language Adapters enhancement [59.37775534633868]
本稿では,学習不要な後処理が可能な言語演算法を提案する。
提案手法の有効性を,MAD-Xに基づく言語間スキームの3つの下流課題に適用した。
論文 参考訳(メタデータ) (2024-04-24T08:52:40Z) - Language-Independent Representations Improve Zero-Shot Summarization [18.46817967804773]
下流生成タスクで事前訓練されたモデルを微調整すると、ゼロショット条件で大惨事に陥ることが多い。
本研究では,要約に焦点をあて,言語に依存しない表現のレンズを用いてこの問題に対処する。
まず, 出力挙動と内部表現の両面において, 微調整モデルが非常に言語固有であることが示され, その結果, ゼロショット性能は低下した。
論文 参考訳(メタデータ) (2024-04-08T17:56:43Z) - Key ingredients for effective zero-shot cross-lingual knowledge transfer in generative tasks [22.93790760274486]
ゼロショットの言語間知識伝達により、ある言語でタスクを微調整し、他の言語でタスクの予測を行う多言語事前学習言語モデルが可能になる。
以前の作業では、間違った言語で頻繁に発生する問題に気付き、通常、mT5をバックボーンモデルとして使用して対処するためのアプローチを提案する。
本研究では,mBARTやNLLB-200といった代替バックボーンモデルを含む,統一された設定で文献から提案されるさまざまなアプローチを比較した。
論文 参考訳(メタデータ) (2024-02-19T16:43:57Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Improving the Cross-Lingual Generalisation in Visual Question Answering [40.86774711775718]
多言語視覚言語事前学習モデルは、非英語データに適用した場合、言語間一般化が不十分であることを示す。
本研究は、ゼロショット言語間視覚質問応答(VQA)タスクにおいて、これらのモデルの低性能について検討する。
我々は,(1)類似性に基づく損失によるクロスエントロピー損失を増大させる言語的事前目標を導入し,トレーニング中にモデルを導くこと,(2)言語的一般化を改善し,モデルの修正を伴わずに分散を低減するタスク固有のサブネットワークを学習すること,(3)合成コードを用いたトレーニング例を強化すること,の3つの戦略を用いて言語的事前移動を改善する。
論文 参考訳(メタデータ) (2022-09-07T08:07:43Z) - Zero-shot Cross-lingual Transfer is Under-specified Optimization [49.3779328255767]
ソース言語単言語モデルとソース+ターゲットバイリンガルモデルとの間の線形補間モデルは、等しく低いソース言語一般化誤差を持つことを示す。
また、ゼロショット解は対象言語誤り一般化曲面の非平坦領域にあり、高い分散を引き起こすことを示した。
論文 参考訳(メタデータ) (2022-07-12T16:49:28Z) - Bridging the Gap Between Training and Inference of Bayesian Controllable
Language Models [58.990214815032495]
大規模事前学習型言語モデルは、自然言語生成タスクにおいて大きな成功を収めている。
BCLMは制御可能な言語生成において効率的であることが示されている。
本稿では,ミスマッチ問題を少ない計算コストで軽減する制御可能な言語生成のための"Gemini Discriminator"を提案する。
論文 参考訳(メタデータ) (2022-06-11T12:52:32Z) - Overcoming Catastrophic Forgetting in Zero-Shot Cross-Lingual Generation [48.80125962015044]
ラベル付きデータが英語でのみ利用可能である場合、対象言語で生成タスク(すなわち要約)を実行するという問題について検討する。
パラメータ効率の低い言語間での移動において、パラメータ効率の適応は標準的な微調整よりも向上することがわかった。
提案手法はさらなる品質向上を実現し,ロバストなゼロショット・クロスランガル生成が到達範囲内であることを示唆する。
論文 参考訳(メタデータ) (2022-05-25T10:41:34Z) - CrossAligner & Co: Zero-Shot Transfer Methods for Task-Oriented
Cross-lingual Natural Language Understanding [18.14437842819122]
CrossAlignerは、ゼロショット・クロスランガル転送のための様々な効果的な手法の主要な方法である。
本稿では,個々の手法と重み付けされた組み合わせの定量的分析を行い,その一部はSOTA(State-of-the-art)スコアを超えている。
最適手法の詳細な定性的誤り解析により、我々の微調整言語モデルが、予想よりも優れたタスク知識をゼロショット転送できることが示される。
論文 参考訳(メタデータ) (2022-03-18T14:18:12Z) - Exploring Fine-tuning Techniques for Pre-trained Cross-lingual Models
via Continual Learning [74.25168207651376]
訓練済みの言語モデルから下流の言語間タスクへの微調整は、有望な結果を示している。
ダウンストリームタスクに微調整する場合、継続学習を活用して、事前学習したモデルの言語間能力を維持する。
提案手法は、ゼロショット言語間タグ付けや名前付きエンティティ認識タスクにおいて、他の微調整ベースラインよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2020-04-29T14:07:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。