論文の概要: Multilingual Pixel Representations for Translation and Effective
Cross-lingual Transfer
- arxiv url: http://arxiv.org/abs/2305.14280v2
- Date: Tue, 24 Oct 2023 13:36:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 00:44:51.608823
- Title: Multilingual Pixel Representations for Translation and Effective
Cross-lingual Transfer
- Title(参考訳): 翻訳と効果的な言語間伝達のための多言語画素表現
- Authors: Elizabeth Salesky, Neha Verma, Philipp Koehn, Matt Post
- Abstract要約: 画素表現を用いた多言語機械翻訳モデルを効果的に学習する方法を紹介し,実証する。
文字間のパラメータ共有など,画素表現のさまざまな特性について検討し,前向きな転送に繋がる部分の理解を深める。
これらの特性は、未知のスクリプトへのシームレスな言語間移動を可能にするだけでなく、語彙拡張のような代替手段よりも、ピクセル表現をよりデータ効率の良いものにしている。
- 参考スコア(独自算出の注目度): 25.575718310334643
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce and demonstrate how to effectively train multilingual machine
translation models with pixel representations. We experiment with two different
data settings with a variety of language and script coverage, demonstrating
improved performance compared to subword embeddings. We explore various
properties of pixel representations such as parameter sharing within and across
scripts to better understand where they lead to positive transfer. We observe
that these properties not only enable seamless cross-lingual transfer to unseen
scripts, but make pixel representations more data-efficient than alternatives
such as vocabulary expansion. We hope this work contributes to more extensible
multilingual models for all languages and scripts.
- Abstract(参考訳): 画素表現を用いた多言語機械翻訳モデルを効果的に学習する方法を紹介し,実証する。
さまざまな言語とスクリプトカバレッジを備えた2つの異なるデータ設定を実験し,サブワード埋め込みと比較して性能が向上した。
文字間のパラメータ共有など,画素表現のさまざまな特性について検討し,前向きな転送につながる部分の理解を深める。
これらの特性は, 未知のスクリプトへのシームレスな言語間移動を可能にするだけでなく, 語彙展開などの代替手段よりも, 画素表現をよりデータ効率良くする。
この作業が、すべての言語とスクリプトに対して、より拡張可能な多言語モデルに貢献することを願っています。
関連論文リスト
- Investigating Lexical Sharing in Multilingual Machine Translation for
Indian Languages [8.858671209228536]
ネパールのヒンディー語から英語への多言語機械翻訳における語彙共有について検討した。
文字の書き起こしが顕著な改善を与えていないことが分かりました。
分析の結果,オリジナルスクリプトでトレーニングした多言語MTモデルは,すでに多言語間の違いに対して堅牢であることがわかった。
論文 参考訳(メタデータ) (2023-05-04T23:35:15Z) - Multilingual Representation Distillation with Contrastive Learning [20.715534360712425]
コントラスト学習を多言語表現蒸留に統合し,並列文の品質評価に利用する。
我々は,多言語類似性探索とコーパスフィルタリングタスクによるアプローチの有効性を検証した。
論文 参考訳(メタデータ) (2022-10-10T22:27:04Z) - Language Modelling with Pixels [29.976453396194053]
本稿では,PixelベースのLanguageであるPIXELを紹介する。
PIXELは、テキストを画像としてレンダリングする事前訓練された言語モデルであり、言語間で表現を転送することができる。
様々な非ラテン文字を含む類型的多様言語における構文的・意味的タスクについて検討した。
論文 参考訳(メタデータ) (2022-07-14T15:20:36Z) - How Do Multilingual Encoders Learn Cross-lingual Representation? [8.409283426564977]
言語間転送は、他言語からの転送によって、トレーニングデータをほとんど、あるいは全く持たない言語に恩恵を与える。
この論文はまず、様々なタスクにおける先行技術と比較して、驚くべき言語間効果を示す。
また、多言語エンコーダに異なる言語間信号を注入する方法や、これらのモデルを用いた言語間転送の最適化挙動についても検討する。
論文 参考訳(メタデータ) (2022-07-12T17:57:05Z) - Exposing Cross-Lingual Lexical Knowledge from Multilingual Sentence
Encoders [85.80950708769923]
本稿では,多言語言語モデルを用いて,それらのパラメータに格納された言語間語彙の知識量を探索し,元の多言語LMと比較する。
また、この知識を付加的に微調整した多言語モデルにより公開する新しい手法も考案した。
標準ベンチマークの大幅な向上を報告します。
論文 参考訳(メタデータ) (2022-04-30T13:23:16Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - What makes multilingual BERT multilingual? [60.9051207862378]
本研究は,既存の言語間能力の文献を補うための詳細な実験研究である。
我々は,非コンテクスト化および文脈化表現モデルの言語間能力と同一データとの比較を行った。
データサイズとコンテキストウィンドウサイズは、転送可能性にとって重要な要素であることがわかった。
論文 参考訳(メタデータ) (2020-10-20T05:41:56Z) - InfoXLM: An Information-Theoretic Framework for Cross-Lingual Language
Model Pre-Training [135.12061144759517]
本稿では,言語間言語モデルの事前学習を定式化する情報理論フレームワークを提案する。
コントラスト学習に基づく新しい事前学習課題を提案する。
単言語コーパスと並列コーパスの両方を活用することで、事前訓練されたモデルの言語間変換性を向上させるために、プレテキストを共同で訓練する。
論文 参考訳(メタデータ) (2020-07-15T16:58:01Z) - Learning to Scale Multilingual Representations for Vision-Language Tasks [51.27839182889422]
SMALRの有効性は、これまでビジョン言語タスクでサポートされた2倍以上の10の多言語で実証されている。
単語の埋め込み手法と比較して,訓練パラメータの1/5以下で,複数言語による画像文検索と先行作業の3~4%の性能評価を行った。
論文 参考訳(メタデータ) (2020-04-09T01:03:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。