論文の概要: Pixel Representations for Multilingual Translation and Data-efficient
Cross-lingual Transfer
- arxiv url: http://arxiv.org/abs/2305.14280v1
- Date: Tue, 23 May 2023 17:26:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 14:04:42.988043
- Title: Pixel Representations for Multilingual Translation and Data-efficient
Cross-lingual Transfer
- Title(参考訳): 多言語翻訳とデータ効率の良い言語間転送のためのピクセル表現
- Authors: Elizabeth Salesky, Neha Verma, Philipp Koehn, Matt Post
- Abstract要約: 画素表現を用いた多言語機械翻訳モデルの訓練方法を示す。
画素表現の様々な特性を分析し、それらがどのような利点をもたらすかをよりよく理解する。
- 参考スコア(独自算出の注目度): 26.308845887852723
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce and demonstrate how to effectively train multilingual machine
translation models with pixel representations. We experiment with two different
data settings with a variety of language and script coverage, and show
performance competitive with subword embeddings. We analyze various properties
of pixel representations to better understand where they provide potential
benefits and the impact of different scripts and data representations. We
observe that these properties not only enable seamless cross-lingual transfer
to unseen scripts, but make pixel representations more data-efficient than
alternatives such as vocabulary expansion. We hope this work contributes to
more extensible multilingual models for all languages and scripts.
- Abstract(参考訳): 画素表現を用いた多言語機械翻訳モデルを効果的に学習する方法を紹介し,実証する。
我々は、さまざまな言語とスクリプトカバレッジを持つ2つの異なるデータ設定を実験し、サブワード埋め込みと競合するパフォーマンスを示す。
画素表現の様々な特性を分析し、その潜在的な利点と異なるスクリプトやデータ表現の影響をよりよく理解する。
これらの特性は, 未知のスクリプトへのシームレスな言語間移動を可能にするだけでなく, 語彙展開などの代替手段よりも, 画素表現をよりデータ効率良くする。
この作業が、すべての言語とスクリプトに対して、より拡張可能な多言語モデルに貢献することを願っています。
関連論文リスト
- Breaking the Script Barrier in Multilingual Pre-Trained Language Models with Transliteration-Based Post-Training Alignment [50.27950279695363]
転送性能は、低リソースのターゲット言語が高リソースのソース言語とは異なるスクリプトで書かれている場合、しばしば妨げられる。
本論文は,この問題に対処するために翻訳を用いた最近の研究に触発されて,翻訳に基づくポストプレトレーニングアライメント(PPA)手法を提案する。
論文 参考訳(メタデータ) (2024-06-28T08:59:24Z) - Exploring Representational Disparities Between Multilingual and Bilingual Translation Models [16.746335565636976]
多言語モデルにおける言語ペアの中には、バイリンガルモデル、特に1対多の翻訳設定において、パフォーマンスが悪くなるものもある。
与えられた言語対に対して、その多言語モデルデコーダ表現は一貫して等方的ではなく、同等のバイリンガルモデルデコーダ表現よりも少ない次元を占有していることを示す。
論文 参考訳(メタデータ) (2023-05-23T16:46:18Z) - Investigating Lexical Sharing in Multilingual Machine Translation for
Indian Languages [8.858671209228536]
ネパールのヒンディー語から英語への多言語機械翻訳における語彙共有について検討した。
文字の書き起こしが顕著な改善を与えていないことが分かりました。
分析の結果,オリジナルスクリプトでトレーニングした多言語MTモデルは,すでに多言語間の違いに対して堅牢であることがわかった。
論文 参考訳(メタデータ) (2023-05-04T23:35:15Z) - Multilingual Representation Distillation with Contrastive Learning [20.715534360712425]
コントラスト学習を多言語表現蒸留に統合し,並列文の品質評価に利用する。
我々は,多言語類似性探索とコーパスフィルタリングタスクによるアプローチの有効性を検証した。
論文 参考訳(メタデータ) (2022-10-10T22:27:04Z) - Language Modelling with Pixels [29.976453396194053]
本稿では,PixelベースのLanguageであるPIXELを紹介する。
PIXELは、テキストを画像としてレンダリングする事前訓練された言語モデルであり、言語間で表現を転送することができる。
様々な非ラテン文字を含む類型的多様言語における構文的・意味的タスクについて検討した。
論文 参考訳(メタデータ) (2022-07-14T15:20:36Z) - Exposing Cross-Lingual Lexical Knowledge from Multilingual Sentence
Encoders [85.80950708769923]
本稿では,多言語言語モデルを用いて,それらのパラメータに格納された言語間語彙の知識量を探索し,元の多言語LMと比較する。
また、この知識を付加的に微調整した多言語モデルにより公開する新しい手法も考案した。
標準ベンチマークの大幅な向上を報告します。
論文 参考訳(メタデータ) (2022-04-30T13:23:16Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - What makes multilingual BERT multilingual? [60.9051207862378]
本研究は,既存の言語間能力の文献を補うための詳細な実験研究である。
我々は,非コンテクスト化および文脈化表現モデルの言語間能力と同一データとの比較を行った。
データサイズとコンテキストウィンドウサイズは、転送可能性にとって重要な要素であることがわかった。
論文 参考訳(メタデータ) (2020-10-20T05:41:56Z) - InfoXLM: An Information-Theoretic Framework for Cross-Lingual Language
Model Pre-Training [135.12061144759517]
本稿では,言語間言語モデルの事前学習を定式化する情報理論フレームワークを提案する。
コントラスト学習に基づく新しい事前学習課題を提案する。
単言語コーパスと並列コーパスの両方を活用することで、事前訓練されたモデルの言語間変換性を向上させるために、プレテキストを共同で訓練する。
論文 参考訳(メタデータ) (2020-07-15T16:58:01Z) - Learning to Scale Multilingual Representations for Vision-Language Tasks [51.27839182889422]
SMALRの有効性は、これまでビジョン言語タスクでサポートされた2倍以上の10の多言語で実証されている。
単語の埋め込み手法と比較して,訓練パラメータの1/5以下で,複数言語による画像文検索と先行作業の3~4%の性能評価を行った。
論文 参考訳(メタデータ) (2020-04-09T01:03:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。