論文の概要: On the limited utility of parallel data for learning shared multilingual representations
- arxiv url: http://arxiv.org/abs/2603.29026v1
- Date: Mon, 30 Mar 2026 21:37:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:02.876439
- Title: On the limited utility of parallel data for learning shared multilingual representations
- Title(参考訳): 共有多言語表現学習における並列データの限られた有用性について
- Authors: Julius Leino, Jörg Tiedemann,
- Abstract要約: 並列データは、言語間のアライメントに最小限の影響しか与えないようだ。
言語間アライメントは、並列データからの明示的な信号がなくても、同様のレベルに現れるように見える。
- 参考スコア(独自算出の注目度): 4.935445658043885
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Shared multilingual representations are essential for cross-lingual tasks and knowledge transfer across languages. This study looks at the impact of parallel data, i.e. translated sentences, in pretraining as a signal to trigger representations that are aligned across languages. We train reference models with different proportions of parallel data and show that parallel data seem to have only a minimal effect on the cross-lingual alignment. Based on multiple evaluation methods, we find that the effect is limited to potentially accelerating the representation sharing in the early phases of pretraining, and to decreasing the amount of language-specific neurons in the model. Cross-lingual alignment seems to emerge on similar levels even without the explicit signal from parallel data.
- Abstract(参考訳): 共通多言語表現は言語間タスクや言語間の知識伝達に不可欠である。
本研究では、言語間で整列した表現をトリガーする信号として事前学習において、並列データ、すなわち翻訳文が与える影響について検討する。
並列データの比率が異なる参照モデルを訓練し、並列データが言語間のアライメントに最小限の影響しか与えないことを示す。
複数の評価手法に基づき,事前学習の初期段階における表現共有の促進と,モデルにおける言語特異的ニューロンの減少に限定した効果が得られた。
言語間アライメントは、並列データからの明示的な信号がなくても、同様のレベルに現れるように見える。
関連論文リスト
- Enhancing Multilingual Embeddings via Multi-Way Parallel Text Alignment [6.718469075779034]
マルチウェイ並列コーパスによる言語間アライメントのための標準トレーニングモデルにより,NLUタスクの表現を大幅に改善できることを示す。
我々は,6つのターゲット言語からなるプールに対して,市販のNMTモデルから英文を翻訳したマルチウェイ並列データセットを構築した。
論文 参考訳(メタデータ) (2026-02-25T03:58:24Z) - From Unaligned to Aligned: Scaling Multilingual LLMs with Multi-Way Parallel Corpora [80.0547333327488]
TED Talks に基づく大規模かつ高品質なマルチウェイ並列コーパス TED2025 を導入する。
このデータセットは113の言語にまたがっており、最大50の言語が並列に並び、広範囲にわたるマルチリンガルカバレッジを保証する。
実験により、マルチウェイ並列データでトレーニングされたモデルは、不整合多言語データでトレーニングされたモデルよりも一貫して優れていた。
論文 参考訳(メタデータ) (2025-05-20T07:43:45Z) - Investigating the Effect of Parallel Data in the Cross-Lingual Transfer for Vision-Language Encoders [0.0]
トレーニング済みのVision-Language(VL)モデルと下流タスクのトレーニングデータは英語でのみ利用可能である。
並列データを用いて、すでに訓練済みのエンコーダを転送する。
その結果,機械翻訳されたタスクデータでさえ,平均的,キャプション的,真に並列なデータの方が,いくつかの言語で優れていたことが判明した。
論文 参考訳(メタデータ) (2025-04-30T14:19:15Z) - Language Agnostic Multilingual Information Retrieval with Contrastive
Learning [59.26316111760971]
本稿では,多言語情報検索システムの学習方法を提案する。
並列コーパスと非並列コーパスを利用して、事前訓練された多言語言語モデルを改善する。
我々のモデルは少数のパラレル文でもうまく機能する。
論文 参考訳(メタデータ) (2022-10-12T23:53:50Z) - Cross-lingual Intermediate Fine-tuning improves Dialogue State Tracking [84.50302759362698]
我々は、事前訓練された多言語モデルの中間微調整により、伝達学習プロセスを強化する。
我々は、パラレルおよび会話型の映画字幕データセットを使用して、言語間中間タスクを設計する。
パラレルなMultiWoZデータセットとMultilingual WoZデータセットの精度を20%向上させる。
論文 参考訳(メタデータ) (2021-09-28T11:22:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。