論文の概要: Neuron Specialization: Leveraging intrinsic task modularity for multilingual machine translation
- arxiv url: http://arxiv.org/abs/2404.11201v1
- Date: Wed, 17 Apr 2024 09:33:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-18 14:45:15.557016
- Title: Neuron Specialization: Leveraging intrinsic task modularity for multilingual machine translation
- Title(参考訳): ニューロンの特殊化:多言語機械翻訳における内在的タスクモジュラリティの活用
- Authors: Shaomu Tan, Di Wu, Christof Monz,
- Abstract要約: 統一多言語モデルの訓練は知識伝達を促進するが、必然的に負の干渉をもたらす。
我々は、フィードフォワード層をモジュール化し、スパースネットワークを介して継続的に更新する、特殊なニューロンを識別するアプローチであるNeuronを提案する。
- 参考スコア(独自算出の注目度): 7.376832526909754
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training a unified multilingual model promotes knowledge transfer but inevitably introduces negative interference. Language-specific modeling methods show promise in reducing interference. However, they often rely on heuristics to distribute capacity and struggle to foster cross-lingual transfer via isolated modules. In this paper, we explore intrinsic task modularity within multilingual networks and leverage these observations to circumvent interference under multilingual translation. We show that neurons in the feed-forward layers tend to be activated in a language-specific manner. Meanwhile, these specialized neurons exhibit structural overlaps that reflect language proximity, which progress across layers. Based on these findings, we propose Neuron Specialization, an approach that identifies specialized neurons to modularize feed-forward layers and then continuously updates them through sparse networks. Extensive experiments show that our approach achieves consistent performance gains over strong baselines with additional analyses demonstrating reduced interference and increased knowledge transfer.
- Abstract(参考訳): 統一多言語モデルの訓練は知識伝達を促進するが、必然的に負の干渉をもたらす。
言語固有のモデリング手法は干渉を減らすことを約束する。
しかし、彼らはしばしば能力の分配にヒューリスティックに頼り、孤立したモジュールを通して言語間の移動を促進するのに苦労する。
本稿では,多言語ネットワークにおける本質的なタスクのモジュラリティについて検討し,これらの観測を利用して多言語翻訳における干渉を回避する。
フィードフォワード層内のニューロンは言語固有の方法で活性化される傾向があることを示す。
一方、これらの特殊なニューロンは言語近接を反映する構造上の重複を示し、層をまたいで進行する。
これらの知見に基づいて、我々は、フィードフォワード層をモジュール化し、スパースネットワークを介して連続的に更新する、特殊なニューロンを識別するアプローチであるニューロンスペシャライゼーションを提案する。
大規模な実験により,本手法は強いベースラインに対して一貫した性能向上を実現し,干渉の低減と知識伝達の増大が示唆された。
関連論文リスト
- LANDeRMT: Detecting and Routing Language-Aware Neurons for Selectively Finetuning LLMs to Machine Translation [43.26446958873554]
大規模言語モデル(LLM)は,バイリンガルの監督が限られているにもかかわらず,多言語翻訳において有望な結果を示している。
大規模言語モデル(LLM)の最近の進歩は,バイリンガルの監督が限定された場合でも,多言語翻訳において有望な結果を示している。
LandeRMT は LLM を textbfMachine textbfTranslation に選択的に微調整するフレームワークである。
論文 参考訳(メタデータ) (2024-09-29T02:39:42Z) - Probing the Emergence of Cross-lingual Alignment during LLM Training [10.053333786023089]
多言語大言語モデル(LLM)は、ゼロショットの多言語間転送性能を著しく向上させる。
本研究では,LLMの事前学習において,このような言語間アライメントがどのように出現するかを検討する。
ニューロンの重なり合いと下流性能の相関関係を観察する。
論文 参考訳(メタデータ) (2024-06-19T05:31:59Z) - Sharing Matters: Analysing Neurons Across Languages and Tasks in LLMs [70.3132264719438]
我々は,タスクや言語間でニューロンの活性化がどのように共有されるかを調べることで,研究ギャップを埋めることを目指している。
我々は、異なる言語にまたがる特定の入力に対する応答に基づいて、ニューロンを4つの異なるカテゴリに分類する。
分析の結果, (i) ニューロン共有のパターンはタスクや例の特徴に大きく影響され, (ii) ニューロン共有は言語類似性に完全には対応しない, (iii) 共有ニューロンは応答の生成において重要な役割を担っている。
論文 参考訳(メタデータ) (2024-06-13T16:04:11Z) - Examining Modularity in Multilingual LMs via Language-Specialized
Subnetworks [15.758213562260913]
本研究では,言語のモジュラリティが,特別なモジュラリティ介入を伴わないモデルで自然に発生する程度について検討する。
我々は,言語特化作業が自然に発生すること,モジュール性の向上よりもSFTが,Attributionworksの言語特化を減らし,より言語横断的な共有が期待できることを示す。
論文 参考訳(メタデータ) (2023-11-14T16:11:23Z) - On the cross-lingual transferability of multilingual prototypical models
across NLU tasks [2.44288434255221]
教師付きディープラーニングベースのアプローチはタスク指向のダイアログに適用され、限られたドメインや言語アプリケーションに有効であることが証明されている。
実際には、これらのアプローチはドメイン駆動設計とアンダーリソース言語の欠点に悩まされている。
本稿では,原型ニューラルネットワークと多言語トランスフォーマーモデルを用いた相乗的少数ショット学習の言語間変換可能性について検討する。
論文 参考訳(メタデータ) (2022-07-19T09:55:04Z) - High-resource Language-specific Training for Multilingual Neural Machine
Translation [109.31892935605192]
負の干渉を軽減するために,HLT-MT(High-Resource Language-specific Training)を用いた多言語翻訳モデルを提案する。
具体的には、まずマルチ言語モデルを高リソースペアでトレーニングし、デコーダの上部にある言語固有のモジュールを選択する。
HLT-MTは、高リソース言語から低リソース言語への知識伝達のために、利用可能なすべてのコーパスでさらに訓練されている。
論文 参考訳(メタデータ) (2022-07-11T14:33:13Z) - Preliminary study on using vector quantization latent spaces for TTS/VC
systems with consistent performance [55.10864476206503]
本稿では,潜在言語埋め込みをモデル化するための量子化ベクトルの利用について検討する。
トレーニングにおいて、潜伏空間上の異なるポリシーを強制することにより、潜伏言語埋め込みを得ることができる。
実験の結果,ベクトル量子化法で構築した音声クローニングシステムは,知覚的評価の点でわずかに劣化していることがわかった。
論文 参考訳(メタデータ) (2021-06-25T07:51:35Z) - On Negative Interference in Multilingual Models: Findings and A
Meta-Learning Treatment [59.995385574274785]
従来の信念に反して、負の干渉は低リソース言語にも影響を及ぼすことを示す。
メタ学習アルゴリズムは、より優れた言語間変換性を得、負の干渉を軽減する。
論文 参考訳(メタデータ) (2020-10-06T20:48:58Z) - Mechanisms for Handling Nested Dependencies in Neural-Network Language
Models and Humans [75.15855405318855]
我々は,「深層学習」手法で訓練された現代人工ニューラルネットワークが,人間の文処理の中心的な側面を模倣するかどうかを検討した。
ネットワークは、大きなコーパスで次の単語を予測するためにのみ訓練されたが、分析の結果、局所的および長距離の構文合意をうまく処理する特別なユニットが出現した。
我々は,複数の名詞の単数/複数状態における体系的な変化を伴う文中の数一致の違反を人間が検出する行動実験において,モデルの予測を検証した。
論文 参考訳(メタデータ) (2020-06-19T12:00:05Z) - Improving Massively Multilingual Neural Machine Translation and
Zero-Shot Translation [81.7786241489002]
ニューラルネットワーク翻訳(NMT)の多言語モデルは理論的には魅力的であるが、しばしばバイリンガルモデルに劣る。
我々は,多言語NMTが言語ペアをサポートするためにより強力なモデリング能力を必要とすることを論じる。
未知のトレーニング言語ペアの翻訳を強制するために,ランダムなオンライン翻訳を提案する。
論文 参考訳(メタデータ) (2020-04-24T17:21:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。