論文の概要: Neuron Specialization: Leveraging intrinsic task modularity for multilingual machine translation
- arxiv url: http://arxiv.org/abs/2404.11201v1
- Date: Wed, 17 Apr 2024 09:33:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-18 14:45:15.557016
- Title: Neuron Specialization: Leveraging intrinsic task modularity for multilingual machine translation
- Title(参考訳): ニューロンの特殊化:多言語機械翻訳における内在的タスクモジュラリティの活用
- Authors: Shaomu Tan, Di Wu, Christof Monz,
- Abstract要約: 統一多言語モデルの訓練は知識伝達を促進するが、必然的に負の干渉をもたらす。
我々は、フィードフォワード層をモジュール化し、スパースネットワークを介して継続的に更新する、特殊なニューロンを識別するアプローチであるNeuronを提案する。
- 参考スコア(独自算出の注目度): 7.376832526909754
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training a unified multilingual model promotes knowledge transfer but inevitably introduces negative interference. Language-specific modeling methods show promise in reducing interference. However, they often rely on heuristics to distribute capacity and struggle to foster cross-lingual transfer via isolated modules. In this paper, we explore intrinsic task modularity within multilingual networks and leverage these observations to circumvent interference under multilingual translation. We show that neurons in the feed-forward layers tend to be activated in a language-specific manner. Meanwhile, these specialized neurons exhibit structural overlaps that reflect language proximity, which progress across layers. Based on these findings, we propose Neuron Specialization, an approach that identifies specialized neurons to modularize feed-forward layers and then continuously updates them through sparse networks. Extensive experiments show that our approach achieves consistent performance gains over strong baselines with additional analyses demonstrating reduced interference and increased knowledge transfer.
- Abstract(参考訳): 統一多言語モデルの訓練は知識伝達を促進するが、必然的に負の干渉をもたらす。
言語固有のモデリング手法は干渉を減らすことを約束する。
しかし、彼らはしばしば能力の分配にヒューリスティックに頼り、孤立したモジュールを通して言語間の移動を促進するのに苦労する。
本稿では,多言語ネットワークにおける本質的なタスクのモジュラリティについて検討し,これらの観測を利用して多言語翻訳における干渉を回避する。
フィードフォワード層内のニューロンは言語固有の方法で活性化される傾向があることを示す。
一方、これらの特殊なニューロンは言語近接を反映する構造上の重複を示し、層をまたいで進行する。
これらの知見に基づいて、我々は、フィードフォワード層をモジュール化し、スパースネットワークを介して連続的に更新する、特殊なニューロンを識別するアプローチであるニューロンスペシャライゼーションを提案する。
大規模な実験により,本手法は強いベースラインに対して一貫した性能向上を実現し,干渉の低減と知識伝達の増大が示唆された。
関連論文リスト
- Developmental Predictive Coding Model for Early Infancy Mono and Bilingual Vocal Continual Learning [69.8008228833895]
本稿では,連続学習機構を備えた小型生成ニューラルネットワークを提案する。
我々のモデルは解釈可能性を重視し,オンライン学習の利点を実証する。
論文 参考訳(メタデータ) (2024-12-23T10:23:47Z) - XTransplant: A Probe into the Upper Bound Performance of Multilingual Capability and Culture Adaptability in LLMs via Mutual Cross-lingual Feed-forward Transplantation [49.69780199602105]
現在の大規模言語モデル(LLM)は多言語能力と文化的適応性に不均衡を示すことが多い。
本稿では,言語間フィードフォワード移植による言語間遅延相互作用を探索するXTransplantという探索手法を提案する。
我々は,LLMの多言語能力と文化的適応性の両方が,XTransplantによって大幅に改善される可能性を持っていることを実証的に証明した。
論文 参考訳(メタデータ) (2024-12-17T09:05:30Z) - LANDeRMT: Detecting and Routing Language-Aware Neurons for Selectively Finetuning LLMs to Machine Translation [43.26446958873554]
大規模言語モデル(LLM)は,バイリンガルの監督が限られているにもかかわらず,多言語翻訳において有望な結果を示している。
大規模言語モデル(LLM)の最近の進歩は,バイリンガルの監督が限定された場合でも,多言語翻訳において有望な結果を示している。
LandeRMT は LLM を textbfMachine textbfTranslation に選択的に微調整するフレームワークである。
論文 参考訳(メタデータ) (2024-09-29T02:39:42Z) - Probing the Emergence of Cross-lingual Alignment during LLM Training [10.053333786023089]
多言語大言語モデル(LLM)は、ゼロショットの多言語間転送性能を著しく向上させる。
本研究では,LLMの事前学習において,このような言語間アライメントがどのように出現するかを検討する。
ニューロンの重なり合いと下流性能の相関関係を観察する。
論文 参考訳(メタデータ) (2024-06-19T05:31:59Z) - Examining Modularity in Multilingual LMs via Language-Specialized
Subnetworks [15.758213562260913]
本研究では,言語のモジュラリティが,特別なモジュラリティ介入を伴わないモデルで自然に発生する程度について検討する。
我々は,言語特化作業が自然に発生すること,モジュール性の向上よりもSFTが,Attributionworksの言語特化を減らし,より言語横断的な共有が期待できることを示す。
論文 参考訳(メタデータ) (2023-11-14T16:11:23Z) - On the cross-lingual transferability of multilingual prototypical models
across NLU tasks [2.44288434255221]
教師付きディープラーニングベースのアプローチはタスク指向のダイアログに適用され、限られたドメインや言語アプリケーションに有効であることが証明されている。
実際には、これらのアプローチはドメイン駆動設計とアンダーリソース言語の欠点に悩まされている。
本稿では,原型ニューラルネットワークと多言語トランスフォーマーモデルを用いた相乗的少数ショット学習の言語間変換可能性について検討する。
論文 参考訳(メタデータ) (2022-07-19T09:55:04Z) - High-resource Language-specific Training for Multilingual Neural Machine
Translation [109.31892935605192]
負の干渉を軽減するために,HLT-MT(High-Resource Language-specific Training)を用いた多言語翻訳モデルを提案する。
具体的には、まずマルチ言語モデルを高リソースペアでトレーニングし、デコーダの上部にある言語固有のモジュールを選択する。
HLT-MTは、高リソース言語から低リソース言語への知識伝達のために、利用可能なすべてのコーパスでさらに訓練されている。
論文 参考訳(メタデータ) (2022-07-11T14:33:13Z) - Preliminary study on using vector quantization latent spaces for TTS/VC
systems with consistent performance [55.10864476206503]
本稿では,潜在言語埋め込みをモデル化するための量子化ベクトルの利用について検討する。
トレーニングにおいて、潜伏空間上の異なるポリシーを強制することにより、潜伏言語埋め込みを得ることができる。
実験の結果,ベクトル量子化法で構築した音声クローニングシステムは,知覚的評価の点でわずかに劣化していることがわかった。
論文 参考訳(メタデータ) (2021-06-25T07:51:35Z) - On Negative Interference in Multilingual Models: Findings and A
Meta-Learning Treatment [59.995385574274785]
従来の信念に反して、負の干渉は低リソース言語にも影響を及ぼすことを示す。
メタ学習アルゴリズムは、より優れた言語間変換性を得、負の干渉を軽減する。
論文 参考訳(メタデータ) (2020-10-06T20:48:58Z) - Improving Massively Multilingual Neural Machine Translation and
Zero-Shot Translation [81.7786241489002]
ニューラルネットワーク翻訳(NMT)の多言語モデルは理論的には魅力的であるが、しばしばバイリンガルモデルに劣る。
我々は,多言語NMTが言語ペアをサポートするためにより強力なモデリング能力を必要とすることを論じる。
未知のトレーニング言語ペアの翻訳を強制するために,ランダムなオンライン翻訳を提案する。
論文 参考訳(メタデータ) (2020-04-24T17:21:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。