Fugu-MT 論文翻訳(概要): Examining Scaling and Transfer of Language Model Architectures for Machine Translation

論文の概要: Examining Scaling and Transfer of Language Model Architectures for Machine Translation

arxiv url: http://arxiv.org/abs/2202.00528v2
Date: Wed, 2 Feb 2022 10:48:56 GMT
ステータス: 翻訳完了
システム内更新日: 2022-02-03 12:08:51.283548
Title: Examining Scaling and Transfer of Language Model Architectures for Machine Translation
Title（参考訳）: 機械翻訳のための言語モデルアーキテクチャのスケーリングと転送の検討
Authors: Biao Zhang, Behrooz Ghorbani, Ankur Bapna, Yong Cheng, Xavier Garcia, Jonathan Shen, Orhan Firat
Abstract要約: 言語モデル(LM)は単一のレイヤのスタックで処理し、エンコーダ・デコーダモデル(EncDec)は入力と出力の処理に別々のレイヤスタックを使用する。機械翻訳において、EncDecは長年好まれてきたアプローチであるが、LMの性能についての研究はほとんどない。
参考スコア（独自算出の注目度）: 51.69212730675345
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Natural language understanding and generation models follow one of the two dominant architectural paradigms: language models (LMs) that process concatenated sequences in a single stack of layers, and encoder-decoder models (EncDec) that utilize separate layer stacks for input and output processing. In machine translation, EncDec has long been the favoured approach, but with few studies investigating the performance of LMs. In this work, we thoroughly examine the role of several architectural design choices on the performance of LMs on bilingual, (massively) multilingual and zero-shot translation tasks, under systematic variations of data conditions and model sizes. Our results show that: (i) Different LMs have different scaling properties, where architectural differences often have a significant impact on model performance at small scales, but the performance gap narrows as the number of parameters increases, (ii) Several design choices, including causal masking and language-modeling objectives for the source sequence, have detrimental effects on translation quality, and (iii) When paired with full-visible masking for source sequences, LMs could perform on par with EncDec on supervised bilingual and multilingual translation tasks, and improve greatly on zero-shot directions by facilitating the reduction of off-target translations.
Abstract（参考訳）: 自然言語の理解と生成モデルは、2つの主要なアーキテクチャパラダイムの1つである: 言語モデル(LM)は1つのレイヤで連結シーケンスを処理し、エンコーダ・デコーダモデル(EncDec)は入力と出力の処理に別々のレイヤスタックを使用する。機械翻訳において、EncDecは長年好まれてきたアプローチであるが、LMの性能についての研究はほとんどない。本研究では,多言語・多言語・ゼロショット翻訳タスクにおけるLMの性能に対するアーキテクチャ設計選択の役割を,データ条件とモデルサイズを体系的に変化させることで,徹底的に検討する。結果はこう示しています (i)異なるLMは異なるスケーリング特性を持ち、アーキテクチャの違いは小さなスケールでのモデル性能に大きな影響を与えることが多いが、パラメータの数が増えるにつれて性能差は狭まる。 (二ソースシーケンスの因果マスキング及び言語モデル目的を含むいくつかの設計選択が翻訳品質に有害な影響を及ぼすこと。) 三ソースシーケンスのフル可視マスキングと組み合わせたときは、教師付きバイリンガルおよび多言語翻訳タスクにおいてEncDecと同等に動作し、オフターゲット翻訳の削減を容易にし、ゼロショット方向を大幅に改善することができる。

関連論文リスト

The Unreasonable Effectiveness of Model Merging for Cross-Lingual Transfer in LLMs [54.59207567677249]
大規模言語モデル(LLM)は、ハイソース言語以外のタスクで依然として苦戦している。本研究では,タスク固有のポストトレーニングデータが不足している低リソース言語への言語間移動について検討する。
論文参考訳（メタデータ） (2025-05-23T20:28:31Z)
LayAlign: Enhancing Multilingual Reasoning in Large Language Models via Layer-Wise Adaptive Fusion and Alignment Strategy [33.85811169010525]
LLM(Large Language Model)は、低リソース言語上での最適化性能を示す。最近のアプローチでは、2つのモデルを接続するトレーニング可能なパラメータを導入することで、LLMと並行して多言語エンコーダを活用している。すべてのエンコーダ層から表現を統合するフレームワークであるanameを提案する。
論文参考訳（メタデータ） (2025-02-17T03:45:03Z)
The Impact of Model Scaling on Seen and Unseen Language Performance [2.012425476229879]
本研究では204言語にわたる多言語大言語モデルの性能とスケーリングの挙動について検討する。その結果,ゼロショットシナリオと2ショットシナリオのスケーリング挙動に有意な差が認められた。 2ショット設定では、より大きなモデルは多言語テキスト分類において明確な線形改善を示す。
論文参考訳（メタデータ） (2025-01-10T00:10:21Z)
Paraphrase-Aligned Machine Translation [7.258916315600866]
大規模言語モデル(LLM)は機械翻訳において重要な機能を示している。本稿では,LLMを微調整して文を言い換える手法であるParaAlign Translatorを提案する。実験結果から,LLaMA-3-8Bモデルの性能は資源豊富な場合と低リソースの場合の両方で向上することが示された。
論文参考訳（メタデータ） (2024-12-08T12:17:26Z)
LLM-based Translation Inference with Iterative Bilingual Understanding [52.46978502902928]
大規模言語モデル(LLM)の言語間機能に基づいた,新しい反復的バイリンガル理解翻訳法を提案する。 LLMの言語横断的能力により、ソース言語とターゲット言語を別々にコンテキスト理解することが可能になる。提案したIBUTは、いくつかの強力な比較法より優れている。
論文参考訳（メタデータ） (2024-10-16T13:21:46Z)
ML-SUPERB 2.0: Benchmarking Multilingual Speech Models Across Modeling Constraints, Languages, and Datasets [106.7760874400261]
本稿では、事前訓練されたSSLと教師付き音声モデルを評価するための新しいベンチマークであるML-SUPERB2.0を提案する。 ML-SUPERBのセットアップよりも性能が向上するが、性能は下流モデル設計に依存している。また、言語とデータセットのパフォーマンスに大きな違いがあることから、よりターゲットを絞ったアプローチの必要性も示唆されている。
論文参考訳（メタデータ） (2024-06-12T21:01:26Z)
Relay Decoding: Concatenating Large Language Models for Machine Translation [21.367605327742027]
我々はRD(Relay Decoding)と呼ばれる革新的なアプローチを提案し、ソースとターゲット言語を個別にサポートする2つの異なる大規模モデルを結合する。これら2つのモデル間の接続を容易にするための単純なマッピング層を導入し、訓練に限られた並列データを活用することにより、機械翻訳タスクにおいて優れた結果が得られた。
論文参考訳（メタデータ） (2024-05-05T13:42:25Z)
Understanding the role of FFNs in driving multilingual behaviour in LLMs [0.0]
本稿では,大規模言語モデル群における多言語機能の詳細な分析を行う。異なるレイヤにおけるモデルの多言語的振る舞いを探索する新しいメトリクスを導入し、多言語処理におけるアーキテクチャ選択の影響について光を当てる。
論文参考訳（メタデータ） (2024-04-22T03:47:00Z)
Contextual Code Switching for Machine Translation using Language Models [1.4866655830571935]
大規模言語モデル(LLM)は近年,多種多様な言語関連タスクに多大な影響を与えている。本稿では,複数のLLMを比較した機械翻訳タスクに特化して,コード切替タスクについて広範な研究を行う。以上の結果から,LLMは特定のタスクに有望な結果をもたらすにもかかわらず,機械翻訳タスクにおける多言語大言語モデルよりも比較的少ない複雑性を持つモデルの方が優れていることが示唆された。
論文参考訳（メタデータ） (2023-12-20T16:40:33Z)
Evaluating the Capability of Large-scale Language Models on Chinese Grammatical Error Correction Task [10.597024796304016]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて顕著な能力を示している。本報告では,中国語の文法的誤り訂正タスクにおける大規模言語モデルの性能について検討する。
論文参考訳（メタデータ） (2023-07-08T13:10:59Z)
Unified Model Learning for Various Neural Machine Translation [63.320005222549646]
既存の機械翻訳(NMT)研究は主にデータセット固有のモデルの開発に焦点を当てている。我々は,NMT(UMLNMT)のための統一モデル学習モデル(Unified Model Learning for NMT)を提案する。 OurNMTは、データセット固有のモデルよりも大幅に改善され、モデルデプロイメントコストが大幅に削減される。
論文参考訳（メタデータ） (2023-05-04T12:21:52Z)
Exploring Dimensionality Reduction Techniques in Multilingual Transformers [64.78260098263489]
本稿では,多言語シームス変圧器の性能に及ぼす次元還元法の影響を包括的に考察する。これは、それぞれ91.58% pm 2.59%$と54.65% pm 32.20%$の次元を平均で減少させることが可能であることを示している。
論文参考訳（メタデータ） (2022-04-18T17:20:55Z)
Multilingual Neural Machine Translation:Can Linguistic Hierarchies Help? [29.01386302441015]
MNMT(Multilingual Neural Machine Translation)は、複数の言語間の翻訳をサポートする単一のNMTモデルを訓練する。 MNMTモデルの性能は、様々な言語から知識を伝達することで、負の転送によって翻訳性能が低下するので、訓練で使用される言語の種類に大きく依存する。本稿では,MNMTにおける階層的知識蒸留(HKD)手法を提案する。
論文参考訳（メタデータ） (2021-10-15T02:31:48Z)
Improving Multilingual Translation by Representation and Gradient Regularization [82.42760103045083]
表現レベルと勾配レベルの両方でNMTモデルを正規化するための共同手法を提案する。提案手法は,オフターゲット翻訳の発生率の低減とゼロショット翻訳性能の向上に有効であることを示す。
論文参考訳（メタデータ） (2021-09-10T10:52:21Z)
Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文参考訳（メタデータ） (2021-09-09T03:48:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。