Fugu-MT 論文翻訳(概要): LANDeRMT: Detecting and Routing Language-Aware Neurons for Selectively Finetuning LLMs to Machine Translation

論文の概要: LANDeRMT: Detecting and Routing Language-Aware Neurons for Selectively Finetuning LLMs to Machine Translation

arxiv url: http://arxiv.org/abs/2409.19523v1
Date: Sun, 29 Sep 2024 02:39:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-05 22:47:59.936352
Title: LANDeRMT: Detecting and Routing Language-Aware Neurons for Selectively Finetuning LLMs to Machine Translation
Title（参考訳）: LANDeRMT:LLMを機械翻訳に選択的に微調整するための言語対応ニューロンの検出とルーティング
Authors: Shaolin Zhu, Leiyu Pan, Bo Li, Deyi Xiong,
Abstract要約: 大規模言語モデル(LLM)は,バイリンガルの監督が限られているにもかかわらず,多言語翻訳において有望な結果を示している。大規模言語モデル(LLM)の最近の進歩は,バイリンガルの監督が限定された場合でも,多言語翻訳において有望な結果を示している。 LandeRMT は LLM を textbfMachine textbfTranslation に選択的に微調整するフレームワークである。
参考スコア（独自算出の注目度）: 43.26446958873554
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advancements in large language models (LLMs) have shown promising results in multilingual translation even with limited bilingual supervision. The major challenges are catastrophic forgetting and parameter interference for finetuning LLMs when provided parallel training data. To address these challenges, we propose LANDeRMT, a \textbf{L}anguage-\textbf{A}ware \textbf{N}euron \textbf{De}tecting and \textbf{R}outing framework that selectively finetunes LLMs to \textbf{M}achine \textbf{T}ranslation with diverse translation training data. In LANDeRMT, we evaluate the awareness of neurons to MT tasks and categorize them into language-general and language-specific neurons. This categorization enables selective parameter updates during finetuning, mitigating parameter interference and catastrophic forgetting issues. For the detected neurons, we further propose a conditional awareness-based routing mechanism to dynamically adjust language-general and language-specific capacity within LLMs, guided by translation signals. Experimental results demonstrate that the proposed LANDeRMT is very effective in learning translation knowledge, significantly improving translation quality over various strong baselines for multiple language pairs.
Abstract（参考訳）: 大規模言語モデル(LLM)の最近の進歩は,バイリンガルの監督が限定された場合でも,多言語翻訳において有望な結果を示している。主な課題は、並列トレーニングデータを提供する際に、微調整LDMに対する破滅的な忘れとパラメータ干渉である。これらの課題に対処するために,LANDeRMT, a \textbf{L}anguage-\textbf{A}ware \textbf{N}euron \textbf{De}tectingおよび \textbf{R}outing frameworkを提案する。 LANDeRMTでは、MTタスクに対するニューロンの認識を評価し、それらを言語一般ニューロンと言語固有ニューロンに分類する。この分類は、微調整、パラメータ干渉の緩和、破滅的な忘れの問題の間の選択的なパラメータ更新を可能にする。検出されたニューロンに対しては,LLM内の言語一般および言語固有能力を動的に調整し,翻訳信号で誘導する条件付き認識に基づくルーティング機構を提案する。実験の結果,提案するLANDeRMTは翻訳知識の学習に非常に有効であることが確認された。

関連論文リスト

LLaVA-NeuMT: Selective Layer-Neuron Modulation for Efficient Multilingual Multimodal Translation [12.51212639515934]
LLaVA-NeuMTは言語固有の表現と言語に依存しない表現を明示的にモデル化し、多言語干渉を緩和する新しいフレームワークである。提案手法は,異なる言語対の最も情報性の高い層を識別する層選択機構から成り立っている。我々はM3-Multi30KとM3-AmbigCapsデータセットの広範な実験を行い、LLaVA-NeuMTはモデルパラメータの40%しか微調整していないが、完全な微調整アプローチを超えていることを示した。
論文参考訳（メタデータ） (2025-07-25T04:23:24Z)
Mechanistic Understanding and Mitigation of Language Confusion in English-Centric Large Language Models [49.09746599881631]
言語混乱に関する最初の機械論的解釈可能性研究について述べる。混乱点(CP)がこの現象の中心であることを示す。本研究は,多言語学習モデルとの比較分析により同定された少数の臨界ニューロンの編集が,混乱を著しく軽減することを示す。
論文参考訳（メタデータ） (2025-05-22T11:29:17Z)
LLM-Based Evaluation of Low-Resource Machine Translation: A Reference-less Dialect Guided Approach with a Refined Sylheti-English Benchmark [1.3927943269211591]
本稿では,Large Language Models(LLMs)に基づく機械翻訳評価を強化する包括的フレームワークを提案する。我々は、Sylheti- English文ペア、対応する機械翻訳、およびネイティブ話者が注釈付けしたダイレクトアセスメント(DA)スコアを組み込むことで、ONUBADデータセットを拡張した。評価の結果,提案したパイプラインは既存の手法より常に優れており,スピアマン相関において+0.1083の高利得が得られることがわかった。
論文参考訳（メタデータ） (2025-05-18T07:24:13Z)
Trans-Zero: Self-Play Incentivizes Large Language Models for Multilingual Translation Without Parallel Data [64.4458540273004]
言語モデル(LLM)の単言語データと本質的な多言語知識のみを活用するセルフプレイフレームワークを提案する。実験により、このアプローチは大規模並列データに基づいて訓練されたモデルの性能と一致するだけでなく、非英語翻訳の方向でも優れていることが示された。
論文参考訳（メタデータ） (2025-04-20T16:20:30Z)
Bridging the Linguistic Divide: A Survey on Leveraging Large Language Models for Machine Translation [33.08089616645845]
大規模言語モデル(LLM)の出現は機械翻訳(MT)の景観を大きく変えた。我々は、アンダーリソース設定への効果的な適応を可能にする、少数ショットプロンプト、クロスランガル転送、パラメータ効率の微調整などの手法を解析する。幻覚, 評価の不整合, 遺伝バイアスなどの持続的課題について検討するとともに, 翻訳品質向上のためのLCM駆動メトリクスの評価を行った。
論文参考訳（メタデータ） (2025-04-02T17:26:40Z)
Contextual Cues in Machine Translation: Investigating the Potential of Multi-Source Input Strategies in LLMs and NMT Systems [2.512491726995032]
我々は,大規模言語モデルであるGPT-4oと,従来の多言語ニューラルマシン翻訳(NMT)システムとの比較を行った。中間言語翻訳を文脈的手がかりとして、ポルトガル語への英語と中国語の翻訳を強化する効果を評価する。その結果、文脈情報はドメイン固有のデータセットの翻訳品質を著しく改善し、言語学的に離れた言語ペアにとって潜在的に有益であることが示唆された。
論文参考訳（メタデータ） (2025-03-10T11:23:44Z)
Beyond MLE: Investigating SEARNN for Low-Resourced Neural Machine Translation [0.09459165957946088]
このプロジェクトは、低リソースのアフリカ言語のための機械翻訳を改善するSEARNNの可能性を探求した。英語をイグボ語に、フランス語をエウス語に、フランス語をグマラ語に翻訳する実験が行われた。我々は、SEARNNが、低リソース言語のための機械翻訳において、効果的にRNNを訓練するための有効なアルゴリズムであることを証明した。
論文参考訳（メタデータ） (2024-05-20T06:28:43Z)
TEaR: Improving LLM-based Machine Translation with Systematic Self-Refinement [26.26493253161022]
大規模言語モデル(LLM)は機械翻訳(MT)において印象的な結果を得た我々は,体系的LLMに基づく自己精製翻訳フレームワーク,textbfTEaRを紹介する。
論文参考訳（メタデータ） (2024-02-26T07:58:12Z)
Salute the Classic: Revisiting Challenges of Machine Translation in the Age of Large Language Models [91.6543868677356]
ニューラルネットワーク翻訳の進化は、6つのコア課題の影響を受けている。これらの課題には、ドメインミスマッチ、並列データの量、まれな単語予測、長文の翻訳、単語アライメントとしてのアテンションモデル、そして準最適ビームサーチが含まれる。この研究はこれらの課題を再考し、先進的な大規模言語モデルにおけるそれらの継続的な関連性についての洞察を提供する。
論文参考訳（メタデータ） (2024-01-16T13:30:09Z)
Only Send What You Need: Learning to Communicate Efficiently in Federated Multilingual Machine Translation [19.28500206536013]
フェデレートラーニング(FL)は多言語課題を解決するための有望なアプローチである。モデル伝送の通信効率を向上させるメタ学習に基づく適応パラメータ選択手法MetaSendを提案する。我々は,MetaSendが,限られた通信予算が存在する場合に,翻訳品質のベースラインよりも大幅に改善されることを実証した。
論文参考訳（メタデータ） (2024-01-15T04:04:26Z)
POMP: Probability-driven Meta-graph Prompter for LLMs in Low-resource Unsupervised Neural Machine Translation [32.76853731410492]
低リソース言語(LRL)は、限られた並列データによる教師ありニューラルマシン翻訳の課題に直面している。本稿では,大言語モデルのLRL翻訳能力を高めるために,確率駆動型メタグラフプロンプタ(POMP)を提案する。本実験は3つのLRLの翻訳品質を著しく改善した。
論文参考訳（メタデータ） (2024-01-11T00:03:36Z)
Towards Effective Disambiguation for Machine Translation with Large Language Models [65.80775710657672]
我々は「あいまいな文」を翻訳する大規模言語モデルの能力について研究する。実験の結果,提案手法はDeepLやNLLBといった最先端システムと5つの言語方向のうち4つで一致し,性能を向上できることがわかった。
論文参考訳（メタデータ） (2023-09-20T22:22:52Z)
Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。 MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文参考訳（メタデータ） (2023-09-13T04:06:47Z)
High-resource Language-specific Training for Multilingual Neural Machine Translation [109.31892935605192]
負の干渉を軽減するために,HLT-MT(High-Resource Language-specific Training)を用いた多言語翻訳モデルを提案する。具体的には、まずマルチ言語モデルを高リソースペアでトレーニングし、デコーダの上部にある言語固有のモジュールを選択する。 HLT-MTは、高リソース言語から低リソース言語への知識伝達のために、利用可能なすべてのコーパスでさらに訓練されている。
論文参考訳（メタデータ） (2022-07-11T14:33:13Z)
Parameter-Efficient Neural Reranking for Cross-Lingual and Multilingual Retrieval [66.69799641522133]
最先端のニューラルランカーは、お腹が空いていることで悪名高い。現在のアプローチでは、英語データに基づいて訓練されたローダを、多言語エンコーダを用いて他の言語や言語間設定に転送するのが一般的である。本研究では,Sparse Fine-Tuning Masks (SFTMs) とAdapters (Adapters) の2つのパラメータ効率のアプローチにより,より軽量で効果的なゼロショット転送が可能となることを示す。
論文参考訳（メタデータ） (2022-04-05T15:44:27Z)
Sentence Boundary Augmentation For Neural Machine Translation Robustness [11.290581889247983]
文境界セグメンテーションが品質に最も大きな影響を与えることを示し、セグメンテーションの堅牢性を改善するための単純なデータ拡張戦略を開発する。文境界セグメンテーションが品質に最も大きな影響を与えることを示し、セグメンテーションの堅牢性を改善するための単純なデータ拡張戦略を開発する。
論文参考訳（メタデータ） (2020-10-21T16:44:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。