論文の概要: Consensus-Aligned Neuron Efficient Fine-Tuning Large Language Models for Multi-Domain Machine Translation
- arxiv url: http://arxiv.org/abs/2602.05694v1
- Date: Thu, 05 Feb 2026 14:20:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.968964
- Title: Consensus-Aligned Neuron Efficient Fine-Tuning Large Language Models for Multi-Domain Machine Translation
- Title(参考訳): マルチドメイン機械翻訳のためのコンセンサスアライメントニューロン高能率微調整大言語モデル
- Authors: Shuting Jiang, Ran Song, Yuxin Huang, Yan Xiang, Yantuan Xian, Shengxiang Gao, Zhengtao Yu,
- Abstract要約: マルチドメイン機械翻訳(MDMT)は、様々なドメインにまたがるコンテンツを翻訳できる統一モデルを構築することを目的としている。
ドメイン適応は、大きな言語モデル(LLM)の課題であり続けている。
LLM内のコンセンサスに整合したニューロンを特定し,更新するMDMTのためのニューロン効率のよい微調整フレームワークを提案する。
- 参考スコア(独自算出の注目度): 26.913797159189787
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-domain machine translation (MDMT) aims to build a unified model capable of translating content across diverse domains. Despite the impressive machine translation capabilities demonstrated by large language models (LLMs), domain adaptation still remains a challenge for LLMs. Existing MDMT methods such as in-context learning and parameter-efficient fine-tuning often suffer from domain shift, parameter interference and limited generalization. In this work, we propose a neuron-efficient fine-tuning framework for MDMT that identifies and updates consensus-aligned neurons within LLMs. These neurons are selected by maximizing the mutual information between neuron behavior and domain features, enabling LLMs to capture both generalizable translation patterns and domain-specific nuances. Our method then fine-tunes LLMs guided by these neurons, effectively mitigating parameter interference and domain-specific overfitting. Comprehensive experiments on three LLMs across ten German-English and Chinese-English translation domains evidence that our method consistently outperforms strong PEFT baselines on both seen and unseen domains, achieving state-of-the-art performance.
- Abstract(参考訳): マルチドメイン機械翻訳(MDMT)は、様々なドメインにまたがるコンテンツを翻訳できる統一モデルを構築することを目的としている。
大規模言語モデル(LLM)によって実証された機械翻訳機能にもかかわらず、ドメイン適応はLLMにとって依然として課題である。
既存のMDMT手法であるインコンテキスト学習やパラメータ効率の微調整は、しばしばドメインシフト、パラメータ干渉、限定的な一般化に悩まされる。
本研究では,LLM内のコンセンサスに整合したニューロンを特定し,更新するMDMTのためのニューロン効率のよい微調整フレームワークを提案する。
これらのニューロンは、ニューロンの行動とドメインの特徴の相互情報を最大化することで選択され、LLMは一般化可能な翻訳パターンとドメイン固有のニュアンスの両方をキャプチャすることができる。
提案手法は,これらのニューロンによって誘導される微細構造LPMを効果的に緩和し,パラメータ干渉とドメイン固有のオーバーフィッティングを緩和する。
10のドイツ語と中国語の翻訳ドメインにまたがる3つのLLMに関する総合的な実験により、我々の手法は、目に見える領域と見えない領域の両方でPEFTのベースラインを一貫して上回り、最先端のパフォーマンスを達成することが証明された。
関連論文リスト
- Graft: Integrating the Domain Knowledge via Efficient Parameter Synergy for MLLMs [56.76586846269894]
MLLM(Multimodal Large Language Models)は、様々な領域で成功している。
その重要性にもかかわらず、ドメイン固有のMLLM間の知識共有の研究はほとんど未調査のままである。
専門家機能のモジュール構成を可能にする統一パラメータ統合フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-30T15:07:41Z) - Exploiting Domain-Specific Parallel Data on Multilingual Language Models for Low-resource Language Translation [0.6467856992131628]
ドメイン固有NMTモデル構築における補助領域からの並列データの有効性を評価する。
NMTモデルの性能に対する領域分散の影響について検討する。
ドメイン固有NMTモデルの構築において補助並列データを利用するためのいくつかの戦略を推奨する。
論文 参考訳(メタデータ) (2024-12-27T08:25:52Z) - Large Language Model for Multi-Domain Translation: Benchmarking and Domain CoT Fine-tuning [55.107329995417786]
大規模言語モデル(LLM)は、目覚ましい一般的な理解と生成能力を示している。
我々は、25のドイツ語$Leftrightarrow$ Englishと22の中国語$Leftrightarrow$ Englishテストセットを特徴とするマルチドメイン翻訳のベンチマークを確立する。
本稿では,LLMの内在的マルチドメインインテリジェンスを活用し,翻訳性能を向上させるためのドメインチェーン・オブ・シント(CoT)ファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-10-03T16:15:04Z) - LANDeRMT: Detecting and Routing Language-Aware Neurons for Selectively Finetuning LLMs to Machine Translation [43.26446958873554]
大規模言語モデル(LLM)は,バイリンガルの監督が限られているにもかかわらず,多言語翻訳において有望な結果を示している。
大規模言語モデル(LLM)の最近の進歩は,バイリンガルの監督が限定された場合でも,多言語翻訳において有望な結果を示している。
LandeRMT は LLM を textbfMachine textbfTranslation に選択的に微調整するフレームワークである。
論文 参考訳(メタデータ) (2024-09-29T02:39:42Z) - Investigating the potential of Sparse Mixtures-of-Experts for multi-domain neural machine translation [59.41178047749177]
トレーニング中に見られるさまざまなドメインのデータを扱うことができ、トレーニング中に見つからないドメインに対して堅牢な効率的なモデルを開発することを目的として、マルチドメインニューラルネットワーク翻訳に重点を置いている。
SMOE(Sparse Mixture-of-Experts)モデルは、効率的なモデルスケーリングを可能にするため、このタスクに適していると仮定する。
マルチドメインシナリオにおけるSMoEの有用性を検証するための一連の実験を行い、Transformerの簡単な幅スケーリングは、実際はよりシンプルで驚くほど効率的なアプローチであり、SMoEと同等の性能レベルに達することを発見した。
論文 参考訳(メタデータ) (2024-07-01T09:45:22Z) - MMNeuron: Discovering Neuron-Level Domain-Specific Interpretation in Multimodal Large Language Model [11.91010815015959]
マルチモーダル大言語モデルにおけるドメイン固有ニューロンを同定する。
本稿では,MLLMの言語モデルモジュールに対して,投影された画像特徴を扱うための3段階の機構を提案する。
論文 参考訳(メタデータ) (2024-06-17T03:59:44Z) - PANDA: Preference Adaptation for Enhancing Domain-Specific Abilities of LLMs [49.32067576992511]
大規模言語モデルは、しばしばドメイン固有の最先端モデルによって達成されるパフォーマンスに欠ける。
LLMのドメイン固有の機能を強化する1つの潜在的アプローチは、対応するデータセットを使用してそれらを微調整することである。
LLM(PANDA)のドメイン固有能力を高めるための優先度適応法を提案する。
実験の結果,PANDA はテキスト分類や対話型意思決定タスクにおいて LLM のドメイン固有性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-02-20T09:02:55Z) - Towards Effective Disambiguation for Machine Translation with Large
Language Models [65.80775710657672]
我々は「あいまいな文」を翻訳する大規模言語モデルの能力について研究する。
実験の結果,提案手法はDeepLやNLLBといった最先端システムと5つの言語方向のうち4つで一致し,性能を向上できることがわかった。
論文 参考訳(メタデータ) (2023-09-20T22:22:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。