論文の概要: LLaVA-NeuMT: Selective Layer-Neuron Modulation for Efficient Multilingual Multimodal Translation
- arxiv url: http://arxiv.org/abs/2507.18940v1
- Date: Fri, 25 Jul 2025 04:23:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 16:16:48.818391
- Title: LLaVA-NeuMT: Selective Layer-Neuron Modulation for Efficient Multilingual Multimodal Translation
- Title(参考訳): LLaVA-NeuMT:多言語多モーダル翻訳のための選択層ニューロン変調
- Authors: Jingxuan Wei, Caijun Jia, Qi Chen, Yujun Cai, Linzhuang Sun, Xiangxiang Zhang, Gaowei Wu, Bihui Yu,
- Abstract要約: LLaVA-NeuMTは言語固有の表現と言語に依存しない表現を明示的にモデル化し、多言語干渉を緩和する新しいフレームワークである。
提案手法は,異なる言語対の最も情報性の高い層を識別する層選択機構から成り立っている。
我々はM3-Multi30KとM3-AmbigCapsデータセットの広範な実験を行い、LLaVA-NeuMTはモデルパラメータの40%しか微調整していないが、完全な微調整アプローチを超えていることを示した。
- 参考スコア(独自算出の注目度): 12.51212639515934
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Machine Translation (MMT) enhances translation quality by incorporating visual context, helping to resolve textual ambiguities. While existing MMT methods perform well in bilingual settings, extending them to multilingual translation remains challenging due to cross-lingual interference and ineffective parameter-sharing strategies. To address this, we propose LLaVA-NeuMT, a novel multimodal multilingual translation framework that explicitly models language-specific and language-agnostic representations to mitigate multilingual interference. Our approach consists of a layer selection mechanism that identifies the most informative layers for different language pairs and a neuron-level adaptation strategy that dynamically selects language-specific and agnostic neurons to improve translation quality while reducing redundancy. We conduct extensive experiments on the M3-Multi30K and M3-AmbigCaps datasets, demonstrating that LLaVA-NeuMT, while fine-tuning only 40\% of the model parameters, surpasses full fine-tuning approaches and ultimately achieves SOTA results on both datasets. Our analysis further provides insights into the importance of selected layers and neurons in multimodal multilingual adaptation, offering an efficient and scalable solution to cross-lingual adaptation in multimodal translation.
- Abstract(参考訳): マルチモーダル機械翻訳(MMT)は、視覚的コンテキストを取り入れた翻訳品質を高め、テキストの曖昧さを解決するのに役立つ。
既存のMT法はバイリンガル環境では良好に機能するが、多言語翻訳に拡張することは、多言語間干渉と非効率なパラメータ共有戦略のため、依然として困難である。
そこで我々は,LLaVA-NeuMTを提案する。LLaVA-NeuMTは多言語間干渉を軽減するために,言語固有の表現と言語に依存しない表現を明示的にモデル化する,新しい多言語翻訳フレームワークである。
提案手法は,異なる言語対の最も情報性の高い層を識別する層選択機構と,言語特異的で非依存的なニューロンを動的に選択し,冗長性を低減しつつ翻訳品質を向上させるニューロンレベルの適応戦略から構成される。
我々はM3-Multi30KとM3-AmbigCapsのデータセットについて広範な実験を行い、LLaVA-NeuMTはモデルパラメータの40倍しか微調整せず、完全な微調整アプローチを超え、最終的には両方のデータセットでSOTA結果が得られることを示した。
我々の分析は、多モーダル多言語適応における選択された層とニューロンの重要性を洞察し、多モーダル翻訳における多言語適応のための効率的でスケーラブルなソリューションを提供する。
関連論文リスト
- LANDeRMT: Detecting and Routing Language-Aware Neurons for Selectively Finetuning LLMs to Machine Translation [43.26446958873554]
大規模言語モデル(LLM)は,バイリンガルの監督が限られているにもかかわらず,多言語翻訳において有望な結果を示している。
大規模言語モデル(LLM)の最近の進歩は,バイリンガルの監督が限定された場合でも,多言語翻訳において有望な結果を示している。
LandeRMT は LLM を textbfMachine textbfTranslation に選択的に微調整するフレームワークである。
論文 参考訳(メタデータ) (2024-09-29T02:39:42Z) - Mitigating Data Imbalance and Representation Degeneration in
Multilingual Machine Translation [103.90963418039473]
Bi-ACLは、MNMTモデルの性能を向上させるために、ターゲット側モノリンガルデータとバイリンガル辞書のみを使用するフレームワークである。
Bi-ACLは、長い尾の言語でも、高リソースの言語でも、より効果的であることを示す。
論文 参考訳(メタデータ) (2023-05-22T07:31:08Z) - Active Learning for Multilingual Semantic Parser [65.2180122032335]
多言語意味解析(AL-MSP)のための最初の能動的学習手法を提案する。
AL-MSPは翻訳対象の既存のデータセットからサブセットのみを選択する。
実験の結果,AL-MSPは理想的な選択法で翻訳コストを大幅に削減できることがわかった。
論文 参考訳(メタデータ) (2023-01-30T14:19:29Z) - Revamping Multilingual Agreement Bidirectionally via Switched
Back-translation for Multilingual Neural Machine Translation [107.83158521848372]
マルチリンガル・コンセンサス(MA)は、マルチリンガル・ニューラル・マシン翻訳(MNMT)の重要性を示した
textbfBidirectional textbfMultilingual textbfAgreement via textbfSwitched textbfBack-textbftranslation (textbfBMA-SBT)
これは、訓練済みのMNMTモデルを微調整するための、新規で普遍的な多言語合意フレームワークである。
論文 参考訳(メタデータ) (2022-09-28T09:14:58Z) - High-resource Language-specific Training for Multilingual Neural Machine
Translation [109.31892935605192]
負の干渉を軽減するために,HLT-MT(High-Resource Language-specific Training)を用いた多言語翻訳モデルを提案する。
具体的には、まずマルチ言語モデルを高リソースペアでトレーニングし、デコーダの上部にある言語固有のモジュールを選択する。
HLT-MTは、高リソース言語から低リソース言語への知識伝達のために、利用可能なすべてのコーパスでさらに訓練されている。
論文 参考訳(メタデータ) (2022-07-11T14:33:13Z) - Multilingual Neural Machine Translation:Can Linguistic Hierarchies Help? [29.01386302441015]
MNMT(Multilingual Neural Machine Translation)は、複数の言語間の翻訳をサポートする単一のNMTモデルを訓練する。
MNMTモデルの性能は、様々な言語から知識を伝達することで、負の転送によって翻訳性能が低下するので、訓練で使用される言語の種類に大きく依存する。
本稿では,MNMTにおける階層的知識蒸留(HKD)手法を提案する。
論文 参考訳(メタデータ) (2021-10-15T02:31:48Z) - xGQA: Cross-Lingual Visual Question Answering [100.35229218735938]
xGQAは視覚的質問応答タスクのための新しい多言語評価ベンチマークである。
確立された英語GQAデータセットを7言語に拡張する。
本稿では,マルチモーダルトランスフォーマーモデルに適応するアダプタベースの新しいアプローチを提案する。
論文 参考訳(メタデータ) (2021-09-13T15:58:21Z) - Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。
この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。
本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文 参考訳(メタデータ) (2021-09-09T03:48:35Z) - Multi-task Learning for Multilingual Neural Machine Translation [32.81785430242313]
本稿では,bitextデータ上での翻訳タスクと,モノリンガルデータ上での2つの認知タスクを併用してモデルを学習するマルチタスク学習フレームワークを提案する。
提案手法は,高リソース言語と低リソース言語の両方の翻訳品質を効果的に向上できることを示す。
論文 参考訳(メタデータ) (2020-10-06T06:54:12Z) - Improving Massively Multilingual Neural Machine Translation and
Zero-Shot Translation [81.7786241489002]
ニューラルネットワーク翻訳(NMT)の多言語モデルは理論的には魅力的であるが、しばしばバイリンガルモデルに劣る。
我々は,多言語NMTが言語ペアをサポートするためにより強力なモデリング能力を必要とすることを論じる。
未知のトレーニング言語ペアの翻訳を強制するために,ランダムなオンライン翻訳を提案する。
論文 参考訳(メタデータ) (2020-04-24T17:21:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。