論文の概要: Disentangling meaning from language in LLM-based machine translation
- arxiv url: http://arxiv.org/abs/2602.04613v1
- Date: Wed, 04 Feb 2026 14:40:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.575006
- Title: Disentangling meaning from language in LLM-based machine translation
- Title(参考訳): LLMを用いた機械翻訳における言語からの意味の分離
- Authors: Théo Lasnier, Armel Zebaze, Djamé Seddah, Rachel Bawden, Benoît Sagot,
- Abstract要約: 機械論的観点から文レベルの機械翻訳について検討する。
我々はMTを2つのサブタスクに分解する: 対象言語でテキストを生成し、入力文の意味を保存する。
命令ベースのプロンプトに匹敵する無命令MT性能を実現できることを示す。
- 参考スコア(独自算出の注目度): 24.40574806667368
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mechanistic Interpretability (MI) seeks to explain how neural networks implement their capabilities, but the scale of Large Language Models (LLMs) has limited prior MI work in Machine Translation (MT) to word-level analyses. We study sentence-level MT from a mechanistic perspective by analyzing attention heads to understand how LLMs internally encode and distribute translation functions. We decompose MT into two subtasks: producing text in the target language (i.e. target language identification) and preserving the input sentence's meaning (i.e. sentence equivalence). Across three families of open-source models and 20 translation directions, we find that distinct, sparse sets of attention heads specialize in each subtask. Based on this insight, we construct subtask-specific steering vectors and show that modifying just 1% of the relevant heads enables instruction-free MT performance comparable to instruction-based prompting, while ablating these heads selectively disrupts their corresponding translation functions.
- Abstract(参考訳): 機械的解釈可能性(MI)は、ニューラルネットワークがその能力をどのように実装するかを説明するが、Large Language Models(LLM)のスケールは、機械翻訳(MT)から単語レベルの分析まで、これまでのMI作業に限られていた。
文レベルのMTを機械的視点から検討し,LLMが翻訳関数を内部的にエンコードし分散する方法を理解する。
我々は、MTを2つのサブタスクに分解する: ターゲット言語(すなわち、ターゲット言語識別)でテキストを生成し、入力文の意味を保存する(すなわち、文等価性)。
オープンソースモデルと20の翻訳方向の3つのファミリにまたがって、各サブタスクに特有な、まばらなアテンションヘッドが設けられていることが判明した。
この知見に基づいて,サブタスク固有のステアリングベクトルを構築し,命令ベースのプロンプトに匹敵する命令なしMT性能を実現するとともに,これらのヘッドを非難することで,対応する翻訳関数を選択的に破壊することを示す。
関連論文リスト
- TasTe: Teaching Large Language Models to Translate through Self-Reflection [82.83958470745381]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な性能を示した。
本稿では,自己回帰を通した翻訳を行うTasTeフレームワークを提案する。
WMT22ベンチマークにおける4つの言語方向の評価結果から,既存の手法と比較して,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-06-12T17:21:21Z) - Towards Effective Disambiguation for Machine Translation with Large
Language Models [65.80775710657672]
我々は「あいまいな文」を翻訳する大規模言語モデルの能力について研究する。
実験の結果,提案手法はDeepLやNLLBといった最先端システムと5つの言語方向のうち4つで一致し,性能を向上できることがわかった。
論文 参考訳(メタデータ) (2023-09-20T22:22:52Z) - Exploring Human-Like Translation Strategy with Large Language Models [93.49333173279508]
大規模言語モデル(LLM)は、一般的なシナリオにおいて印象的な機能を示している。
本研究は,マルチアスペクト・プロンプトと選択のためのMAPSフレームワークを提案する。
品質推定に基づく選択機構を用いて,ノイズや不ヘッピーな知識を抽出する。
論文 参考訳(メタデータ) (2023-05-06T19:03:12Z) - Dictionary-based Phrase-level Prompting of Large Language Models for
Machine Translation [91.57514888410205]
大規模言語モデル(LLM)は、プロンプトによる機械翻訳(MT)能力を示す。
LLMは、低リソースやドメイン転送のシナリオで一般的なまれな単語で入力を翻訳するのに苦労する。
LLMプロンプトは、バイリンガル辞書からの事前知識を用いてプロンプトの制御ヒントを提供することにより、稀な単語に対する効果的な解決策を提供することができることを示す。
論文 参考訳(メタデータ) (2023-02-15T18:46:42Z) - Learning Domain Specific Language Models for Automatic Speech
Recognition through Machine Translation [0.0]
我々は、タスク固有のテキストデータの翻訳を最初に取得するために、中間ステップとしてNeural Machine Translationを使用します。
我々はNMTビームサーチグラフから単語混乱ネットワークを導出する手法を開発した。
NMT混在ネットワークは、n-gramと繰り返しニューラルネットワークLMの両方の難易度を低減するのに有効であることを示す。
論文 参考訳(メタデータ) (2021-09-21T10:29:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。