論文の概要: Attention Sinks in Massively Multilingual Neural Machine Translation:Discovery, Analysis, and Mitigation
- arxiv url: http://arxiv.org/abs/2605.01229v1
- Date: Sat, 02 May 2026 03:59:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.652942
- Title: Attention Sinks in Massively Multilingual Neural Machine Translation:Discovery, Analysis, and Mitigation
- Title(参考訳): 多言語ニューラルマシン翻訳における注意シンク:発見・分析・軽減
- Authors: Hillary Mutisya, John Mugane,
- Abstract要約: ニューラルネットワーク翻訳におけるクロスアテンションパターンは、多言語モデルが言語構造をどのように整合させるかを研究するために広く用いられている。
NLLB-200(600M)のクロスアテンション解析における系統的アーティファクトについて報告する。
我々はこれらの「注意の流し込み」と呼び、LSMからNMTの交差注意への発見を延長し、位置バイアスよりも語彙設計に根ざした因果メカニズムを同定する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cross-attention patterns in neural machine translation (NMT) are widely used to study how multilingual models align linguistic structure. We report a systematic artifact in cross-attention analysis of NLLB-200 (600M): non-content tokens - primarily end-of-sequence tokens, language tags, and punctuation - capture 83 percent to 91 percent of total cross-attention mass. We term these "attention sinks," extending findings from LLMs [Xiao et al., 2023] to NMT cross-attention and identifying a causal mechanism rooted in vocabulary design rather than position bias. This artifact causes raw metrics to underestimate content-level similarity by nearly half (36.7 percent raw vs. 70.7 percent filtered), rendering uncorrected analyses unreliable. To address this, we validate a content-only filtering methodology that removes non-content tokens and renormalizes the distribution. Applying this to 1,000 parallel sentences across African languages (Swahili, Kikuyu, Somali, Luo) and non-African benchmarks (German, Turkish, Chinese, Hindi), we confirm the artifact is universal and recover masked linguistic signals: a 16.9 percentage-point gap between teacher-forcing and generation modes, clear language-family clustering in attention entropy, and a hidden Somali paradox linking SOV word order to monotonic alignment. We release our filtering toolkit and corrected datasets to support reproducible interpretability research on multilingual NMT.
- Abstract(参考訳): ニューラルネットワーク翻訳(NMT)におけるクロスアテンションパターンは、多言語モデルが言語構造をどのように整合させるかを研究するために広く用いられている。
NLLB-200 (600M) のクロスアテンション解析における体系的アーティファクトを報告する: 非コンテントトークン - 主にシーケンスの終端トークン、言語タグ、句読点 - は、全体のクロスアテンション質量の83%から91%を占める。
我々はこれらの「注意の流し込み」を,LSM(Xiao et al , 2023)からNMTへの横断的注意, 位置バイアスよりも語彙設計に根ざした因果的メカニズムの同定へと拡張した。
このアーティファクトは、生のメトリクスを半分近く(生の36.7%とフィルターされた70.7%)過小評価し、不正確な分析を信頼できないものにしている。
そこで本研究では,非コンテンツトークンを除去し,再正規化するコンテンツのみフィルタリング手法を検証する。
これをアフリカ語(スワヒリ語、キクユ語、ソマリ語、ルオ語)と非アフリカ語ベンチマーク(ドイツ語、トルコ語、中国語、ヒンディー語)に1000の並列文に適用することにより、人工物が普遍的でマスキングされた言語信号であることを確認した。
我々は、多言語NMTにおける再現可能な解釈可能性研究を支援するために、フィルタリングツールキットと修正データセットをリリースする。
関連論文リスト
- MEME-Fusion@CHiPSAL 2026: Multimodal Ablation Study of Hate Detection and Sentiment Analysis on Nepali Memes [0.0]
本稿では,CHiPSAL 2026共有タスクに対して,サブタスクAとサブタスクBの両方に対処するシステムを提案する。
視覚符号化のためのCLIPと多言語テキスト表現のためのBGE-M3を組み合わせたハイブリッド・モーダル・アテンション融合アーキテクチャを提案する。
テキストのみのベースラインであるSubtask Aの5.9%のF1マクロ改善を実現した。
論文 参考訳(メタデータ) (2026-04-13T07:37:14Z) - DIA-HARM: Dialectal Disparities in Harmful Content Detection Across 50 English Dialects [6.107850985025956]
本稿では,50の英語方言における偽情報検出のための最初のベンチマークであるDIA-HARMを提案する。
人間による方言の含有量は1.4-3.6%減少し、一方でAI生成された内容は安定している。
私たちはDIA-HARMフレームワーク、D3コーパス、評価ツールをリリースします。
論文 参考訳(メタデータ) (2026-04-07T01:43:48Z) - Translation or Recitation? Calibrating Evaluation Scores for Machine Translation of Extremely Low-Resource Languages [39.985923582735936]
FREDの難易度はF(F)、Retrieval Proxy(R)、Pre-training Exposure(E)、Corpus Diversity(D)を含む。
これらの測定結果から、結果のばらつきの大部分は、モデル能力よりも、列車とテストの重複と事前訓練による露光によって説明されていることが分かる。
論文 参考訳(メタデータ) (2026-03-26T09:20:17Z) - Can We Still Hear the Accent? Investigating the Resilience of Native Language Signals in the LLM Era [0.0]
ACLアンソロジー論文における母国語識別の傾向を,神経前ネットワーク(NN),LLM前,LLM後という3つの時代にわたって分析した。
分析の結果,NLIの性能は時間とともに一貫した低下を示した。
中国とフランスは予想外の抵抗や分岐傾向を示す一方、日韓は予想より急激な減少を示す。
論文 参考訳(メタデータ) (2026-03-20T09:11:18Z) - Omnilingual SONAR: Cross-Lingual and Cross-Modal Sentence Embeddings Bridging Massively Multilingual Text and Speech [61.759910921200834]
言語間の文エンコーダは通常、数百の言語をカバーしている。
我々はOmniSONARを紹介した。OmniSONARは全言語、言語横断、言語横断の文埋め込みモデルである。
論文 参考訳(メタデータ) (2026-03-17T14:47:35Z) - Beyond WER: Probing Whisper's Sub-token Decoder Across Diverse Language Resource Levels [6.627057618324123]
本稿では,Whisperの多言語デコーダの詳細な解析を紹介する。
提案手法は,ビーム探索経路をトレースし,サブトークン推定とその関連確率を推定する。
リソース言語が低いほど、これらのメトリクスは悪化するが、サブトークンの使用ではクラスタリングパターンが異なる。
論文 参考訳(メタデータ) (2025-09-29T21:20:05Z) - Towards Faster k-Nearest-Neighbor Machine Translation [51.866464707284635]
k-nearest-neighbor 機械翻訳アプローチは、トークンをデコードする際に、データストア全体の重い検索オーバーヘッドに悩まされる。
ニューラルネットワークの翻訳モデルとkNNが生成する確率によってトークンが共同で翻訳されるべきかどうかを予測するための,単純で効果的な多層パーセプトロン(MLP)ネットワークを提案する。
本手法は,翻訳品質をわずかに低下させることなく,kNN検索のオーバーヘッドを最大53%削減する。
論文 参考訳(メタデータ) (2023-12-12T16:41:29Z) - Mitigating Hallucinations and Off-target Machine Translation with
Source-Contrastive and Language-Contrastive Decoding [53.84948040596055]
修正された復号化目標を用いて、障害ケースを緩和する2つの関連手法を提案する。
大規模多言語モデルM2M-100 (418M) とSMaLL-100の実験は、これらの手法が幻覚やターゲット外の翻訳を抑制することを示した。
論文 参考訳(メタデータ) (2023-09-13T17:15:27Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - Exploring Unsupervised Pretraining Objectives for Machine Translation [99.5441395624651]
教師なし言語間事前訓練は、ニューラルマシン翻訳(NMT)の強力な結果を得た
ほとんどのアプローチは、入力の一部をマスキングしてデコーダで再構成することで、シーケンス・ツー・シーケンスアーキテクチャにマスク付き言語モデリング(MLM)を適用する。
マスキングと、実際の(完全な)文に似た入力を生成する代替目的を、文脈に基づいて単語を並べ替えて置き換えることにより比較する。
論文 参考訳(メタデータ) (2021-06-10T10:18:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。