Fugu-MT 論文翻訳(概要): Bridging Latent Reasoning and Target-Language Generation via Retrieval-Transition Heads

論文の概要: Bridging Latent Reasoning and Target-Language Generation via Retrieval-Transition Heads

arxiv url: http://arxiv.org/abs/2602.22453v1
Date: Wed, 25 Feb 2026 22:28:50 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-27 18:41:22.436014
Title: Bridging Latent Reasoning and Target-Language Generation via Retrieval-Transition Heads
Title（参考訳）: 検索-遷移ヘッドによるブリッジング遅延推論とターゲット言語生成
Authors: Shaswat Patel, Vishvesh Trivedi, Yue Han, Yihuai Hong, Eunsol Choi,
Abstract要約: 検索ヘッドは複数の言語で共有されることが多い。 Retrieval-Transitionヘッダは、特定のターゲット言語出力への遷移を管理する。本研究は,対象言語へのマッピングに責任を負うアテンションヘッドを分離することにより,多言語LMの理解を深める。
参考スコア（独自算出の注目度）: 33.242977481016375
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent work has identified a subset of attention heads in Transformer as retrieval heads, which are responsible for retrieving information from the context. In this work, we first investigate retrieval heads in multilingual contexts. In multilingual language models, we find that retrieval heads are often shared across multiple languages. Expanding the study to cross-lingual setting, we identify Retrieval-Transition heads(RTH), which govern the transition to specific target-language output. Our experiments reveal that RTHs are distinct from retrieval heads and more vital for Chain-of-Thought reasoning in multilingual LLMs. Across four multilingual benchmarks (MMLU-ProX, MGSM, MLQA, and XQuaD) and two model families (Qwen-2.5 and Llama-3.1), we demonstrate that masking RTH induces bigger performance drop than masking Retrieval Heads (RH). Our work advances understanding of multilingual LMs by isolating the attention heads responsible for mapping to target languages.
Abstract（参考訳）: 近年の研究では、Transformer のアテンションヘッドのサブセットを検索ヘッドとして特定し、コンテキストから情報を取得する責任を負っている。本研究では,まず,多言語文脈における検索ヘッドについて検討する。多言語言語モデルでは、検索ヘッドは複数の言語で共有されることが多い。この研究を言語横断的な設定に拡張し、特定のターゲット言語出力への遷移を規定する検索-遷移ヘッド(RTH)を同定する。実験の結果、RTHは検索ヘッドと異なり、多言語LLMにおけるChain-of-Thought推論においてより不可欠であることが判明した。 4つの多言語ベンチマーク(MMLU-ProX, MGSM, MLQA, XQuaD)と2つのモデルファミリ(Qwen-2.5, Llama-3.1)で、マスクRTHは検索ヘッド(RH)をマスキングするよりも大きなパフォーマンス低下を引き起こすことを示した。本研究は,対象言語へのマッピングに責任を負うアテンションヘッドを分離することにより,多言語LMの理解を深める。

関連論文リスト

XRAG: Cross-lingual Retrieval-Augmented Generation [21.548347969135254]
XRAGは,LLMの生成能力を評価するために設計されている。 XRAGは最近のニュース記事から構築されており、質問に答えるために外部の知識が必要であることを保証している。
論文参考訳（メタデータ） (2025-05-15T08:47:55Z)
Multilingual Retrieval-Augmented Generation for Knowledge-Intensive Task [89.45111250272559]
Retrieval-augmented Generation (RAG) は現代のNLPの基盤となっている。本稿では,複数言語にまたがるRAGの有効性について,複数言語にまたがるオープンドメイン問合せに対する新しいアプローチを提案する。
論文参考訳（メタデータ） (2025-04-04T17:35:43Z)
mFollowIR: a Multilingual Benchmark for Instruction Following in Retrieval [61.17793165194077]
本稿では,検索モデルにおける命令追従能力のベンチマークであるmFollowIRを紹介する。本稿では,多言語 (XX-XX) と多言語 (En-XX) のパフォーマンスについて述べる。英語をベースとした学習者による多言語間性能は高いが,多言語設定では顕著な性能低下がみられた。
論文参考訳（メタデータ） (2025-01-31T16:24:46Z)
How Do Multilingual Language Models Remember Facts? [50.13632788453612]
これまでに同定された英語のリコール機構が多言語文脈に適用可能であることを示す。我々は、リコール中の言語の役割をローカライズし、エンリッチメントが言語に依存しないことを発見した。デコーダのみのLLMでは、FVは2つの異なる段階でこれらの2つの情報を構成する。
論文参考訳（メタデータ） (2024-10-18T11:39:34Z)
Cross-Lingual Transfer Robustness to Lower-Resource Languages on Adversarial Datasets [4.653113033432781]
多言語言語モデル(MLLM)の言語間伝達能力について検討した。本研究は,言語間移動とそのNLP応用への応用に関する貴重な知見を提供する。
論文参考訳（メタデータ） (2024-03-29T08:47:15Z)
MELA: Multilingual Evaluation of Linguistic Acceptability [7.524375463656369]
言語アクセプタビリティの多言語評価 -- MELA -- 10言語を対象とする46Kのサンプルを用いて、言語アクセプタビリティに関する最も大きなベンチマークを提示する。多言語解釈可能性の追求において, 微調整XLM-Rを用いた探索実験を行った。言語間移動実験は、受容可能性判定における伝達が非自明であることを示す。
論文参考訳（メタデータ） (2023-11-15T15:25:28Z)
On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文参考訳（メタデータ） (2021-12-21T08:10:27Z)
Contributions of Transformer Attention Heads in Multi- and Cross-lingual Tasks [9.913751245347429]
我々は,多言語トランスフォーマーモデルにおいて,多くの注意を向けることによって,多言語間および多言語間タスクの性能に肯定的な影響を与えることを示した。包括性を得るために,9言語にまたがる3つのタスクについて,事前学習した2つの多言語モデル,すなわち,マルチ言語BERT (mBERT) と XLM-R について検討した。
論文参考訳（メタデータ） (2021-08-18T20:17:46Z)
Evaluating Multilingual Text Encoders for Unsupervised Cross-Lingual Retrieval [51.60862829942932]
本稿では,言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性に着目した体系的実証研究を行う。文レベルのCLIRでは、最先端のパフォーマンスが達成できることを実証する。しかし、ピーク性能は、汎用の多言語テキストエンコーダをオフ・ザ・シェルフで使うのではなく、文の理解タスクにさらに特化したバリエーションに依存している。
論文参考訳（メタデータ） (2021-01-21T00:15:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。