Fugu-MT 論文翻訳(概要): Exploring Translation Mechanism of Large Language Models

論文の概要: Exploring Translation Mechanism of Large Language Models

arxiv url: http://arxiv.org/abs/2502.11806v1
Date: Mon, 17 Feb 2025 13:50:29 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-18 20:34:45.307657
Title: Exploring Translation Mechanism of Large Language Models
Title（参考訳）: 大規模言語モデルの翻訳機構の探索
Authors: Hongbin Zhang, Kehai Chen, Xuefeng Bai, Xiucheng Li, Min Zhang,
Abstract要約: 大規模言語モデル(LLM)は多言語翻訳タスクにおいて著しく成功している。本研究では,計算成分の観点から,LLMの翻訳機構について検討する。
参考スコア（独自算出の注目度）: 23.681179949587396
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) have succeeded remarkably in multilingual translation tasks. However, the inherent translation mechanisms of LLMs remain poorly understood, largely due to sophisticated architectures and vast parameter scales. In response to this issue, this study explores the translation mechanism of LLM from the perspective of computational components (e.g., attention heads and MLPs). Path patching is utilized to explore causal relationships between components, detecting those crucial for translation tasks and subsequently analyzing their behavioral patterns in human-interpretable terms. Comprehensive analysis reveals that translation is predominantly facilitated by a sparse subset of specialized attention heads (less than 5\%), which extract source language, indicator, and positional features. MLPs subsequently integrate and process these features by transiting towards English-centric latent representations. Notably, building on the above findings, targeted fine-tuning of only 64 heads achieves translation improvement comparable to full-parameter tuning while preserving general capabilities.
Abstract（参考訳）: 大規模言語モデル(LLM)は多言語翻訳タスクにおいて著しく成功している。しかし、LLMの固有の翻訳機構は、高度なアーキテクチャと膨大なパラメータスケールのため、よく理解されていない。本研究は, 計算成分(例えば, 注目頭部, MLP)の観点から, LLMの翻訳機構について検討する。経路パッチングは、コンポーネント間の因果関係を探索し、翻訳タスクに不可欠なものを検出し、その後、人間の解釈可能な言葉でそれらの行動パターンを分析するために用いられる。包括的分析により、翻訳は主に、ソース言語、インジケータ、位置特徴を抽出する特別な注意ヘッドのスパースサブセット(5\%未満)によって促進されることが明らかになった。 MLPはその後、英語中心の潜在表現に移行してこれらの特徴を統合し、処理する。特に、上記の知見に基づいて、64個の頭部のみの微調整を目標とし、汎用性を保ちながら全パラメータチューニングに匹敵する翻訳改善を実現する。

関連論文リスト

Disentangling meaning from language in LLM-based machine translation [24.40574806667368]
機械論的観点から文レベルの機械翻訳について検討する。我々はMTを2つのサブタスクに分解する: 対象言語でテキストを生成し、入力文の意味を保存する。命令ベースのプロンプトに匹敵する無命令MT性能を実現できることを示す。
論文参考訳（メタデータ） (2026-02-04T14:40:53Z)
Finding the Translation Switch: Discovering and Exploiting the Task-Initiation Features in LLMs [69.28193153685893]
大きな言語モデル(LLM)は、タスク固有の微調整なしでも、しばしば強力な翻訳能力を示す。このプロセスをデミスティフィケートするために、スパースオートエンコーダ(SAE)を活用し、タスク固有の特徴を特定するための新しいフレームワークを導入する。我々の研究は、LLMの翻訳機構のコアコンポーネントをデコードするだけでなく、内部モデル機構を使用してより堅牢で効率的なモデルを作成するための青写真も提供しています。
論文参考訳（メタデータ） (2026-01-16T06:29:07Z)
Mechanistic Understanding and Mitigation of Language Confusion in English-Centric Large Language Models [49.09746599881631]
言語混乱に関する最初の機械論的解釈可能性研究について述べる。混乱点(CP)がこの現象の中心であることを示す。本研究は,多言語学習モデルとの比較分析により同定された少数の臨界ニューロンの編集が,混乱を著しく軽減することを示す。
論文参考訳（メタデータ） (2025-05-22T11:29:17Z)
Bridging the Linguistic Divide: A Survey on Leveraging Large Language Models for Machine Translation [33.08089616645845]
大規模言語モデル(LLM)の出現は機械翻訳(MT)の景観を大きく変えた。我々は、アンダーリソース設定への効果的な適応を可能にする、少数ショットプロンプト、クロスランガル転送、パラメータ効率の微調整などの手法を解析する。幻覚, 評価の不整合, 遺伝バイアスなどの持続的課題について検討するとともに, 翻訳品質向上のためのLCM駆動メトリクスの評価を行った。
論文参考訳（メタデータ） (2025-04-02T17:26:40Z)
Refining Translations with LLMs: A Constraint-Aware Iterative Prompting Approach [7.5069214839655345]
大言語モデル(LLM)は機械翻訳(MT)において顕著な熟練性を示している本稿では,意味的正確性に不可欠なキーワードを優先することで,翻訳忠実度を高める多段階のプロンプトチェーンを提案する。 FLORES-200およびWMTデータセットのベースモデルとしてLlamaとQwenを使用した実験は、ベースラインよりも大幅に改善されている。
論文参考訳（メタデータ） (2024-11-13T05:40:24Z)
LLM-based Translation Inference with Iterative Bilingual Understanding [52.46978502902928]
大規模言語モデル(LLM)の言語間機能に基づいた,新しい反復的バイリンガル理解翻訳法を提案する。 LLMの言語横断的能力により、ソース言語とターゲット言語を別々にコンテキスト理解することが可能になる。提案したIBUTは、いくつかの強力な比較法より優れている。
論文参考訳（メタデータ） (2024-10-16T13:21:46Z)
TEaR: Improving LLM-based Machine Translation with Systematic Self-Refinement [26.26493253161022]
大規模言語モデル(LLM)は機械翻訳(MT)において印象的な結果を得た我々は,体系的LLMに基づく自己精製翻訳フレームワーク,textbfTEaRを紹介する。
論文参考訳（メタデータ） (2024-02-26T07:58:12Z)
Lost in the Source Language: How Large Language Models Evaluate the Quality of Machine Translation [64.5862977630713]
本研究では,機械翻訳評価タスクにおいて,Large Language Models (LLM) がソースデータと参照データをどのように活用するかを検討する。参照情報が評価精度を大幅に向上させるのに対して,意外なことに,ソース情報は時として非生産的である。
論文参考訳（メタデータ） (2024-01-12T13:23:21Z)
SCALE: Synergized Collaboration of Asymmetric Language Translation Engines [105.8983433641208]
本稿では,コンパクトな特殊翻訳モデル (STM) と汎用大言語モデル (LLM) を1つの統合翻訳エンジンとして結合する協調フレームワークを提案する。 STMからの翻訳を3重項インコンテキストのデモに導入することで、SCALEはLLMの洗練とピボット能力を解放する。実験の結果,SCALEは低リソース環境において,少数ショットLLM (GPT-4) と特殊モデル (NLLB) の両方を著しく上回っていることがわかった。
論文参考訳（メタデータ） (2023-09-29T08:46:38Z)
Towards Effective Disambiguation for Machine Translation with Large Language Models [65.80775710657672]
我々は「あいまいな文」を翻訳する大規模言語モデルの能力について研究する。実験の結果,提案手法はDeepLやNLLBといった最先端システムと5つの言語方向のうち4つで一致し,性能を向上できることがわかった。
論文参考訳（メタデータ） (2023-09-20T22:22:52Z)
Exploring Human-Like Translation Strategy with Large Language Models [93.49333173279508]
大規模言語モデル(LLM)は、一般的なシナリオにおいて印象的な機能を示している。本研究は,マルチアスペクト・プロンプトと選択のためのMAPSフレームワークを提案する。品質推定に基づく選択機構を用いて,ノイズや不ヘッピーな知識を抽出する。
論文参考訳（メタデータ） (2023-05-06T19:03:12Z)
Multilingual Multi-Aspect Explainability Analyses on Machine Reading Comprehension Models [76.48370548802464]
本稿では,マルチヘッド自己注意と最終MRCシステム性能の関係を検討するために,一連の解析実験を実施することに焦点を当てる。問合せ及び問合せ理解の注意が問合せプロセスにおいて最も重要なものであることが判明した。包括的可視化とケーススタディを通じて、注意マップに関するいくつかの一般的な知見も観察し、これらのモデルがどのように問題を解くかを理解するのに役立ちます。
論文参考訳（メタデータ） (2021-08-26T04:23:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。