Fugu-MT 論文翻訳(概要): Tracing Multilingual Knowledge Acquisition Dynamics in Domain Adaptation: A Case Study of English-Japanese Biomedical Adaptation

論文の概要: Tracing Multilingual Knowledge Acquisition Dynamics in Domain Adaptation: A Case Study of English-Japanese Biomedical Adaptation

arxiv url: http://arxiv.org/abs/2510.12115v1
Date: Tue, 14 Oct 2025 03:34:17 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-15 19:02:32.174977
Title: Tracing Multilingual Knowledge Acquisition Dynamics in Domain Adaptation: A Case Study of English-Japanese Biomedical Adaptation
Title（参考訳）: ドメイン適応における多言語知識獲得ダイナミクスの追跡--日英バイオメディカル適応を事例として
Authors: Xin Zhao, Naoki Yoshinaga, Yuma Tsuta, Akiko Aizawa,
Abstract要約: 多言語ドメイン適応(ML-DA)は、言語間の新しいドメイン知識を大規模言語モデル(LLM)に学習するために広く用いられている。本研究では,ML-DA における LLM の学習力学について検討する。 AdaXEvalは、トレーニングに使用される同じバイリンガルドメインコーパスから複数選択QAデータセットを構築する適応評価手法である。
参考スコア（独自算出の注目度）: 25.87847731982824
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multilingual domain adaptation (ML-DA) is widely used to learn new domain knowledge across languages into large language models (LLMs). Although many methods have been proposed to improve domain adaptation, the mechanisms of multilingual knowledge acquisition, how domain knowledge is learned within a language and transferred across languages, remain underexplored. This gap leads to suboptimal performance, particularly in low-resource settings. This work examines the learning dynamics of LLMs during ML-DA. Because prior ML-DA studies often train and evaluate on datasets with mismatched knowledge coverage, we propose AdaXEval, an adaptive evaluation method that builds multiple-choice QA datasets from the same bilingual domain corpus used for training, thereby directly studying multilingual knowledge acquisition. Through continual training of LLMs with diverse data recipes, we track how LLMs acquire domain facts and pinpoint the mechanism behind the transformation process from domain training data to knowledge. Our experiments on a 13B English-Japanese bilingual LLM reveal that cross-lingual transfer remains challenging despite a high-quality bilingual corpus. The code has been released.
Abstract（参考訳）: 多言語ドメイン適応(ML-DA)は、言語全体にわたる新しいドメイン知識を大規模言語モデル(LLM)に学習するために広く用いられている。ドメイン適応を改善するための多くの手法が提案されているが、多言語知識獲得のメカニズム、ドメイン知識が言語内でどのように学習され、言語間で伝達されるかは、未解明のままである。このギャップは、特に低リソース設定において、最適以下のパフォーマンスをもたらす。本研究では,ML-DA における LLM の学習力学について検討する。 ML-DA以前の研究は、しばしば、ミスマッチした知識カバレッジを持つデータセットをトレーニングし、評価するため、トレーニングに使用される同一のバイリンガルドメインコーパスから複数選択QAデータセットを構築する適応評価手法であるAdaXEvalを提案する。多様なデータレシピによるLLMの継続的なトレーニングを通じて、LLMがドメインの事実を取得する方法を追跡し、ドメインのトレーニングデータから知識への変換プロセスの背後にあるメカニズムを特定します。ハイクオリティなバイリンガルコーパスにもかかわらず,13Bの英語と日本語のバイリンガルLLMを用いた実験により,クロスリンガルトランスファーは依然として困難であることが判明した。コードがリリースされた。

論文の概要: Tracing Multilingual Knowledge Acquisition Dynamics in Domain Adaptation: A Case Study of English-Japanese Biomedical Adaptation

関連論文リスト