論文の概要: Semantic Pivots Enable Cross-Lingual Transfer in Large Language Models
- arxiv url: http://arxiv.org/abs/2505.16385v1
- Date: Thu, 22 May 2025 08:37:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.154124
- Title: Semantic Pivots Enable Cross-Lingual Transfer in Large Language Models
- Title(参考訳): 大規模言語モデルにおける言語間移動を可能にするセマンティック・ピボット
- Authors: Kaiyu He, Tong Zhou, Yubo Chen, Delai Qiu, Shengping Liu, Kang Liu, Jun Zhao,
- Abstract要約: 大規模言語モデル(LLM)の前方通過における2つの異なる挙動を識別し,識別する。
セマンティックピボットの比率が高い文書を用いて、セマンティックピボットを意識した事前学習データセットを再構築する。
本実験は,言語横断能力向上のためのアプローチの有効性を検証した。
- 参考スコア(独自算出の注目度): 20.7260490665021
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) demonstrate remarkable ability in cross-lingual tasks. Understanding how LLMs acquire this ability is crucial for their interpretability. To quantify the cross-lingual ability of LLMs accurately, we propose a Word-Level Cross-Lingual Translation Task. To find how LLMs learn cross-lingual ability, we trace the outputs of LLMs' intermediate layers in the word translation task. We identify and distinguish two distinct behaviors in the forward pass of LLMs: co-occurrence behavior and semantic pivot behavior. We attribute LLMs' two distinct behaviors to the co-occurrence frequency of words and find the semantic pivot from the pre-training dataset. Finally, to apply our findings to improve the cross-lingual ability of LLMs, we reconstruct a semantic pivot-aware pre-training dataset using documents with a high proportion of semantic pivots. Our experiments validate the effectiveness of our approach in enhancing cross-lingual ability. Our research contributes insights into the interpretability of LLMs and offers a method for improving LLMs' cross-lingual ability.
- Abstract(参考訳): 大規模言語モデル(LLM)は言語間タスクにおいて顕著な能力を示す。
LLMがこの能力をいかに獲得するかを理解することは、その解釈可能性にとって不可欠である。
LLMの言語横断能力を正確に評価するために,Word-Level Cross-Lingual Translation Taskを提案する。
LLMが言語間能力をどのように学習するかを知るために、単語翻訳タスクにおいて、LLMの中間層の出力をトレースする。
我々は,LLMの前方通過における2つの異なる挙動,すなわち共起挙動と意味的ピボット挙動を識別し,識別する。
我々は、LLMの2つの異なる振る舞いを単語の共起頻度とみなし、事前学習データセットからのセマンティックピボットを求める。
最後に,LLMの言語間能力向上に本研究の成果を適用し,意味的ピボットの比率が高い文書を用いて意味的ピボット対応事前学習データセットを再構築する。
本実験は,言語横断能力向上のためのアプローチの有効性を検証した。
本研究は,LLMの解釈可能性に関する知見を提供し,LLMの言語横断能力を向上させる方法を提供する。
関連論文リスト
- Understanding LLMs' Cross-Lingual Context Retrieval: How Good It Is And Where It Comes From [61.63091726904068]
12言語にわたる40以上の大言語モデル(LLM)の言語間コンテキスト検索能力を評価する。
いくつかの小さな訓練後のオープンLLMは、強い言語間コンテキスト検索能力を示している。
また, 大規模プレトレーニングでは, xMRCの性能が向上することが示唆された。
論文 参考訳(メタデータ) (2025-04-15T06:35:27Z) - CHAI for LLMs: Improving Code-Mixed Translation in Large Language Models through Reinforcement Learning with AI Feedback [11.223762031003671]
大規模言語モデル(LLM)は、様々なNLPタスクにまたがる顕著な機能を示しているが、コード混在(またはコード切替)言語理解に苦慮している。
本稿では,多言語LLMのコード混合言語処理能力を向上させるための新しいフレームワークであるCHAIを提案する。
解析の結果,CHAI を用いた LLM は,コード混在翻訳タスクにおいて,最先端のオープンソース LLM よりも25.66% 向上していることがわかった。
論文 参考訳(メタデータ) (2024-11-13T22:56:00Z) - Think Carefully and Check Again! Meta-Generation Unlocking LLMs for Low-Resource Cross-Lingual Summarization [108.6908427615402]
CLS(Cross-lingual summarization)は、異なるターゲット言語でソーステキストの要約を生成することを目的としている。
現在、インストラクションチューニング付き大規模言語モデル (LLM) は様々な英語タスクで優れている。
近年の研究では、LCSタスクにおけるLCMの性能は、わずかな設定でも満足できないことが示されている。
論文 参考訳(メタデータ) (2024-10-26T00:39:44Z) - Evaluating Linguistic Capabilities of Multimodal LLMs in the Lens of Few-Shot Learning [15.919493497867567]
本研究では,VALSEベンチマークを用いたマルチモーダル大規模言語モデル(MLLM)の性能評価を目的とした。
我々は,モデルサイズや事前学習データセットの異なる最先端MLLMの包括的評価を行った。
論文 参考訳(メタデータ) (2024-07-17T11:26:47Z) - Getting More from Less: Large Language Models are Good Spontaneous Multilingual Learners [67.85635044939836]
大きな言語モデル(LLM)は印象的な言語機能を示している。
本研究では,LLMの自然多言語アライメント改善について検討する。
質問翻訳データ(すなわち注釈付き回答なし)に基づいて学習したLLMは、英語と幅広い言語との整合を促進できることがわかった。
論文 参考訳(メタデータ) (2024-05-22T16:46:19Z) - Knowledgeable Agents by Offline Reinforcement Learning from Large Language Model Rollouts [10.929547354171723]
本稿では,言語モデルロールアウト(KALM)の知識エージェントを紹介する。
大規模言語モデル(LLM)から、オフラインの強化学習手法によってエージェントが容易に学習できる想像上のロールアウトの形で知識を抽出する。
未確認の目標を持つタスクの実行において46%の成功率を達成し、ベースラインメソッドによって達成された26%の成功率を大幅に上回る。
論文 参考訳(メタデータ) (2024-04-14T13:19:40Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。