論文の概要: Beyond the Rosetta Stone: Unification Forces in Generalization Dynamics
- arxiv url: http://arxiv.org/abs/2508.11017v1
- Date: Thu, 14 Aug 2025 18:44:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:23.645362
- Title: Beyond the Rosetta Stone: Unification Forces in Generalization Dynamics
- Title(参考訳): ロゼッタ石の向こう:一般化ダイナミクスの統一力
- Authors: Carter Blum, Katja Filipova, Ann Yuan, Asma Ghandeharioun, Julian Zimmert, Fred Zhang, Jessica Hoffmann, Tal Linzen, Martin Wattenberg, Lucas Dixon, Mor Geva,
- Abstract要約: 大規模言語モデル(LLM)は言語間知識伝達に苦慮している。
我々は,この現象の原因とダイナミクスを,合成多言語データセット上でスクラッチから小さなトランスフォーマーモデルを訓練することによって研究する。
- 参考スコア(独自算出の注目度): 44.74554715827507
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) struggle with cross-lingual knowledge transfer: they hallucinate when asked in one language about facts expressed in a different language during training. This work introduces a controlled setting to study the causes and dynamics of this phenomenon by training small Transformer models from scratch on synthetic multilingual datasets. We identify a learning phase wherein a model develops either separate or unified representations of the same facts across languages, and show that unification is essential for cross-lingual transfer. We also show that the degree of unification depends on mutual information between facts and training data language, and on how easy it is to extract that language. Based on these insights, we develop methods to modulate the level of cross-lingual transfer by manipulating data distribution and tokenization, and we introduce metrics and visualizations to formally characterize their effects on unification. Our work shows how controlled settings can shed light on pre-training dynamics and suggests new directions for improving cross-lingual transfer in LLMs.
- Abstract(参考訳): 大きな言語モデル(LLM)は言語間の知識伝達に苦しむ:訓練中に異なる言語で表現された事実についてある言語で尋ねると幻覚する。
この研究は、合成多言語データセット上で小さなトランスフォーマーモデルをスクラッチからトレーニングすることで、この現象の原因とダイナミクスを研究するための制御された設定を導入する。
モデルが言語間で同じ事実の分離あるいは統一された表現を発達させる学習フェーズを特定し、言語間移動には統一が不可欠であることを示す。
また、統合の度合いは、事実と訓練データ言語間の相互情報と、その言語の抽出がいかに容易かに依存することを示した。
これらの知見に基づいて,データ分散とトークン化を操作することで,言語間移動のレベルを調節する手法を開発し,これらの指標と視覚化を導入して,統一におけるそれらの効果を形式的に特徴づける。
我々の研究は、制御された設定が事前学習の力学にどのように光を当てるかを示し、LLMにおける言語間移動を改善するための新しい方向を提案する。
関連論文リスト
- Continual Learning Under Language Shift [6.0783165755651325]
新しいデータが新しい言語から来るとき、言語モデルを更新する長所と短所について検討する。
本研究では,事前学習の順序や言語の特徴に,前向きおよび後向きの伝達効果がどのように依存するかを検討する。
論文 参考訳(メタデータ) (2023-11-02T12:54:50Z) - How do languages influence each other? Studying cross-lingual data sharing during LM fine-tuning [14.02101305717738]
多言語大言語モデル(MLLM)は、多くの異なる言語からのデータに基づいて共同で訓練される。
言語がどの程度、どの条件下で、互いのデータに依存しているかは、まだ不明である。
MLLMは、細調整の初期段階から複数の言語からのデータに依存しており、細調整の進行に伴って、この依存度が徐々に増加することが判明した。
論文 参考訳(メタデータ) (2023-05-22T17:47:41Z) - Languages You Know Influence Those You Learn: Impact of Language
Characteristics on Multi-Lingual Text-to-Text Transfer [4.554080966463776]
マルチ言語モデル (LM) は低リソース言語での自然言語処理の実現に成功している。
このようなモデル、特にmT5は、言語間の言語的および意味的な知識をどう転送するかをよりよく理解しようとしています。
この研究の鍵となる発見は、構文、形態学、音韻学の類似性が言語間移動のよい予測因子であることである。
論文 参考訳(メタデータ) (2022-12-04T07:22:21Z) - Cross-lingual Lifelong Learning [53.06904052325966]
本稿では,言語間連続学習(CCL)の評価パラダイムを提案する。
マルチリンガルなシーケンシャルな学習を特に難しいものにするための洞察を提供する。
この分析の意味は、異なる言語間連続学習のデシダータを測り、バランスをとる方法のレシピを含む。
論文 参考訳(メタデータ) (2022-05-23T09:25:43Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Cross-lingual Transfer of Monolingual Models [2.332247755275824]
本稿では,ドメイン適応に基づくモノリンガルモデルの言語間移動手法を提案する。
我々は、4つの異なる言語から英語へのそのような移動の効果について研究する。
論文 参考訳(メタデータ) (2021-09-15T15:00:53Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z) - Cross-lingual Spoken Language Understanding with Regularized
Representation Alignment [71.53159402053392]
外部リソースを使わずに言語間で単語レベルの表現と文レベルの表現を整列する正規化手法を提案する。
言語間言語理解タスクの実験により、我々のモデルは、数ショットとゼロショットの両方のシナリオにおいて、最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-09-30T08:56:53Z) - InfoXLM: An Information-Theoretic Framework for Cross-Lingual Language
Model Pre-Training [135.12061144759517]
本稿では,言語間言語モデルの事前学習を定式化する情報理論フレームワークを提案する。
コントラスト学習に基づく新しい事前学習課題を提案する。
単言語コーパスと並列コーパスの両方を活用することで、事前訓練されたモデルの言語間変換性を向上させるために、プレテキストを共同で訓練する。
論文 参考訳(メタデータ) (2020-07-15T16:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。