論文の概要: Targeted Lexical Injection: Unlocking Latent Cross-Lingual Alignment in Lugha-Llama via Early-Layer LoRA Fine-Tuning
- arxiv url: http://arxiv.org/abs/2506.15415v1
- Date: Wed, 18 Jun 2025 12:35:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.661186
- Title: Targeted Lexical Injection: Unlocking Latent Cross-Lingual Alignment in Lugha-Llama via Early-Layer LoRA Fine-Tuning
- Title(参考訳): 標的語彙注入:Lugha-LlamaにおけるLugha-LlamaのLuga-LoRAファインチューニングによる潜在言語的アライメントの解錠
- Authors: Stanley Ngugi,
- Abstract要約: LLM(Large Language Models)は目覚ましい能力を示しているが、低リソース言語(LRL)のパフォーマンスは、データ不足と事前トレーニングの過小評価による遅延が多い。
本稿では,新規かつ効率的な微調整法であるTLIについて紹介する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have demonstrated remarkable capabilities, yet their performance in low-resource languages (LRLs), such as Swahili, often lags due to data scarcity and underrepresentation in pre-training. A key challenge is achieving robust cross-lingual lexical alignment, crucial for tasks like translation and cross-lingual information retrieval. This paper introduces Targeted Lexical Injection (TLI), a novel and efficient fine-tuning approach. We first demonstrate that Lugha-Llama-8B-wura, a Swahili-centric LLM, exhibits strong, near-perfect lexical alignment for Swahili-English word pairs in its early internal layers (specifically Layer 2, with ~0.99998 average cosine similarity based on a pilot study), a capability not fully reflected in its final output representations (baseline ~0.32 similarity on our evaluation set). TLI leverages this insight by using Low-Rank Adaptation (LoRA) and a contrastive learning objective to fine-tune the model, specifically targeting embeddings from this empirically identified optimal early layer. Our experiments show that TLI significantly improves the output-level lexical alignment for 623 trained Swahili-English word pairs, increasing average cosine similarity from 0.3211 to 0.4113 (+28.08%, p < 1.33 x 10^-240). More importantly, these improvements generalize remarkably well to 63 unseen control word pairs, with similarity increasing from 0.3143 to 0.4033 (+28.32%, p < 7.17 x 10^-27). These findings suggest TLI enhances the model's ability to preserve and propagate its inherent early-layer cross-lingual knowledge, offering a parameter-efficient and effective strategy for improving lexical alignment in LRL-focused LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は目覚ましい能力を示しているが、スワヒリのような低リソース言語(LRL)のパフォーマンスは、データ不足と事前トレーニングの過小評価による遅延が多い。
重要な課題は、翻訳や言語間情報検索といったタスクに不可欠な、堅牢な言語間語彙のアライメントを達成することだ。
本稿では,新規かつ効率的な微調整法であるTLIについて紹介する。
まず,Lugha-Llama-8B-wuraというLugha-Llama-8B-wuraは,Lugha-Llama-8B-wuraの単語対を内部層(特に,パイロットスタディに基づく平均コサイン類似度-0.99998)に強く,ほぼ完全な語彙アライメントを示し,最終的な出力表現(ベースライン~0.32類似度)に完全に反映されない能力を示した。
TLIは、ローランド適応(LoRA)と対照的な学習目標を用いて、モデルを微調整し、特にこの経験的に同定された最適な初期層からの埋め込みをターゲットとすることで、この洞察を活用する。
実験の結果,TLIは623の訓練されたスワヒリ語の単語対に対して,平均コサイン類似度を0.3211から0.4113(+28.08%,p < 1.33 x 10^-240)に向上させることがわかった。
さらに重要な点として、これらの改良は63の未確認語対に顕著に一般化され、類似性は 0.3143 から 0.4033 (+28.32%、p < 7.17 x 10^-27) に増加した。
これらの結果から, TLI は, LRL に着目した LLM における語彙アライメントを改善するためのパラメータ効率, 効果的な戦略として, モデル固有の初期層間言語知識の保存と伝播の能力を高めることが示唆された。
関連論文リスト
- Cross-Lingual Pitfalls: Automatic Probing Cross-Lingual Weakness of Multilingual Large Language Models [55.14276067678253]
本稿では,Large Language Models (LLMs) における言語間関係の弱点を効率的に同定するための新しい手法を提案する。
この手法を用いて16言語で6,000以上のバイリンガルペアからなる新しいデータセットを構築し、最先端のモデルにおいても弱点を明らかにする効果を実証した。
さらに,言語的類似性と言語間の弱点との関係について検討し,言語的関連言語が類似した演奏パターンを共有することを明らかにした。
論文 参考訳(メタデータ) (2025-05-24T12:31:27Z) - LAG-MMLU: Benchmarking Frontier LLM Understanding in Latvian and Giriama [4.533057394214656]
OpenAIのo1モデルは、英語で92.8%、ラトビアで88.8%、グリアマで70.8%、全言語で他より優れています。
我々の結果は、文化AIの文脈化を進める上で、局所的なベンチマークと人的評価の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-03-14T22:50:50Z) - SLAM: Towards Efficient Multilingual Reasoning via Selective Language Alignment [78.4550589538805]
本稿では,多言語性を扱うレイヤを正確に識別し,微調整する,効率的な多言語推論アライメント手法を提案する。
実験の結果, SLAM法は7Bおよび13BLLMのパラメータの6.5-8%を含む6層のフィードフォワードサブ層のみをチューニングできることがわかった。
論文 参考訳(メタデータ) (2025-01-07T10:29:43Z) - Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。
LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。
モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文 参考訳(メタデータ) (2024-12-19T18:08:04Z) - DAHRS: Divergence-Aware Hallucination-Remediated SRL Projection [0.7922558880545527]
多様性を意識した幻覚-SRLプロジェクション(DAHRS)
言語的にインフォームドされた修復アライメントを利用してDAHRSを実装した上で,greedy First-Come First-CFA (F) SRLプロジェクションを施行した。
XSRLよりも高い単語レベルF1を達成する:87.6%対77.3%(EN-FR)、89.0%対82.7%(EN-ES)
論文 参考訳(メタデータ) (2024-07-12T14:13:59Z) - Self-Augmented In-Context Learning for Unsupervised Word Translation [23.495503962839337]
大規模言語モデル (LLMs) は、強力な単語翻訳やバイリンガル語彙誘導(BLI)機能を示す。
教師なしBLIのための自己拡張型インコンテキスト学習(SAIL)を提案する。
提案手法は,2つの確立したBLIベンチマーク上でのLDMのゼロショットプロンプトよりも大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-02-15T15:43:05Z) - Using Natural Language Explanations to Improve Robustness of In-context Learning [35.18010811754959]
大規模言語モデル(LLM)は、文脈内学習(ICL)を通じて多くのタスクを抽出できる
自然言語説明法(NLE)によるICLの強化は,敵対的データセット上でのLLMの堅牢性を向上させるかを検討する。
論文 参考訳(メタデータ) (2023-11-13T18:49:13Z) - Extrapolating Large Language Models to Non-English by Aligning Languages [109.09051737966178]
既存の大きな言語モデルは、異なる言語間で異なる能力を示す。
本稿では,言語間のセマンティックアライメントを構築することで,英語以外の言語に事前学習したLLMを強化する。
論文 参考訳(メタデータ) (2023-08-09T13:32:06Z) - Improving Bilingual Lexicon Induction with Cross-Encoder Reranking [31.142790337451366]
BLICEr (BLI with Cross-Encoder Re rank) と呼ばれる新しい半教師付きポストホックリグレード法を提案する。
鍵となる考え方は、mPLMから言語間の語彙的知識を抽出し、元のCLWEと組み合わせることである。
BLICErは、多様な言語にまたがる2つの標準BLIベンチマークで、新しい結果を確立している。
論文 参考訳(メタデータ) (2022-10-30T21:26:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。