論文の概要: LiRA: Linguistic Robust Anchoring for Cross-lingual Large Language Models
- arxiv url: http://arxiv.org/abs/2510.14466v1
- Date: Thu, 16 Oct 2025 09:08:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.794892
- Title: LiRA: Linguistic Robust Anchoring for Cross-lingual Large Language Models
- Title(参考訳): LiRA: 言語間大言語モデルのための言語ロバストアンカリング
- Authors: Haolin Li, Haipeng Zhang, Mang Li, Yaohua Wang, Lijie Wen, Yu Zhang, Biqing Huang,
- Abstract要約: LiRA(Linguistic Robust Anchoring for Large Language Models)は、低リソース条件下での言語間表現を改善するトレーニングフレームワークである。
東南アジア5言語と東南アジア2言語を対象とした多言語製品検索データセットを作成した。
- 参考スコア(独自算出の注目度): 16.504397960476584
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: As large language models (LLMs) rapidly advance, performance on high-resource languages (e.g., English, Chinese) is nearing saturation, yet remains substantially lower for low-resource languages (e.g., Urdu, Thai) due to limited training data, machine-translation noise, and unstable cross-lingual alignment. We introduce LiRA (Linguistic Robust Anchoring for Large Language Models), a training framework that robustly improves cross-lingual representations under low-resource conditions while jointly strengthening retrieval and reasoning. LiRA comprises two modules: (i) Arca (Anchored Representation Composition Architecture), which anchors low-resource languages to an English semantic space via anchor-based alignment and multi-agent collaborative encoding, preserving geometric stability in a shared embedding space; and (ii) LaSR (Language-coupled Semantic Reasoner), which adds a language-aware lightweight reasoning head with consistency regularization on top of Arca's multilingual representations, unifying the training objective to enhance cross-lingual understanding, retrieval, and reasoning robustness. We further construct and release a multilingual product retrieval dataset covering five Southeast Asian and two South Asian languages. Experiments across low-resource benchmarks (cross-lingual retrieval, semantic similarity, and reasoning) show consistent gains and robustness under few-shot and noise-amplified settings; ablations validate the contribution of both Arca and LaSR. Code will be released on GitHub and the dataset on Hugging Face.
- Abstract(参考訳): 大規模言語モデル(LLMs)が急速に進歩するにつれて、低リソース言語(例えば、英語、中国語)のパフォーマンスは飽和状態に近づきつつあるが、限られたトレーニングデータ、機械翻訳ノイズ、不安定な言語間アライメントのため、低リソース言語(例えば、ウルドゥー語、タイ語)では著しく低下している。
LRA(Linguistic Robust Anchoring for Large Language Models)は、低リソース条件下での言語間表現を堅牢に改善し、検索と推論を共同で強化する学習フレームワークである。
LiRAは2つのモジュールから構成される。
一 アンカーベースアライメント及びマルチエージェント協調符号化により低リソース言語を英語意味空間に固定し、共有埋め込み空間における幾何学的安定性を維持するアルカ
(II)LaSR(Language-coupled Semantic Reasoner)は、Arcaの多言語表現の上に整合性正規化を備えた言語対応軽量推論ヘッドを追加し、学習目標を統一し、言語間理解、検索、ロバスト性の向上を図る。
さらに,東南アジア5言語と東南アジア2言語を対象とした多言語製品検索データセットを構築し,公開する。
低リソースのベンチマーク(言語間の検索、セマンティックな類似性、推論)に対する実験では、少数のショットとノイズ増幅設定で一貫した利得とロバスト性を示し、AblationsはArcaとLaSRの双方の貢献を検証する。
コードはGitHubで、データセットはHugging Faceでリリースされる。
関連論文リスト
- LinguaLIFT: An Effective Two-stage Instruction Tuning Framework for Low-Resource Language Reasoning [28.288949710191158]
大規模言語モデル(LLM)は、多言語事前学習コーパスと命令微調整データによって駆動される、印象的な多言語推論能力を示す。
事前学習コーパスにおける言語不均衡に起因する高リソース言語推論タスクと低リソース言語推論タスクの間には,パフォーマンスギャップが存在する。
LinguaLIFTは低リソース言語推論を進めるための2段階の命令チューニングフレームワークである。
論文 参考訳(メタデータ) (2024-12-17T03:03:17Z) - Lens: Rethinking Multilingual Enhancement for Large Language Models [70.85065197789639]
大規模言語モデル(LLM)における多言語機能向上のための新しいアプローチであるLensを提案する。
Lensは2つの部分空間で機能する: 言語に依存しない部分空間で、ターゲット言語と中心言語を一致させて強力な意味表現を継承する部分空間、言語固有の部分空間で、ターゲット言語と中心言語を分離して言語的特異性を保存する部分空間である。
レンズは、モデルの英語能力を維持しながら、多言語のパフォーマンスを著しく向上させ、既存の訓練後のアプローチと比べて計算コストの低い結果を得る。
論文 参考訳(メタデータ) (2024-10-06T08:51:30Z) - Zero-shot Sentiment Analysis in Low-Resource Languages Using a
Multilingual Sentiment Lexicon [78.12363425794214]
私たちは、34の言語にまたがるゼロショットの感情分析タスクに重点を置いています。
文レベルの感情データを使用しない多言語語彙を用いた事前学習は、英語の感情データセットに微調整されたモデルと比較して、ゼロショット性能が優れていることを示す。
論文 参考訳(メタデータ) (2024-02-03T10:41:05Z) - xCoT: Cross-lingual Instruction Tuning for Cross-lingual
Chain-of-Thought Reasoning [36.34986831526529]
CoT(Chain-of-Thought)は、大規模言語モデルにおける推論を誘発する強力なテクニックとして登場した。
本稿では,ハイソース言語から低リソース言語へ知識を伝達するための言語間命令微調整フレームワーク(xCOT)を提案する。
論文 参考訳(メタデータ) (2024-01-13T10:53:53Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Isomorphic Cross-lingual Embeddings for Low-Resource Languages [1.5076964620370268]
CLWE(Cross-Lingual Word Embeddings)は、高リソース設定から学習した言語情報を低リソースに転送するための重要なコンポーネントである。
我々は、関連の高い高リソース言語を共同で活用することで、低リソース対に対して、アイソメトリを仮定せずにCLWEを学習するフレームワークを導入する。
両言語レキシコン誘導(BLI)と固有値類似度(Eigenvalue similarity)によって測定された同型性の品質と程度において,現在の手法よりも一貫した利得を示す。
論文 参考訳(メタデータ) (2022-03-28T10:39:07Z) - Meta-X$_{NLG}$: A Meta-Learning Approach Based on Language Clustering
for Zero-Shot Cross-Lingual Transfer and Generation [11.155430893354769]
本稿では,類型的に多様な言語から共有可能な構造を学習するためのメタラーニングフレームワークを提案する。
まず、まず言語表現に基づいて言語をクラスタ化し、各クラスタのセントロイド言語を識別する。
メタ学習アルゴリズムは、全てのセントロイド言語で訓練され、ゼロショット設定で他の言語で評価される。
論文 参考訳(メタデータ) (2022-03-19T05:22:07Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。