論文の概要: LangGPS: Language Separability Guided Data Pre-Selection for Joint Multilingual Instruction Tuning
- arxiv url: http://arxiv.org/abs/2511.10229v1
- Date: Fri, 14 Nov 2025 01:40:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.757406
- Title: LangGPS: Language Separability Guided Data Pre-Selection for Joint Multilingual Instruction Tuning
- Title(参考訳): LangGPS: 共用多言語インストラクションチューニングのための言語分離性ガイド付きデータ事前選択
- Authors: Yangfan Ye, Xiaocheng Feng, Xiachong Feng, Lei Huang, Weitao Ma, Qichen Hong, Yunfei Lu, Duyu Tang, Dandan Tu, Bing Qin,
- Abstract要約: 大規模言語モデル(LLM)の多言語命令追従能力と下流性能を改善するための多言語命令チューニングは広く採用されている手法である。
既存の選択法は、しばしばテキストの品質、多様性、タスク関連性といった特徴に基づいており、典型的には多言語データの固有の言語構造を見落としている。
言語分離性によって導かれる軽量な2段階事前選択フレームワークであるLangGPSを提案する。
- 参考スコア(独自算出の注目度): 49.22807995935406
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Joint multilingual instruction tuning is a widely adopted approach to improve the multilingual instruction-following ability and downstream performance of large language models (LLMs), but the resulting multilingual capability remains highly sensitive to the composition and selection of the training data. Existing selection methods, often based on features like text quality, diversity, or task relevance, typically overlook the intrinsic linguistic structure of multilingual data. In this paper, we propose LangGPS, a lightweight two-stage pre-selection framework guided by language separability which quantifies how well samples in different languages can be distinguished in the model's representation space. LangGPS first filters training data based on separability scores and then refines the subset using existing selection methods. Extensive experiments across six benchmarks and 22 languages demonstrate that applying LangGPS on top of existing selection methods improves their effectiveness and generalizability in multilingual training, especially for understanding tasks and low-resource languages. Further analysis reveals that highly separable samples facilitate the formation of clearer language boundaries and support faster adaptation, while low-separability samples tend to function as bridges for cross-lingual alignment. Besides, we also find that language separability can serve as an effective signal for multilingual curriculum learning, where interleaving samples with diverse separability levels yields stable and generalizable gains. Together, we hope our work offers a new perspective on data utility in multilingual contexts and support the development of more linguistically informed LLMs.
- Abstract(参考訳): 共用多言語命令チューニングは大規模言語モデル(LLM)の多言語命令追従能力と下流性能を改善するために広く採用されている手法であるが、結果として得られる多言語能力は、トレーニングデータの構成と選択に非常に敏感なままである。
既存の選択法は、しばしばテキストの品質、多様性、タスク関連性といった特徴に基づいており、典型的には多言語データの固有の言語構造を見落としている。
本稿では,言語分離性によって導かれる軽量な2段階事前選択フレームワークであるLangGPSを提案する。
LangGPSはまず、分離可能性スコアに基づいてトレーニングデータをフィルタリングし、その後、既存の選択方法を使用してサブセットを洗練する。
6つのベンチマークと22言語にわたる大規模な実験により、既存の選択手法にLangGPSを適用することで、多言語学習における、特にタスクや低リソース言語を理解するための効率と一般化性が向上することが示された。
さらに分析したところ、高度に分離可能なサンプルは、より明確な言語境界の形成を促進し、より高速な適応をサポートする一方で、低分離性サンプルは、言語間アライメントのためのブリッジとして機能する傾向にあることがわかった。
さらに,言語分離性は多言語カリキュラム学習に有効な信号として機能し,多様な分離性レベルのサンプルをインターリービングすることで,安定かつ一般化可能なゲインが得られることも見出した。
共に、我々の研究が多言語文脈におけるデータユーティリティの新しい視点を提供し、より言語的に理解されたLLMの開発を支援することを願っている。
関連論文リスト
- CM-Align: Consistency-based Multilingual Alignment for Large Language Models [84.19366314925593]
高品質な多言語嗜好データを構築するための一貫性に基づくデータ手法を提案する。
具体的には、一貫性のある英語参照選択と、言語間一貫性に基づく多言語嗜好データ構築の2つの部分を含む。
論文 参考訳(メタデータ) (2025-09-10T12:40:49Z) - Zero-shot Cross-lingual Transfer Learning with Multiple Source and Target Languages for Information Extraction: Language Selection and Adversarial Training [38.19963761398705]
本稿では,近年のIEコーパスにおける多言語多言語変換可能性(多言語間移動学習)に関する詳細な解析を行う。
まず、単一言語のパフォーマンスと幅広い言語に基づく距離の相関について検討する。
次に,複数の言語が学習・評価プロセスに関与している,より一般的なゼロショット多言語転送設定について検討する。
論文 参考訳(メタデータ) (2024-11-13T17:13:25Z) - Investigating Multilingual Instruction-Tuning: Do Polyglot Models Demand for Multilingual Instructions? [42.37657013017192]
単言語コーパスの代わりに並列で命令チューニングを行うことで、最大9.9%の言語間命令に従うことができることを示す。
また,多言語チャットシナリオにおけるヒューマンベースとGPT-4に基づく評価の整合性を理解するために,人間のアノテーション研究を行う。
論文 参考訳(メタデータ) (2024-02-21T11:07:07Z) - Improving In-context Learning of Multilingual Generative Language Models with Cross-lingual Alignment [42.624862172666624]
本稿では,一対の翻訳文を利用する単純な言語間アライメントフレームワークを提案する。
多言語コントラスト学習を通じて、異なる言語にまたがる内部文表現を整合させる。
実験結果から,事前学習トークンが0.1文未満であっても,アライメントフレームワークは生成言語モデルの言語間相互性を大幅に向上させることが明らかとなった。
論文 参考訳(メタデータ) (2023-11-14T11:24:08Z) - GradSim: Gradient-Based Language Grouping for Effective Multilingual
Training [13.730907708289331]
勾配類似度に基づく言語グループ化手法GradSimを提案する。
3つの多言語ベンチマークデータセットに対する実験により、最大のパフォーマンス向上につながることが示された。
言語的特徴の他に、データセットのトピックは言語グループ化において重要な役割を果たす。
論文 参考訳(メタデータ) (2023-10-23T18:13:37Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Are Multilingual Models Effective in Code-Switching? [57.78477547424949]
多言語モデルの有効性を検討し,複合言語設定の能力と適応性について検討する。
この結果から,事前学習した多言語モデルでは,コードスイッチングにおける高品質な表現が必ずしも保証されないことが示唆された。
論文 参考訳(メタデータ) (2021-03-24T16:20:02Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。