論文の概要: Linguistically-Informed Multilingual Instruction Tuning: Is There an Optimal Set of Languages to Tune?
- arxiv url: http://arxiv.org/abs/2410.07809v1
- Date: Thu, 10 Oct 2024 10:57:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 14:46:14.541582
- Title: Linguistically-Informed Multilingual Instruction Tuning: Is There an Optimal Set of Languages to Tune?
- Title(参考訳): 言語学的にインフォームドされた多言語インストラクションチューニング: チューンに最適な言語セットはあるか?
- Authors: Gürkan Soykan, Gözde Gül Şahin,
- Abstract要約: 本研究では,言語情報を用いた指導指導のための言語選択手法を提案する。
簡単なアルゴリズムを用いて、多様な言語を選択し、様々なベンチマークやオープンエンドの質問でそれらの有効性をテストする。
その結果、この慎重な選択は、言語をランダムに選択するよりも、より優れた結果をもたらすことがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multilingual language models often perform unevenly across different languages due to limited generalization capabilities for some languages. This issue is significant because of the growing interest in making universal language models that work well for all languages. Instruction tuning with multilingual instruction-response pairs has been used to improve model performance across various languages. However, this approach is challenged by high computational costs, a lack of quality tuning data for all languages, and the "curse of multilinguality" -- the performance drop per language after adding many languages. Recent studies have found that working with datasets with few languages and a smaller number of instances can be beneficial. Yet, there exists no systematic investigation into how choosing different languages affects multilingual instruction tuning. Our study proposes a method to select languages for instruction tuning in a linguistically informed way, aiming to boost model performance across languages and tasks. We use a simple algorithm to choose diverse languages and test their effectiveness on various benchmarks and open-ended questions. Our results show that this careful selection generally leads to better outcomes than choosing languages at random. We suggest a new and simple way of enhancing multilingual models by selecting diverse languages based on linguistic features that could help develop better multilingual systems and guide dataset creation efforts. All resources, including the code for language selection and multilingual instruction tuning, are made available in our official repository at https://github.com/GGLAB-KU/ling-informed-mit enabling reproducibility and further research in this area.
- Abstract(参考訳): 多言語言語モデルは、いくつかの言語に対する限定的な一般化能力のため、様々な言語で不均一に機能することが多い。
この問題は、すべての言語でうまく機能するユニバーサル言語モデルを作ることへの関心が高まっているため、重要である。
多言語命令応答対を用いたインストラクションチューニングは、様々な言語でのモデル性能向上に利用されてきた。
しかし、このアプローチは高い計算コスト、全ての言語に対する品質チューニングデータの欠如、そして多くの言語を追加して言語ごとのパフォーマンスが低下する「多言語化のカウンセリング」によって挑戦されている。
最近の研究によると、少数の言語と少数のインスタンスでデータセットを扱うことは有益である。
しかし、異なる言語を選択することが多言語命令のチューニングにどのように影響するかについては、体系的な研究は存在しない。
そこで本研究では,言語やタスク間のモデル性能向上を目的として,言語的に情報提供された指導用言語を選択する手法を提案する。
簡単なアルゴリズムを用いて、多様な言語を選択し、様々なベンチマークやオープンエンドの質問でそれらの有効性をテストする。
その結果、この慎重な選択は、言語をランダムに選択するよりも、より優れた結果をもたらすことがわかった。
より優れた多言語システムの構築とデータセット作成の指針となる言語的特徴に基づいて多様な言語を選択することで、多言語モデルを強化する新しいシンプルな方法を提案する。
言語選択と多言語命令チューニングのコードを含むすべてのリソースは、この領域の再現性とさらなる研究を可能にする、https://github.com/GGLAB-KU/ling-informed-mitのオフィシャルリポジトリで利用可能である。
関連論文リスト
- LlamaTurk: Adapting Open-Source Generative Large Language Models for Low-Resource Language [2.9914612342004503]
本研究は、主に英語で訓練された大規模な言語モデルを低リソース言語に適応させることにより、代替的な解決策を探求する。
継続訓練,命令細調整,タスク特化細調整,語彙拡張など,さまざまな戦略を評価する。
その結果、継続学習は、難易度スコアに反映されるような言語理解を向上し、タスク固有のチューニングは、一般的に下流タスクのパフォーマンスを向上することを示した。
論文 参考訳(メタデータ) (2024-05-13T13:41:59Z) - The Role of Language Imbalance in Cross-lingual Generalisation: Insights from Cloned Language Experiments [57.273662221547056]
本研究では,言語間一般化の非直感的な新規ドライバである言語不均衡について検討する。
学習中に支配的な言語が存在することが、あまり頻度の低い言語の性能を高めることを観察する。
分析を実言語に拡張するにつれ、頻繁な言語は依然として恩恵を受けていますが、言語不均衡が言語間の一般化を引き起こすかどうかは決定的ではありません。
論文 参考訳(メタデータ) (2024-04-11T17:58:05Z) - xCoT: Cross-lingual Instruction Tuning for Cross-lingual
Chain-of-Thought Reasoning [36.34986831526529]
CoT(Chain-of-Thought)は、大規模言語モデルにおける推論を誘発する強力なテクニックとして登場した。
本稿では,ハイソース言語から低リソース言語へ知識を伝達するための言語間命令微調整フレームワーク(xCOT)を提案する。
論文 参考訳(メタデータ) (2024-01-13T10:53:53Z) - Multilingual Instruction Tuning With Just a Pinch of Multilinguality [31.360147312195068]
多くの言語が単言語チューニングから命令追従機能を他の言語に移行していることを示す。
多言語混合に調整されたモデルは、複数の言語で同等または優れた性能を示す。
2-4言語でも命令チューニングセットの多様化は、言語間の一般化を著しく改善する。
論文 参考訳(メタデータ) (2024-01-03T17:48:10Z) - The Less the Merrier? Investigating Language Representation in
Multilingual Models [8.632506864465501]
多言語モデルにおける言語表現について検討する。
我々は、コミュニティ中心のモデルが、低リソース言語で同じ家系の言語を区別する上で、より良い性能を発揮することを実験から観察した。
論文 参考訳(メタデータ) (2023-10-20T02:26:34Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - Are Multilingual Models Effective in Code-Switching? [57.78477547424949]
多言語モデルの有効性を検討し,複合言語設定の能力と適応性について検討する。
この結果から,事前学習した多言語モデルでは,コードスイッチングにおける高品質な表現が必ずしも保証されないことが示唆された。
論文 参考訳(メタデータ) (2021-03-24T16:20:02Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z) - Language-agnostic Multilingual Modeling [23.06484126933893]
我々は,言語に依存しない多言語ASRシステムを構築し,多対一のトランスデューサを用いて,すべての言語を1つの書き起こしシステムに変換する。
我々は,ヒンディー語,ベンガル語,タミル語,カナダ語の4つの言語を用いて,言語に依存しない多言語モデルを用いて,単語誤り率(WER)を最大10%削減できることを示す。
論文 参考訳(メタデータ) (2020-04-20T18:57:43Z) - Learning to Scale Multilingual Representations for Vision-Language Tasks [51.27839182889422]
SMALRの有効性は、これまでビジョン言語タスクでサポートされた2倍以上の10の多言語で実証されている。
単語の埋め込み手法と比較して,訓練パラメータの1/5以下で,複数言語による画像文検索と先行作業の3~4%の性能評価を行った。
論文 参考訳(メタデータ) (2020-04-09T01:03:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。