論文の概要: Instruct-Align: Teaching Novel Languages with to LLMs through
Alignment-based Cross-Lingual Instruction
- arxiv url: http://arxiv.org/abs/2305.13627v1
- Date: Tue, 23 May 2023 02:51:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 19:33:18.332910
- Title: Instruct-Align: Teaching Novel Languages with to LLMs through
Alignment-based Cross-Lingual Instruction
- Title(参考訳): instruct-align:アライメントに基づくクロスリンガル指導によるt-llmを用いた新しい言語教育
- Authors: Samuel Cahyawijaya, Holy Lovenia, Tiezheng Yu, Willy Chung, Pascale
Fung
- Abstract要約: Instruct-Align a.k.a (IA)$1$フレームワークを提案する。
BLOOMZ-560Mにおける予備的な結果から、(IA)$1$は、限られた並列データしか持たない新しい言語を効果的に学習できることが示されている。
- 参考スコア(独自算出の注目度): 45.06804606623207
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Instruction-tuned large language models (LLMs) have shown remarkable
generalization capability over multiple tasks in multiple languages.
Nevertheless, their generalization towards different languages varies
especially to underrepresented languages or even to unseen languages. Prior
works on adapting new languages to LLMs find that naively adapting new
languages to instruction-tuned LLMs will result in catastrophic forgetting,
which in turn causes the loss of multitasking ability in these LLMs. To tackle
this, we propose the Instruct-Align a.k.a (IA)$^1$ framework, which enables
instruction-tuned LLMs to learn cross-lingual alignment between unseen and
previously learned languages via alignment-based cross-lingual
instruction-tuning. Our preliminary result on BLOOMZ-560M shows that (IA)$^1$
is able to learn a new language effectively with only a limited amount of
parallel data and at the same time prevent catastrophic forgetting by applying
continual instruction-tuning through experience replay. Our work contributes to
the progression of language adaptation methods for instruction-tuned LLMs and
opens up the possibility of adapting underrepresented low-resource languages
into existing instruction-tuned LLMs. Our code will be publicly released upon
acceptance.
- Abstract(参考訳): 命令調整型大規模言語モデル(LLM)は、複数の言語で複数のタスクにまたがる顕著な一般化能力を示している。
しかし、それらの異なる言語への一般化は、特に表現不足の言語や、目に見えない言語まで様々である。
LLMに新しい言語を適応する以前の研究は、新しい言語を命令調整されたLLMに鼻で適応させることで、破滅的な忘れ込みが生じ、結果としてこれらのLLMのマルチタスク能力が失われることを発見した。
そこで本研究では,アライメントに基づくクロスリンガル・インストラクション・チューニングにより,未学習言語と未学習言語間の言語間アライメントを学習するインストラクション・アライメント a.k.a (ia)$^1$ フレームワークを提案する。
BLOOMZ-560Mにおける予備的な結果から, (IA)$^1$は, 限られた並列データしか持たず, 新しい言語を効果的に学習でき, 同時に, 連続的な指導調整を経験リプレイを通じて行うことにより, 破滅的な忘れを防止できることがわかった。
本研究は,命令調整型llmのための言語適応手法の進展に寄与し,既存の命令調整型llmに低表現型低リソース言語を適用する可能性を開く。
受け入れ次第、私たちのコードは公開されます。
関連論文リスト
- Think Carefully and Check Again! Meta-Generation Unlocking LLMs for Low-Resource Cross-Lingual Summarization [108.6908427615402]
CLS(Cross-lingual summarization)は、異なるターゲット言語でソーステキストの要約を生成することを目的としている。
現在、インストラクションチューニング付き大規模言語モデル (LLM) は様々な英語タスクで優れている。
近年の研究では、LCSタスクにおけるLCMの性能は、わずかな設定でも満足できないことが示されている。
論文 参考訳(メタデータ) (2024-10-26T00:39:44Z) - Getting More from Less: Large Language Models are Good Spontaneous Multilingual Learners [67.85635044939836]
大きな言語モデル(LLM)は印象的な言語機能を示している。
本研究では,LLMの自然多言語アライメント改善について検討する。
質問翻訳データ(すなわち注釈付き回答なし)に基づいて学習したLLMは、英語と幅広い言語との整合を促進できることがわかった。
論文 参考訳(メタデータ) (2024-05-22T16:46:19Z) - xCoT: Cross-lingual Instruction Tuning for Cross-lingual
Chain-of-Thought Reasoning [36.34986831526529]
CoT(Chain-of-Thought)は、大規模言語モデルにおける推論を誘発する強力なテクニックとして登場した。
本稿では,ハイソース言語から低リソース言語へ知識を伝達するための言語間命令微調整フレームワーク(xCOT)を提案する。
論文 参考訳(メタデータ) (2024-01-13T10:53:53Z) - PLUG: Leveraging Pivot Language in Cross-Lingual Instruction Tuning [46.153828074152436]
我々は、低リソース言語における命令チューニングを強化するために、ピボット言語ガイド生成手法を提案する。
モデルを訓練して、まずピボット言語で命令を処理し、次にターゲット言語で応答を生成する。
提案手法は,LLMの命令追従能力が平均29%向上したことを示す。
論文 参考訳(メタデータ) (2023-11-15T05:28:07Z) - Okapi: Instruction-tuned Large Language Models in Multiple Languages
with Reinforcement Learning from Human Feedback [61.83548032416181]
複数の言語を対象としたRLHFに基づく命令調整型LLMシステムであるOkapiを提案する。
オカピは26の多言語言語でインストラクションと応答ランクデータを導入し、将来の多言語LLM研究の促進と開発に役立てている。
論文 参考訳(メタデータ) (2023-07-29T18:01:46Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。