論文の概要: Analyzing and Adapting Large Language Models for Few-Shot Multilingual
NLU: Are We There Yet?
- arxiv url: http://arxiv.org/abs/2403.01929v1
- Date: Mon, 4 Mar 2024 10:48:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 19:07:58.159409
- Title: Analyzing and Adapting Large Language Models for Few-Shot Multilingual
NLU: Are We There Yet?
- Title(参考訳): Few-Shot Multilingual NLUのための大規模言語モデルの解析と適応:まだ存在するか?
- Authors: Evgeniia Razumovskaia, Ivan Vuli\'c, Anna Korhonen
- Abstract要約: 教師付きファインチューニング(SFT)、教師付きインストラクションチューニング(SIT)、インコンテキストラーニング(ICL)は、3つの代替であり、事実上の標準的アプローチである。
提案手法は,6つの高・低リソース言語,3つの異なるNLUタスク,多種多様な言語とドメインのセットアップを用いて,3つのアプローチを網羅的かつ体系的に比較する。
そこで本研究では,教師あり指導のチューニングが,性能とリソース要件の最良のトレードオフであることを示す。
- 参考スコア(独自算出の注目度): 82.02076369811402
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Supervised fine-tuning (SFT), supervised instruction tuning (SIT) and
in-context learning (ICL) are three alternative, de facto standard approaches
to few-shot learning. ICL has gained popularity recently with the advent of
LLMs due to its simplicity and sample efficiency. Prior research has conducted
only limited investigation into how these approaches work for multilingual
few-shot learning, and the focus so far has been mostly on their performance.
In this work, we present an extensive and systematic comparison of the three
approaches, testing them on 6 high- and low-resource languages, three different
NLU tasks, and a myriad of language and domain setups. Importantly, performance
is only one aspect of the comparison, where we also analyse the approaches
through the optics of their computational, inference and financial costs. Our
observations show that supervised instruction tuning has the best trade-off
between performance and resource requirements. As another contribution, we
analyse the impact of target language adaptation of pretrained LLMs and find
that the standard adaptation approaches can (superficially) improve target
language generation capabilities, but language understanding elicited through
ICL does not improve and remains limited, with low scores especially for
low-resource languages.
- Abstract(参考訳): supervised fine-tuning (sft)、supervised instruction tuning (sit)、in-context learning (icl) の3つの代替案である。
ICLは、その単純さとサンプル効率のため、最近LSMの登場で人気を博している。
これまでの研究は、これらのアプローチが多言語多点学習にどのように役立つかに関する限られた調査しか行っていない。
本研究では,これら3つの手法を大規模かつ体系的に比較し,高速かつ低リソースな6つの言語,3つの異なるNLUタスク,多数の言語とドメインのセットアップで検証する。
重要なのは、パフォーマンスが比較の側面の1つに過ぎず、計算、推論、財務コストの光学的アプローチも分析することです。
そこで本研究では,教師あり指導のチューニングが,性能とリソース要件の最良のトレードオフであることを示す。
別の貢献として、事前学習されたLLMのターゲット言語適応の影響を分析し、標準適応アプローチがターゲット言語生成能力を改善することができるが、ICLによって引き起こされた言語理解は改善せず、特に低リソース言語では低得点である。
関連論文リスト
- Improving In-Context Learning with Small Language Model Ensembles [2.3499129784547654]
In-context Learning (ICL) は安価で効率的な代替手段であるが、高度な手法の精度と一致しない。
本稿では,複数の微調整小言語モデル(SLM)の専門知識を活用することでICLを強化する新しいアプローチであるEnsemble SuperICLを提案する。
論文 参考訳(メタデータ) (2024-10-29T09:02:37Z) - Bridging the Language Gaps in Large Language Models with Inference-Time Cross-Lingual Intervention [71.12193680015622]
大規模言語モデル(LLM)は自然言語処理において顕著な能力を示している。
LLMは異なる言語間で大きな性能差を示す。
Inference-Time Cross-Lingual Intervention (INCLINE) を提案する。
論文 参考訳(メタデータ) (2024-10-16T11:23:03Z) - Exploring Design Choices for Building Language-Specific LLMs [36.32622880071991]
単言語モデルと多言語モデルを適用し,言語固有の言語モデルの構築について検討する。
LLMの初期性能は適応後の最終性能と必ずしも相関しないことがわかった。
論文 参考訳(メタデータ) (2024-06-20T18:47:43Z) - Bridging the Bosphorus: Advancing Turkish Large Language Models through Strategies for Low-Resource Language Adaptation and Benchmarking [1.3716808114696444]
大規模言語モデル(LLM)は様々な分野において重要になってきており、表現不足の言語における高品質なモデルの緊急性を強調している。
本研究では、データ不足、モデル選択、評価、計算制限など、低リソース言語が直面する固有の課題について検討する。
論文 参考訳(メタデータ) (2024-05-07T21:58:45Z) - Prefix Text as a Yarn: Eliciting Non-English Alignment in Foundation Language Model [50.339632513018934]
教師付き微調整(SFT)は、基礎大言語モデル(LLM)の出力を特定の嗜好に合わせるための単純なアプローチである。
我々はこの仮説を言語間タスクの範囲内で批判的に検証する。
タスク関連トークンを最小化するPreTTYという新しいトレーニングフリーアライメント手法を提案する。
論文 参考訳(メタデータ) (2024-04-25T17:19:36Z) - Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。
提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文 参考訳(メタデータ) (2024-04-11T04:22:15Z) - LLMs Are Few-Shot In-Context Low-Resource Language Learners [59.74451570590808]
In-context Learning (ICL) は、大規模言語モデル(LLM)に、表現不足の言語で多様なタスクを実行する権限を与える。
ICLとその言語間変動(X-ICL)を25の低リソース言語と7の比較的高リソース言語で検討した。
本研究は,LLMの低リソース理解品質向上における文脈内情報の重要性を論じる。
論文 参考訳(メタデータ) (2024-03-25T07:55:29Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Breaking Language Barriers with a LEAP: Learning Strategies for Polyglot
LLMs [5.682384717239095]
大規模言語モデル(LLM)は、世界中の多くのドメインを変換する最前線にある。
本稿では,LLMの多言語性能向上のための命令的課題に取り組む。
ポリグロットランドスケープにおけるLLMの真のポテンシャルを解き放つ新しい手法を提案する。
論文 参考訳(メタデータ) (2023-05-28T14:48:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。