論文の概要: Analyzing and Adapting Large Language Models for Few-Shot Multilingual
NLU: Are We There Yet?
- arxiv url: http://arxiv.org/abs/2403.01929v1
- Date: Mon, 4 Mar 2024 10:48:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 19:07:58.159409
- Title: Analyzing and Adapting Large Language Models for Few-Shot Multilingual
NLU: Are We There Yet?
- Title(参考訳): Few-Shot Multilingual NLUのための大規模言語モデルの解析と適応:まだ存在するか?
- Authors: Evgeniia Razumovskaia, Ivan Vuli\'c, Anna Korhonen
- Abstract要約: 教師付きファインチューニング(SFT)、教師付きインストラクションチューニング(SIT)、インコンテキストラーニング(ICL)は、3つの代替であり、事実上の標準的アプローチである。
提案手法は,6つの高・低リソース言語,3つの異なるNLUタスク,多種多様な言語とドメインのセットアップを用いて,3つのアプローチを網羅的かつ体系的に比較する。
そこで本研究では,教師あり指導のチューニングが,性能とリソース要件の最良のトレードオフであることを示す。
- 参考スコア(独自算出の注目度): 82.02076369811402
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Supervised fine-tuning (SFT), supervised instruction tuning (SIT) and
in-context learning (ICL) are three alternative, de facto standard approaches
to few-shot learning. ICL has gained popularity recently with the advent of
LLMs due to its simplicity and sample efficiency. Prior research has conducted
only limited investigation into how these approaches work for multilingual
few-shot learning, and the focus so far has been mostly on their performance.
In this work, we present an extensive and systematic comparison of the three
approaches, testing them on 6 high- and low-resource languages, three different
NLU tasks, and a myriad of language and domain setups. Importantly, performance
is only one aspect of the comparison, where we also analyse the approaches
through the optics of their computational, inference and financial costs. Our
observations show that supervised instruction tuning has the best trade-off
between performance and resource requirements. As another contribution, we
analyse the impact of target language adaptation of pretrained LLMs and find
that the standard adaptation approaches can (superficially) improve target
language generation capabilities, but language understanding elicited through
ICL does not improve and remains limited, with low scores especially for
low-resource languages.
- Abstract(参考訳): supervised fine-tuning (sft)、supervised instruction tuning (sit)、in-context learning (icl) の3つの代替案である。
ICLは、その単純さとサンプル効率のため、最近LSMの登場で人気を博している。
これまでの研究は、これらのアプローチが多言語多点学習にどのように役立つかに関する限られた調査しか行っていない。
本研究では,これら3つの手法を大規模かつ体系的に比較し,高速かつ低リソースな6つの言語,3つの異なるNLUタスク,多数の言語とドメインのセットアップで検証する。
重要なのは、パフォーマンスが比較の側面の1つに過ぎず、計算、推論、財務コストの光学的アプローチも分析することです。
そこで本研究では,教師あり指導のチューニングが,性能とリソース要件の最良のトレードオフであることを示す。
別の貢献として、事前学習されたLLMのターゲット言語適応の影響を分析し、標準適応アプローチがターゲット言語生成能力を改善することができるが、ICLによって引き起こされた言語理解は改善せず、特に低リソース言語では低得点である。
関連論文リスト
- FAC$^2$E: Better Understanding Large Language Model Capabilities by
Dissociating Language and Cognition [57.747888532651]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Self-Augmented In-Context Learning for Unsupervised Word Translation [81.6546357879259]
大規模言語モデル (LLMs) は、強力な単語翻訳やバイリンガル語彙誘導(BLI)機能を示す。
教師なしBLIのための自己拡張型インコンテキスト学習(SAIL)を提案する。
提案手法は,2つの確立したBLIベンチマーク上でのLDMのゼロショットプロンプトよりも大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-02-15T15:43:05Z) - Zero-Shot Cross-Lingual Reranking with Large Language Models for
Low-Resource Languages [51.301942056881146]
アフリカ語における言語間情報検索システムにおいて,大規模言語モデル (LLM) がリランカーとしてどのように機能するかを検討する。
私たちの実装は、英語と4つのアフリカの言語(ハウサ語、ソマリ語、スワヒリ語、ヨルバ語)を対象としています。
我々は、英語のクェリとアフリカの言葉の文節による言語横断的な格付けについて検討する。
論文 参考訳(メタデータ) (2023-12-26T18:38:54Z) - Supervised Knowledge Makes Large Language Models Better In-context
Learners [97.71733265438044]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Are Large Language Models Good Fact Checkers: A Preliminary Study [26.023148371263012]
大規模言語モデル(LLM)は、その卓越した推論能力と広範な知識リポジトリによって、大きな注目を集めている。
本研究の目的は,特定のファクトチェックサブタスクに対処する上で,様々なLSMを包括的に評価することである。
論文 参考訳(メタデータ) (2023-11-29T05:04:52Z) - PLUG: Leveraging Pivot Language in Cross-Lingual Instruction Tuning [46.153828074152436]
我々は、低リソース言語における命令チューニングを強化するために、ピボット言語ガイド生成手法を提案する。
モデルを訓練して、まずピボット言語で命令を処理し、次にターゲット言語で応答を生成する。
提案手法は,LLMの命令追従能力が平均29%向上したことを示す。
論文 参考訳(メタデータ) (2023-11-15T05:28:07Z) - From Classification to Generation: Insights into Crosslingual Retrieval
Augmented ICL [8.065775937617417]
クロスランガル検索強化インコンテキスト学習(CREA-ICL)を利用した新しい手法を提案する。
高ソース言語から意味論的に類似したプロンプトを抽出することにより、多言語事前学習言語モデル(MPLM)のゼロショット性能の向上を目指す。
我々の手法は分類タスクを着実に改善するが、生成タスクでは課題に直面している。
論文 参考訳(メタデータ) (2023-11-11T15:40:21Z) - Tokenizer Choice For LLM Training: Negligible or Crucial? [30.501728534887455]
24個の単言語LLMと多言語LLMを学習し,トークン化剤の選択がLLM下流性能に及ぼす影響について検討した。
トークン化ツールの選択は、ダウンストリームのパフォーマンス、トレーニング、推論コストに大きな影響を与えます。
ヨーロッパの5言語で訓練された多言語トークン化器は,英語と比較して語彙サイズが3倍に大きくなることが示唆された。
論文 参考訳(メタデータ) (2023-10-12T22:44:19Z) - CMMLU: Measuring massive multitask language understanding in Chinese [133.70911295934746]
本稿では, 自然科学, 社会科学, 工学, 人文科学など, さまざまな分野をカバーする総合的な中国のベンチマークを紹介する。
CMMLUは、中国語の文脈における大きな言語モデルの知識と推論能力の評価におけるギャップを埋める。
論文 参考訳(メタデータ) (2023-06-15T15:49:51Z) - Breaking Language Barriers with a LEAP: Learning Strategies for Polyglot
LLMs [5.682384717239095]
大規模言語モデル(LLM)は、世界中の多くのドメインを変換する最前線にある。
本稿では,LLMの多言語性能向上のための命令的課題に取り組む。
ポリグロットランドスケープにおけるLLMの真のポテンシャルを解き放つ新しい手法を提案する。
論文 参考訳(メタデータ) (2023-05-28T14:48:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。