Fugu-MT 論文翻訳(概要): Analyzing and Adapting Large Language Models for Few-Shot Multilingual NLU: Are We There Yet?

論文の概要: Analyzing and Adapting Large Language Models for Few-Shot Multilingual NLU: Are We There Yet?

arxiv url: http://arxiv.org/abs/2403.01929v1
Date: Mon, 4 Mar 2024 10:48:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-06 19:07:58.159409
Title: Analyzing and Adapting Large Language Models for Few-Shot Multilingual NLU: Are We There Yet?
Title（参考訳）: Few-Shot Multilingual NLUのための大規模言語モデルの解析と適応:まだ存在するか?
Authors: Evgeniia Razumovskaia, Ivan Vuli\'c, Anna Korhonen
Abstract要約: 教師付きファインチューニング(SFT)、教師付きインストラクションチューニング(SIT)、インコンテキストラーニング(ICL)は、3つの代替であり、事実上の標準的アプローチである。提案手法は,6つの高・低リソース言語,3つの異なるNLUタスク,多種多様な言語とドメインのセットアップを用いて,3つのアプローチを網羅的かつ体系的に比較する。そこで本研究では,教師あり指導のチューニングが,性能とリソース要件の最良のトレードオフであることを示す。
参考スコア（独自算出の注目度）: 82.02076369811402
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Supervised fine-tuning (SFT), supervised instruction tuning (SIT) and in-context learning (ICL) are three alternative, de facto standard approaches to few-shot learning. ICL has gained popularity recently with the advent of LLMs due to its simplicity and sample efficiency. Prior research has conducted only limited investigation into how these approaches work for multilingual few-shot learning, and the focus so far has been mostly on their performance. In this work, we present an extensive and systematic comparison of the three approaches, testing them on 6 high- and low-resource languages, three different NLU tasks, and a myriad of language and domain setups. Importantly, performance is only one aspect of the comparison, where we also analyse the approaches through the optics of their computational, inference and financial costs. Our observations show that supervised instruction tuning has the best trade-off between performance and resource requirements. As another contribution, we analyse the impact of target language adaptation of pretrained LLMs and find that the standard adaptation approaches can (superficially) improve target language generation capabilities, but language understanding elicited through ICL does not improve and remains limited, with low scores especially for low-resource languages.
Abstract（参考訳）: supervised fine-tuning (sft)、supervised instruction tuning (sit)、in-context learning (icl) の3つの代替案である。 ICLは、その単純さとサンプル効率のため、最近LSMの登場で人気を博している。これまでの研究は、これらのアプローチが多言語多点学習にどのように役立つかに関する限られた調査しか行っていない。本研究では,これら3つの手法を大規模かつ体系的に比較し,高速かつ低リソースな6つの言語,3つの異なるNLUタスク,多数の言語とドメインのセットアップで検証する。重要なのは、パフォーマンスが比較の側面の1つに過ぎず、計算、推論、財務コストの光学的アプローチも分析することです。そこで本研究では,教師あり指導のチューニングが,性能とリソース要件の最良のトレードオフであることを示す。別の貢献として、事前学習されたLLMのターゲット言語適応の影響を分析し、標準適応アプローチがターゲット言語生成能力を改善することができるが、ICLによって引き起こされた言語理解は改善せず、特に低リソース言語では低得点である。

関連論文リスト

ConLID: Supervised Contrastive Learning for Low-Resource Language Identification [14.504528263331075]
低リソース言語に対するドメイン不変表現を学習するための新しい教師付きコントラスト学習(SCL)手法を提案する。提案手法は,低リソース言語におけるドメイン外データのLID性能を3.2%向上させる。
論文参考訳（メタデータ） (2025-06-18T09:35:33Z)
Improving Multilingual Math Reasoning for African Languages [49.27985213689457]
データタイプ(翻訳と合成)、トレーニングステージ(事前学習と後学習)、その他のモデル適応構成の異なる組み合わせを評価する実験を行う。実験では,Llama 3.1 モデルファミリをベースモデルとして,数学的推論タスクに着目した。
論文参考訳（メタデータ） (2025-05-26T11:35:01Z)
PolyMath: Evaluating Mathematical Reasoning in Multilingual Contexts [79.84059473102778]
PolyMathは18の言語と4つの難易度をカバーする多言語数学的推論ベンチマークである。我々のベンチマークは、包括性、言語多様性、高品質な翻訳の難しさを保証する。
論文参考訳（メタデータ） (2025-04-25T15:39:04Z)
Balanced Multi-Factor In-Context Learning for Multilingual Large Language Models [53.38288894305388]
MLLM(Multilingual Large Language Model)は,言語間知識伝達をパラメータ更新なしで活用することにより,文脈内学習(ICL)を活用して高い性能を実現する。 1) 意味的類似性,(2) 言語的アライメント,(3) 言語固有のパフォーマンスの3つの要因が多言語ICLに影響を与える。我々は,これらの因子を定量化し,最適にバランスをとる手法として,バランスの取れた多要素ICL(textbfBMF-ICL)を提案する。
論文参考訳（メタデータ） (2025-02-17T06:56:33Z)
Improving In-Context Learning with Small Language Model Ensembles [2.3499129784547654]
In-context Learning (ICL) は安価で効率的な代替手段であるが、高度な手法の精度と一致しない。本稿では,複数の微調整小言語モデル(SLM)の専門知識を活用することでICLを強化する新しいアプローチであるEnsemble SuperICLを提案する。
論文参考訳（メタデータ） (2024-10-29T09:02:37Z)
Bridging the Language Gaps in Large Language Models with Inference-Time Cross-Lingual Intervention [71.12193680015622]
大規模言語モデル(LLM)は自然言語処理において顕著な能力を示している。 LLMは異なる言語間で大きな性能差を示す。 Inference-Time Cross-Lingual Intervention (INCLINE) を提案する。
論文参考訳（メタデータ） (2024-10-16T11:23:03Z)
Optimizing Low-Resource Language Model Training: Comprehensive Analysis of Multi-Epoch, Multi-Lingual, and Two-Stage Approaches [3.809045695573932]
既存の作業では、制限対象の言語コーパスを効率的に活用するために、マルチエポック、多言語、二段階の訓練が採用されている。我々は、これらの3つのアプローチを組み合わせて、低リソース言語LLMのトレーニング設定を徹底的に検討する。対象言語コーパスの量が減少するにつれて、最適トレーニングアプローチは、単言語単段階訓練から、計算予算依存しきい値における多言語二段階訓練へと移行する。
論文参考訳（メタデータ） (2024-10-16T07:45:56Z)
Exploring Design Choices for Building Language-Specific LLMs [36.32622880071991]
単言語モデルと多言語モデルを適用し,言語固有の言語モデルの構築について検討する。 LLMの初期性能は適応後の最終性能と必ずしも相関しないことがわかった。
論文参考訳（メタデータ） (2024-06-20T18:47:43Z)
Bridging the Bosphorus: Advancing Turkish Large Language Models through Strategies for Low-Resource Language Adaptation and Benchmarking [1.3716808114696444]
大規模言語モデル(LLM)は様々な分野において重要になってきており、表現不足の言語における高品質なモデルの緊急性を強調している。本研究では、データ不足、モデル選択、評価、計算制限など、低リソース言語が直面する固有の課題について検討する。
論文参考訳（メタデータ） (2024-05-07T21:58:45Z)
Prefix Text as a Yarn: Eliciting Non-English Alignment in Foundation Language Model [50.339632513018934]
教師付き微調整(SFT)は、基礎大言語モデル(LLM)の出力を特定の嗜好に合わせるための単純なアプローチである。我々はこの仮説を言語間タスクの範囲内で批判的に検証する。タスク関連トークンを最小化するPreTTYという新しいトレーニングフリーアライメント手法を提案する。
論文参考訳（メタデータ） (2024-04-25T17:19:36Z)
Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文参考訳（メタデータ） (2024-04-11T04:22:15Z)
LLMs Are Few-Shot In-Context Low-Resource Language Learners [59.74451570590808]
In-context Learning (ICL) は、大規模言語モデル(LLM)に、表現不足の言語で多様なタスクを実行する権限を与える。 ICLとその言語間変動(X-ICL)を25の低リソース言語と7の比較的高リソース言語で検討した。本研究は,LLMの低リソース理解品質向上における文脈内情報の重要性を論じる。
論文参考訳（メタデータ） (2024-03-25T07:55:29Z)
FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。 FAC$2$E, FAC$2$Eについて述べる。
論文参考訳（メタデータ） (2024-02-29T21:05:37Z)
Breaking Language Barriers with a LEAP: Learning Strategies for Polyglot LLMs [5.682384717239095]
大規模言語モデル(LLM)は、世界中の多くのドメインを変換する最前線にある。本稿では,LLMの多言語性能向上のための命令的課題に取り組む。ポリグロットランドスケープにおけるLLMの真のポテンシャルを解き放つ新しい手法を提案する。
論文参考訳（メタデータ） (2023-05-28T14:48:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。