論文の概要: Comparing LLM prompting with Cross-lingual transfer performance on Indigenous and Low-resource Brazilian Languages
- arxiv url: http://arxiv.org/abs/2404.18286v1
- Date: Sun, 28 Apr 2024 19:24:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-30 15:16:10.557393
- Title: Comparing LLM prompting with Cross-lingual transfer performance on Indigenous and Low-resource Brazilian Languages
- Title(参考訳): ブラジル語および低リソース言語におけるLLMプロンプトと言語間移動性能の比較
- Authors: David Ifeoluwa Adelani, A. Seza Doğruöz, André Coneglian, Atul Kr. Ojha,
- Abstract要約: ブラジルの12の低リソース言語(LRL)、アフリカの2つのLRL、そして2つの高リソース言語(HRL)に焦点を当てています。
以上の結果から,LLM は HRL と比較して LRL の音声(POS) ラベル付けに悪影響を及ぼすことが示唆された。
- 参考スコア(独自算出の注目度): 5.473562965178709
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models are transforming NLP for a variety of tasks. However, how LLMs perform NLP tasks for low-resource languages (LRLs) is less explored. In line with the goals of the AmeicasNLP workshop, we focus on 12 LRLs from Brazil, 2 LRLs from Africa and 2 high-resource languages (HRLs) (e.g., English and Brazilian Portuguese). Our results indicate that the LLMs perform worse for the part of speech (POS) labeling of LRLs in comparison to HRLs. We explain the reasons behind this failure and provide an error analyses through examples observed in our data set.
- Abstract(参考訳): 大規模言語モデルは様々なタスクのためにNLPを変換しています。
しかし、LLMが低リソース言語(LRL)に対してどのようにNLPタスクを実行するかは明らかになっていない。
AmeicasNLPワークショップの目標に合わせて、ブラジルから12のLRL、アフリカから2のLRL、高リソース言語(HRL)2つ(例:英語とブラジルポルトガル語)に焦点を当てます。
以上の結果から,LLM は HRL と比較して LRL の音声(POS) ラベル付けに悪影響を及ぼすことが示唆された。
この失敗の背景にある理由を説明し、データセットで観測された例を通してエラー解析を行う。
関連論文リスト
- Think Carefully and Check Again! Meta-Generation Unlocking LLMs for Low-Resource Cross-Lingual Summarization [108.6908427615402]
CLS(Cross-lingual summarization)は、異なるターゲット言語でソーステキストの要約を生成することを目的としている。
現在、インストラクションチューニング付き大規模言語モデル (LLM) は様々な英語タスクで優れている。
近年の研究では、LCSタスクにおけるLCMの性能は、わずかな設定でも満足できないことが示されている。
論文 参考訳(メタデータ) (2024-10-26T00:39:44Z) - Better to Ask in English: Evaluation of Large Language Models on English, Low-resource and Cross-Lingual Settings [12.507989493130175]
GPT-4, Llama 2 および Gemini は, 東南アジアの他の低リソース言語と比較して, 英語での有効性が評価されている。
GPT-4はLlama 2とGeminiを5つのプロンプト設定と全言語で上回ったことを示唆している。
論文 参考訳(メタデータ) (2024-10-17T02:12:30Z) - Quality or Quantity? On Data Scale and Diversity in Adapting Large Language Models for Low-Resource Translation [62.202893186343935]
低リソース言語に大規模言語モデルを適用するのに何が必要かについて検討する。
我々は、事前トレーニングとスーパーバイザードファインチューニング(SFT)の間に並列データが重要であることを示す。
2つの低リソース言語群にまたがる3つの LLM 実験により,本研究の一般化可能性を示す一貫した傾向が示された。
論文 参考訳(メタデータ) (2024-08-23T00:59:38Z) - Cost-Performance Optimization for Processing Low-Resource Language Tasks Using Commercial LLMs [45.44796295841526]
大規模言語モデル(LLM)は、高リソース言語(HRL)に対する印象的なゼロ/ファウショット推論と生成品質を示す。
いくつかは低リソース言語(LRL)でトレーニングされ、優れたパフォーマンスを実現しています。
LLM は HRL よりも LRL よりも多くのトークンを生成するため,LRL が価格面で不利であることを示す。
論文 参考訳(メタデータ) (2024-03-08T16:37:36Z) - Introducing Bode: A Fine-Tuned Large Language Model for Portuguese
Prompt-Based Task [1.158680734110387]
この研究は、ポルトガルのプロンプト「ボーデ」のための微調整されたLLaMA 2ベースのモデルを提案する。
In-context Learningを用いたゼロショット手法を用いて分類タスクにおけるこのモデルの性能を評価する。
論文 参考訳(メタデータ) (2024-01-05T17:15:01Z) - Zero-Shot Cross-Lingual Reranking with Large Language Models for
Low-Resource Languages [51.301942056881146]
アフリカ語における言語間情報検索システムにおいて,大規模言語モデル (LLM) がリランカーとしてどのように機能するかを検討する。
私たちの実装は、英語と4つのアフリカの言語(ハウサ語、ソマリ語、スワヒリ語、ヨルバ語)を対象としています。
我々は、英語のクェリとアフリカの言葉の文節による言語横断的な格付けについて検討する。
論文 参考訳(メタデータ) (2023-12-26T18:38:54Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z) - Multilingual Machine Translation with Large Language Models: Empirical Results and Analysis [103.89753784762445]
大規模言語モデル(LLM)は多言語機械翻訳(MMT)の処理において顕著な可能性を示した。
本稿では, MMT における LLM の利点と課題を体系的に検討する。
また,ChatGPTとGPT-4を含む8つのLLMを徹底的に評価した。
論文 参考訳(メタデータ) (2023-04-10T15:51:30Z) - Overlap-based Vocabulary Generation Improves Cross-lingual Transfer
Among Related Languages [18.862296065737347]
語彙重なりの次元に沿った言語族における言語間の関連性は、LRLのコーパス制限を克服するために活用される可能性がある。
そこで我々は,BPE語彙生成アルゴリズムを改良したOverlap BPEを提案する。
論文 参考訳(メタデータ) (2022-03-03T19:35:24Z) - Exploiting Language Relatedness for Low Web-Resource Language Model
Adaptation: An Indic Languages Study [14.34516262614775]
言語族における言語間の関連性は、LRLのコーパス制限を克服するために悪用される可能性があると論じる。
我々はインドの言語に焦点をあて,(1)スクリプト(ブラフミック文字から派生した多くのインデックススクリプト)と(2)文構造という2つの次元に沿った関連性を活用する。
論文 参考訳(メタデータ) (2021-06-07T20:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。