論文の概要: LLM-powered Data Augmentation for Enhanced Crosslingual Performance
- arxiv url: http://arxiv.org/abs/2305.14288v1
- Date: Tue, 23 May 2023 17:33:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 14:06:40.752511
- Title: LLM-powered Data Augmentation for Enhanced Crosslingual Performance
- Title(参考訳): 言語間性能向上のためのllmデータ拡張
- Authors: Chenxi Whitehouse, Monojit Choudhury, Alham Fikri Aji
- Abstract要約: 本稿では,コモンセンス推論データセットにおけるデータ拡張に大規模言語モデルを活用する可能性を検討することを目的とする。
私たちは、XCOPA、XWinograd、XStoryClozeの3つのデータセットを増強するために、Dlly-v2、StableVicuna、ChatGPT、GPT-4などのLCMを使用します。
我々は、英語とターゲット言語で生成されたデータとトレーニングのパフォーマンスを比較し、英語で生成されたデータを対象言語に翻訳する。
- 参考スコア(独自算出の注目度): 9.934873253937718
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper aims to explore the potential of leveraging Large Language Models
(LLMs) for data augmentation in crosslingual commonsense reasoning datasets,
where the available training data is extremely limited. To achieve this, we
employ several LLMs including Dolly-v2, StableVicuna, ChatGPT, and GPT-4 to
augment three datasets: XCOPA, XWinograd, and XStoryCloze. Subsequently, we
assess the effectiveness of fine-tuning smaller crosslingual models, mBERT and
XLMR, using the synthesised data. We compare the performance of training with
data generated in English and target languages, as well as translating the
English-generated data into the target languages. Our experiments reveal the
overall advantages of incorporating data generated by LLMs. Training on
synthetic data generated by GPT-4, whether English or multilingual, improves
performance consistently compared to the baseline. Other models also exhibit an
overall increase in performance, however, their effectiveness decreases in some
settings. We also ask native speakers to evaluate the naturalness and logical
soundness of the generated examples for different languages. Human evaluation
reveals that LLMs like ChatGPT and GPT-4 excel at generating natural text in
most languages, except a few such as Tamil. Moreover, ChatGPT trails behind in
generating plausible alternatives in comparison to the original dataset, while
GPT-4 demonstrates competitive logic consistency in the synthesised data.
- Abstract(参考訳): 本稿では,言語間コモンセンス推論データセットにおけるデータ拡張にLarge Language Models (LLMs)を活用する可能性について検討する。
これを実現するために、私たちは、XCOPA、XWinograd、XStoryClozeの3つのデータセットを増強するために、Dlly-v2、StableVicuna、ChatGPT、GPT-4などのLCMを使用します。
次に, 合成データを用いて, mBERT と XLMR を微調整した小型言語モデルの有効性を評価する。
我々は、英語とターゲット言語で生成されたデータとトレーニングのパフォーマンスを比較し、英語で生成されたデータを対象言語に翻訳する。
実験の結果,LLMが生成したデータの総合的な利点が明らかになった。
gpt-4が生成する合成データのトレーニングは、英語でも多言語でも、ベースラインと比較して一貫してパフォーマンスが向上する。
他のモデルも全体的な性能向上を示すが、いくつかの設定では効果が低下する。
また,母国語話者に対して,生成した事例の自然性や論理的な健全性を評価するよう求めた。
人間の評価によると、ChatGPT や GPT-4 のような LLM は、タミルのような一部の言語を除いて、多くの言語で自然テキストを生成するのに優れている。
さらに、ChatGPTは、オリジナルのデータセットと比較してもっともらしい代替品を生成するのを後押しし、GPT-4は合成データにおける競合論理の一貫性を示す。
関連論文リスト
- Think Carefully and Check Again! Meta-Generation Unlocking LLMs for Low-Resource Cross-Lingual Summarization [108.6908427615402]
CLS(Cross-lingual summarization)は、異なるターゲット言語でソーステキストの要約を生成することを目的としている。
現在、インストラクションチューニング付き大規模言語モデル (LLM) は様々な英語タスクで優れている。
近年の研究では、LCSタスクにおけるLCMの性能は、わずかな設定でも満足できないことが示されている。
論文 参考訳(メタデータ) (2024-10-26T00:39:44Z) - sPhinX: Sample Efficient Multilingual Instruction Fine-Tuning Through N-shot Guided Prompting [29.63634707674839]
本稿では,多言語合成指導調律データセット sPhinX を作成するための新しいレシピを提案する。
sPhinXは、命令応答対を英語から50言語に選択的に翻訳することで生成される。
本研究では,2つの最先端モデルであるMistral-7BとPhi-Smallを微調整するためにsPhinxの有効性を検証した。
論文 参考訳(メタデータ) (2024-07-13T13:03:45Z) - CT-Eval: Benchmarking Chinese Text-to-Table Performance in Large Language Models [36.82189550072201]
既存のテキスト・ツー・テーブルのデータセットは典型的には英語を指向する。
大規模言語モデル(LLM)は、多言語設定における一般的なタスクソルバとして大きな成功を収めている。
本研究は,中国語のテキスト・ツー・テーブル・データセットであるCT-Evalを用いてLCMのベンチマークを行う。
論文 参考訳(メタデータ) (2024-05-20T16:58:02Z) - Zero-Shot Cross-Lingual Reranking with Large Language Models for
Low-Resource Languages [51.301942056881146]
アフリカ語における言語間情報検索システムにおいて,大規模言語モデル (LLM) がリランカーとしてどのように機能するかを検討する。
私たちの実装は、英語と4つのアフリカの言語(ハウサ語、ソマリ語、スワヒリ語、ヨルバ語)を対象としています。
我々は、英語のクェリとアフリカの言葉の文節による言語横断的な格付けについて検討する。
論文 参考訳(メタデータ) (2023-12-26T18:38:54Z) - MEGAVERSE: Benchmarking Large Language Models Across Languages, Modalities, Models and Tasks [12.665447518524187]
本研究の目的は、同一の多言語データセットで比較することで、SoTA LLMの非英語能力の徹底的な評価を行うことである。
私たちのベンチマークは、低リソースのアフリカ言語を含む83の言語をカバーする22のデータセットで構成されています。
また、データ汚染に関する研究を行い、複数のモデルが多言語評価ベンチマークで汚染される可能性が示唆された。
論文 参考訳(メタデータ) (2023-11-13T16:45:37Z) - Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [59.056367787688146]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。
我々は10の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
翻訳を利用して、10個の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
論文 参考訳(メタデータ) (2023-10-31T08:09:20Z) - Improving Domain-Specific Retrieval by NLI Fine-Tuning [64.79760042717822]
本稿では、自然言語推論(NLI)データの微調整の可能性を調べ、情報検索とランキングを改善する。
コントラスト損失とNLIデータを利用した教師あり手法により細調整された単言語文エンコーダと多言語文エンコーダを併用する。
この結果から,NLIの微調整によりタスクおよび言語間のモデルの性能が向上し,単言語モデルと多言語モデルが改良される可能性が示唆された。
論文 参考訳(メタデータ) (2023-08-06T12:40:58Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z) - Improving Polish to English Neural Machine Translation with Transfer
Learning: Effects of Data Volume and Language Similarity [2.4674086273775035]
機械翻訳作業におけるデータ量と類似言語の使用が伝達学習に与える影響について検討する。
OPUS-100データセットを用いてポーランド語と英語の翻訳タスクに対してmBARTモデルを微調整する。
実験の結果、関連する言語と大量のデータの組み合わせは、関連する言語や大量のデータだけで訓練されたモデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-06-01T13:34:21Z) - mFACE: Multilingual Summarization with Factual Consistency Evaluation [79.60172087719356]
抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。
有望な結果にもかかわらず、現在のモデルはいまだに現実的に矛盾した要約を生み出すことに苦しむ。
事実整合性評価モデルを利用して、多言語要約を改善する。
論文 参考訳(メタデータ) (2022-12-20T19:52:41Z) - Improving Low-resource Reading Comprehension via Cross-lingual
Transposition Rethinking [0.9236074230806579]
Extractive Reading (ERC)は、大規模で高品質なERCトレーニングデータの提供によって、大幅に進歩した。
このような急速な進歩と広範囲の応用にもかかわらず、英語のような高リソース言語以外の言語のデータセットは依然として不足している。
多言語環境において,既存の高品質抽出読解データセットをモデル化し,XLTT(Cross-Lingual Transposition ReThinking)モデルを提案する。
論文 参考訳(メタデータ) (2021-07-11T09:35:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。