論文の概要: Analyzing Multilingual Competency of LLMs in Multi-Turn Instruction
Following: A Case Study of Arabic
- arxiv url: http://arxiv.org/abs/2310.14819v1
- Date: Mon, 23 Oct 2023 11:40:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 20:40:49.827997
- Title: Analyzing Multilingual Competency of LLMs in Multi-Turn Instruction
Following: A Case Study of Arabic
- Title(参考訳): 多段階指導におけるLLMの多言語能力の分析:アラビア語を事例として
- Authors: Sabri Boughorbel, Majd Hawasly
- Abstract要約: GPT-4を英語とアラビア語の問合せのための一様評価器として使用し、様々なオープンエンドタスクにおけるLCMの性能を評価し比較する。
マルチリンガルおよびマルチターンデータセットを用いた微調整ベースモデルは、スクラッチからトレーニングされたマルチリンガルデータと競合する可能性がある。
- 参考スコア(独自算出の注目度): 1.0878040851638
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: While significant progress has been made in benchmarking Large Language
Models (LLMs) across various tasks, there is a lack of comprehensive evaluation
of their abilities in responding to multi-turn instructions in less-commonly
tested languages like Arabic. Our paper offers a detailed examination of the
proficiency of open LLMs in such scenarios in Arabic. Utilizing a customized
Arabic translation of the MT-Bench benchmark suite, we employ GPT-4 as a
uniform evaluator for both English and Arabic queries to assess and compare the
performance of the LLMs on various open-ended tasks. Our findings reveal
variations in model responses on different task categories, e.g., logic vs.
literacy, when instructed in English or Arabic. We find that fine-tuned base
models using multilingual and multi-turn datasets could be competitive to
models trained from scratch on multilingual data. Finally, we hypothesize that
an ensemble of small, open LLMs could perform competitively to proprietary LLMs
on the benchmark.
- Abstract(参考訳): 様々なタスクにわたるLarge Language Models(LLM)のベンチマークでは大きな進歩があったが、アラビア語のようなあまりテストされていない言語でのマルチターン命令に応答するそれらの能力の包括的な評価は欠如している。
本稿では,アラビア語のこのようなシナリオにおいて,オープンLCMの習熟度を詳細に検証する。
MT-Benchベンチマークスイートのカスタマイズされたアラビア翻訳を利用して、GPT-4を英語とアラビア語の問合せの統一評価器として使用し、様々なオープンエンドタスクにおけるLLMの性能を評価し比較する。
その結果、英語やアラビア語で指示された場合、様々なタスクカテゴリ、例えば、論理学とリテラシーのモデル応答のバリエーションが明らかになった。
多言語および多ターンデータセットを用いた微調整されたベースモデルは、多言語データからスクラッチからトレーニングされたモデルと競合する可能性がある。
最後に,小規模でオープンなLLMのアンサンブルが,ベンチマーク上の独自LLMと競合する可能性があると仮定する。
関連論文リスト
- ArabLegalEval: A Multitask Benchmark for Assessing Arabic Legal Knowledge in Large Language Models [0.0]
ArabLegalEvalは、大規模言語モデル(LLM)のアラビア語法的知識を評価するためのベンチマークデータセットである。
MMLUとLegalBenchのデータセットにインスパイアされたArabLegalEvalは、サウジアラビアの法的文書から得られた複数のタスクと、質問を合成する。
本研究の目的は、アラビア語の法的な問題を解くために必要な能力を分析し、最先端のLLMの性能をベンチマークすることである。
論文 参考訳(メタデータ) (2024-08-15T07:09:51Z) - Getting More from Less: Large Language Models are Good Spontaneous Multilingual Learners [67.85635044939836]
大きな言語モデル(LLM)は印象的な言語機能を示している。
本研究では,LLMの自然多言語アライメント改善について検討する。
質問翻訳データ(すなわち注釈付き回答なし)に基づいて学習したLLMは、英語と幅広い言語との整合を促進できることがわかった。
論文 参考訳(メタデータ) (2024-05-22T16:46:19Z) - Tower: An Open Multilingual Large Language Model for Translation-Related
Tasks [27.237316809769975]
本稿では,翻訳に含まれる複数のタスクに対して,大規模言語モデル(LLM)を調整するためのレシピを提案する。
我々の最終モデルは、翻訳に関連するいくつかのタスクにおいて、オープンな代替案を超越し、汎用的な閉LLMと競合する。
論文 参考訳(メタデータ) (2024-02-27T18:09:36Z) - OMGEval: An Open Multilingual Generative Evaluation Benchmark for Large
Language Models [59.54423478596468]
OMGEvalは、オープンソースの多言語生成テストセットであり、異なる言語におけるLLMの能力を評価することができる。
各言語について、OMGEvalは804のオープンエンド質問を提供し、LLMの重要な機能を幅広くカバーしている。
具体的には、OMGEvalの現在のバージョンには5つの言語(Zh, Ru, Fr, Es, Ar)が含まれている。
論文 参考訳(メタデータ) (2024-02-21T04:42:41Z) - Zero-Shot Cross-Lingual Reranking with Large Language Models for
Low-Resource Languages [51.301942056881146]
アフリカ語における言語間情報検索システムにおいて,大規模言語モデル (LLM) がリランカーとしてどのように機能するかを検討する。
私たちの実装は、英語と4つのアフリカの言語(ハウサ語、ソマリ語、スワヒリ語、ヨルバ語)を対象としています。
我々は、英語のクェリとアフリカの言葉の文節による言語横断的な格付けについて検討する。
論文 参考訳(メタデータ) (2023-12-26T18:38:54Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - Extrapolating Large Language Models to Non-English by Aligning Languages [109.09051737966178]
既存の大きな言語モデルは、異なる言語間で異なる能力を示す。
本稿では,言語間のセマンティックアライメントを構築することで,英語以外の言語に事前学習したLLMを強化する。
論文 参考訳(メタデータ) (2023-08-09T13:32:06Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z) - Don't Trust ChatGPT when Your Question is not in English: A Study of
Multilingual Abilities and Types of LLMs [16.770697902481107]
大規模言語モデル(LLM)は、例外的な自然言語理解能力を示している。
本論文では,多言語環境下でのLLMの性能格差を体系的に評価する方法を提案する。
その結果,GPTは多言語設定において高い翻訳的振る舞いを示すことがわかった。
論文 参考訳(メタデータ) (2023-05-24T02:05:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。