論文の概要: TARJAMAT: Evaluation of Bard and ChatGPT on Machine Translation of Ten
Arabic Varieties
- arxiv url: http://arxiv.org/abs/2308.03051v2
- Date: Mon, 23 Oct 2023 23:26:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 23:53:47.448934
- Title: TARJAMAT: Evaluation of Bard and ChatGPT on Machine Translation of Ten
Arabic Varieties
- Title(参考訳): TARJAMAT:10種類のアラビア語の機械翻訳における Bard と ChatGPT の評価
- Authors: Karima Kadaoui, Samar M. Magdy, Abdul Waheed, Md Tawkat Islam
Khondaker, Ahmed Oumar El-Shangiti, El Moatez Billah Nagoudi, Muhammad
Abdul-Mageed
- Abstract要約: BardとChatGPTを10種類のアラビア語の機械翻訳能力について評価した。
我々の評価では、古典アラビア語(CA)、現代標準アラビア語(MSA)、およびいくつかの国レベルの方言の変種を網羅している。
しかし、CAとMSAでは、命令調整されたLLMがGoogle Translateのような商用システムに遅れを取っている。
- 参考スコア(独自算出の注目度): 18.73290429469502
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the purported multilingual proficiency of instruction-finetuned large
language models (LLMs) such as ChatGPT and Bard, the linguistic inclusivity of
these models remains insufficiently explored. Considering this constraint, we
present a thorough assessment of Bard and ChatGPT (encompassing both GPT-3.5
and GPT-4) regarding their machine translation proficiencies across ten
varieties of Arabic. Our evaluation covers diverse Arabic varieties such as
Classical Arabic (CA), Modern Standard Arabic (MSA), and several country-level
dialectal variants. Our analysis indicates that LLMs may encounter challenges
with dialects for which minimal public datasets exist, but on average are
better translators of dialects than existing commercial systems. On CA and MSA,
instruction-tuned LLMs, however, trail behind commercial systems such as Google
Translate. Finally, we undertake a human-centric study to scrutinize the
efficacy of the relatively recent model, Bard, in following human instructions
during translation tasks. Our analysis reveals a circumscribed capability of
Bard in aligning with human instructions in translation contexts. Collectively,
our findings underscore that prevailing LLMs remain far from inclusive, with
only limited ability to cater for the linguistic and cultural intricacies of
diverse communities.
- Abstract(参考訳): chatgpt や bard のような命令に精通した大規模言語モデル (llm) の多言語習熟度は高いが、これらのモデルの言語的排他性は未だ不十分である。
この制約を考慮し,10種類のアラビア語の機械翻訳能力について, Bard と ChatGPT (GPT-3.5 と GPT-4 を併用) を徹底的に評価した。
本評価は,古典アラビア語 (ca) や現代標準アラビア語 (msa) など,様々なアラビア語の方言を対象とする。
我々の分析によると、LLMは、最小の公開データセットが存在する方言では困難に直面する可能性があるが、平均的には、既存の商用システムよりも優れた方言翻訳者である。
しかしCAとMSAでは、命令調整されたLLMがGoogle Translateなどの商用システムに遅れを取っている。
最後に,比較的最近のモデルであるBardの有効性を,翻訳作業中の人間の指示に従って検討する。
解析の結果,翻訳文脈における人間の指示と整合するbardの周辺的能力が明らかになった。
総じて, LLMの普及は包括的ではなく, 多様な地域社会の言語的, 文化的な複雑さに対処する能力に限られていることが示唆された。
関連論文リスト
- Truth Knows No Language: Evaluating Truthfulness Beyond English [11.20320645651082]
本稿では,バスク語,カタルーニャ語,ガリシア語,スペイン語の真正性を評価するために,TrathfulQAベンチマークをプロ翻訳して導入する。
本研究は, 人的評価, 複数選択尺度, LLM-as-a-Judge スコアを用いて, 基礎モデルと指導訓練モデルを比較し, 最先端のオープンLCMを12個評価した。
論文 参考訳(メタデータ) (2025-02-13T15:04:53Z) - Controlled Evaluation of Syntactic Knowledge in Multilingual Language Models [16.414150004715367]
本研究では,3つの低リソース言語を対象とした構文評価試験を開発した。
オープンアクセス型多言語トランスフォーマーLMの5つのファミリーを評価する。
いくつかの構文的タスクは、LMにとって比較的容易であるのに対して、他のタスクは困難である。
論文 参考訳(メタデータ) (2024-11-12T01:26:41Z) - One Language, Many Gaps: Evaluating Dialect Fairness and Robustness of Large Language Models in Reasoning Tasks [68.33068005789116]
本研究は,大言語モデル(LLM)の標準推論タスクにおける方言処理における妥当性と頑健さを客観的に評価することを目的とした最初の研究である。
我々は、コンピュータサイエンスのバックグラウンドの専門家を含むAAVEスピーカーを雇い、HumanEvalやGSM8Kといった7つの人気のあるベンチマークを書き換えます。
以上の結果から,これら広く使用されているモデルのほとんどは,AAVEにおけるクエリに対する不安定さと不公平さを顕著に示していることがわかった。
論文 参考訳(メタデータ) (2024-10-14T18:44:23Z) - AraDiCE: Benchmarks for Dialectal and Cultural Capabilities in LLMs [22.121471902726892]
本稿ではアラビア方言と文化評価のベンチマークであるAraDiCEを紹介する。
湾岸地域、エジプト地域、レバント地域の文化意識を評価するために設計された最初のきめ細かいベンチマーク。
論文 参考訳(メタデータ) (2024-09-17T17:59:25Z) - Breaking Boundaries: Investigating the Effects of Model Editing on Cross-linguistic Performance [6.907734681124986]
本稿では,多言語文脈における知識編集技術を検討することにより,言語的平等の必要性を戦略的に識別する。
Mistral, TowerInstruct, OpenHathi, Tamil-Llama, Kan-Llamaなどのモデルの性能を,英語,ドイツ語,フランス語,イタリア語,スペイン語,ヒンディー語,タミル語,カンナダ語を含む言語で評価した。
論文 参考訳(メタデータ) (2024-06-17T01:54:27Z) - Zero-Shot Cross-Lingual Reranking with Large Language Models for
Low-Resource Languages [51.301942056881146]
アフリカ語における言語間情報検索システムにおいて,大規模言語モデル (LLM) がリランカーとしてどのように機能するかを検討する。
私たちの実装は、英語と4つのアフリカの言語(ハウサ語、ソマリ語、スワヒリ語、ヨルバ語)を対象としています。
我々は、英語のクェリとアフリカの言葉の文節による言語横断的な格付けについて検討する。
論文 参考訳(メタデータ) (2023-12-26T18:38:54Z) - Analyzing Multilingual Competency of LLMs in Multi-Turn Instruction
Following: A Case Study of Arabic [1.0878040851638]
GPT-4を英語とアラビア語の問合せのための一様評価器として使用し、様々なオープンエンドタスクにおけるLCMの性能を評価し比較する。
マルチリンガルおよびマルチターンデータセットを用いた微調整ベースモデルは、スクラッチからトレーニングされたマルチリンガルデータと競合する可能性がある。
論文 参考訳(メタデータ) (2023-10-23T11:40:04Z) - ChatGPT MT: Competitive for High- (but not Low-) Resource Languages [62.178282377729566]
大規模言語モデル(LLM)は、機械翻訳(MT)を含む様々な言語タスクの実行を暗黙的に学習する。
MTコスト分析とともに,204言語を拡張した最初の実験的な証拠を提示する。
分析の結果,ChatGPTの相対的翻訳能力を決定する上で,言語リソースレベルが最も重要な特徴であることが判明した。
論文 参考訳(メタデータ) (2023-09-14T04:36:00Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z) - Eliciting the Translation Ability of Large Language Models via Multilingual Finetuning with Translation Instructions [68.01449013641532]
大規模事前学習言語モデル(LLM)は多言語翻訳において強力な能力を示している。
本稿では,多言語事前学習言語モデルであるXGLM-7Bを微調整して,多言語翻訳を行う方法を提案する。
論文 参考訳(メタデータ) (2023-05-24T12:00:24Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。