論文の概要: TARJAMAT: Evaluation of Bard and ChatGPT on Machine Translation of Ten
Arabic Varieties
- arxiv url: http://arxiv.org/abs/2308.03051v1
- Date: Sun, 6 Aug 2023 08:29:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-08 17:00:42.373351
- Title: TARJAMAT: Evaluation of Bard and ChatGPT on Machine Translation of Ten
Arabic Varieties
- Title(参考訳): TARJAMAT:10種類のアラビア語の機械翻訳における Bard と ChatGPT の評価
- Authors: Karima Kadaoui, Samar M. Magdy, Abdul Waheed, Md Tawkat Islam
Khondaker, Ahmed Oumar El-Shangiti, El Moatez Billah Nagoudi, Muhammad
Abdul-Mageed
- Abstract要約: 人間の指示に従うように微調整された大規模言語モデル(LLM)が、AIのブレークスルーとして最近登場した。
これらのモデルの多言語的習熟度が報告されているにもかかわらず、その言語的傾向はいまだに十分に調査されていない。
アラビア語10種類の機械翻訳能力について, Bard と ChatGPT の徹底的な評価を行った。
- 参考スコア(独自算出の注目度): 6.625343914898585
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) finetuned to follow human instructions have
recently emerged as a breakthrough in AI. Models such as Google Bard and OpenAI
ChatGPT, for example, are surprisingly powerful tools for question answering,
code debugging, and dialogue generation. Despite the purported multilingual
proficiency of these models, their linguistic inclusivity remains
insufficiently explored. Considering this constraint, we present a thorough
assessment of Bard and ChatGPT (encompassing both GPT-3.5 and GPT-4) regarding
their machine translation proficiencies across ten varieties of Arabic. Our
evaluation covers diverse Arabic varieties such as Classical Arabic, Modern
Standard Arabic, and several nuanced dialectal variants. Furthermore, we
undertake a human-centric study to scrutinize the efficacy of the most recent
model, Bard, in following human instructions during translation tasks. Our
exhaustive analysis indicates that LLMs may encounter challenges with certain
Arabic dialects, particularly those for which minimal public data exists, such
as Algerian and Mauritanian dialects. However, they exhibit satisfactory
performance with more prevalent dialects, albeit occasionally trailing behind
established commercial systems like Google Translate. Additionally, our
analysis reveals a circumscribed capability of Bard in aligning with human
instructions in translation contexts. Collectively, our findings underscore
that prevailing LLMs remain far from inclusive, with only limited ability to
cater for the linguistic and cultural intricacies of diverse communities.
- Abstract(参考訳): 人間の指示に従うように微調整された大規模言語モデル(LLM)が、AIのブレークスルーとして最近登場した。
例えば、Google BardやOpenAI ChatGPTといったモデルは、質問応答、コードのデバッグ、対話生成のための驚くほど強力なツールです。
これらのモデルの多言語的習熟度が報告されているにもかかわらず、その言語的傾向はいまだに不十分である。
この制約を考慮し,10種類のアラビア語の機械翻訳能力について, Bard と ChatGPT (GPT-3.5 と GPT-4 を併用) を徹底的に評価した。
評価は,古典アラビア語,現代標準アラビア語,数種のニュアンス方言など,多種多様なアラビア語を対象とする。
さらに,翻訳作業中の人間の指示に従う際に,最新のモデルであるbardの有効性を検証するために,人間中心の研究を行った。
我々の徹底的な分析は、LLMが特定のアラビア方言、特にアルジェリア方言やモーリタニア方言のような最小の公的なデータが存在する方言との課題に直面する可能性を示唆している。
しかし、Google Translateのような確立した商用システムに追随することもあるが、より一般的な方言との良好なパフォーマンスを示している。
さらに,翻訳文脈における人間の指示と整合するbardの周辺的機能についても分析を行った。
総じて, LLMの普及は包括的ではなく, 多様な地域社会の言語的, 文化的な複雑さに対処する能力に限られていることが示唆された。
関連論文リスト
- Truth Knows No Language: Evaluating Truthfulness Beyond English [11.20320645651082]
本稿では,バスク語,カタルーニャ語,ガリシア語,スペイン語の真正性を評価するために,TrathfulQAベンチマークをプロ翻訳して導入する。
本研究は, 人的評価, 複数選択尺度, LLM-as-a-Judge スコアを用いて, 基礎モデルと指導訓練モデルを比較し, 最先端のオープンLCMを12個評価した。
論文 参考訳(メタデータ) (2025-02-13T15:04:53Z) - Controlled Evaluation of Syntactic Knowledge in Multilingual Language Models [16.414150004715367]
本研究では,3つの低リソース言語を対象とした構文評価試験を開発した。
オープンアクセス型多言語トランスフォーマーLMの5つのファミリーを評価する。
いくつかの構文的タスクは、LMにとって比較的容易であるのに対して、他のタスクは困難である。
論文 参考訳(メタデータ) (2024-11-12T01:26:41Z) - One Language, Many Gaps: Evaluating Dialect Fairness and Robustness of Large Language Models in Reasoning Tasks [68.33068005789116]
本研究は,大言語モデル(LLM)の標準推論タスクにおける方言処理における妥当性と頑健さを客観的に評価することを目的とした最初の研究である。
我々は、コンピュータサイエンスのバックグラウンドの専門家を含むAAVEスピーカーを雇い、HumanEvalやGSM8Kといった7つの人気のあるベンチマークを書き換えます。
以上の結果から,これら広く使用されているモデルのほとんどは,AAVEにおけるクエリに対する不安定さと不公平さを顕著に示していることがわかった。
論文 参考訳(メタデータ) (2024-10-14T18:44:23Z) - AraDiCE: Benchmarks for Dialectal and Cultural Capabilities in LLMs [22.121471902726892]
本稿ではアラビア方言と文化評価のベンチマークであるAraDiCEを紹介する。
湾岸地域、エジプト地域、レバント地域の文化意識を評価するために設計された最初のきめ細かいベンチマーク。
論文 参考訳(メタデータ) (2024-09-17T17:59:25Z) - Breaking Boundaries: Investigating the Effects of Model Editing on Cross-linguistic Performance [6.907734681124986]
本稿では,多言語文脈における知識編集技術を検討することにより,言語的平等の必要性を戦略的に識別する。
Mistral, TowerInstruct, OpenHathi, Tamil-Llama, Kan-Llamaなどのモデルの性能を,英語,ドイツ語,フランス語,イタリア語,スペイン語,ヒンディー語,タミル語,カンナダ語を含む言語で評価した。
論文 参考訳(メタデータ) (2024-06-17T01:54:27Z) - Zero-Shot Cross-Lingual Reranking with Large Language Models for
Low-Resource Languages [51.301942056881146]
アフリカ語における言語間情報検索システムにおいて,大規模言語モデル (LLM) がリランカーとしてどのように機能するかを検討する。
私たちの実装は、英語と4つのアフリカの言語(ハウサ語、ソマリ語、スワヒリ語、ヨルバ語)を対象としています。
我々は、英語のクェリとアフリカの言葉の文節による言語横断的な格付けについて検討する。
論文 参考訳(メタデータ) (2023-12-26T18:38:54Z) - Analyzing Multilingual Competency of LLMs in Multi-Turn Instruction
Following: A Case Study of Arabic [1.0878040851638]
GPT-4を英語とアラビア語の問合せのための一様評価器として使用し、様々なオープンエンドタスクにおけるLCMの性能を評価し比較する。
マルチリンガルおよびマルチターンデータセットを用いた微調整ベースモデルは、スクラッチからトレーニングされたマルチリンガルデータと競合する可能性がある。
論文 参考訳(メタデータ) (2023-10-23T11:40:04Z) - ChatGPT MT: Competitive for High- (but not Low-) Resource Languages [62.178282377729566]
大規模言語モデル(LLM)は、機械翻訳(MT)を含む様々な言語タスクの実行を暗黙的に学習する。
MTコスト分析とともに,204言語を拡張した最初の実験的な証拠を提示する。
分析の結果,ChatGPTの相対的翻訳能力を決定する上で,言語リソースレベルが最も重要な特徴であることが判明した。
論文 参考訳(メタデータ) (2023-09-14T04:36:00Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z) - Eliciting the Translation Ability of Large Language Models via Multilingual Finetuning with Translation Instructions [68.01449013641532]
大規模事前学習言語モデル(LLM)は多言語翻訳において強力な能力を示している。
本稿では,多言語事前学習言語モデルであるXGLM-7Bを微調整して,多言語翻訳を行う方法を提案する。
論文 参考訳(メタデータ) (2023-05-24T12:00:24Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。