Fugu-MT 論文翻訳(概要): TARJAMAT: Evaluation of Bard and ChatGPT on Machine Translation of Ten Arabic Varieties

論文の概要: TARJAMAT: Evaluation of Bard and ChatGPT on Machine Translation of Ten Arabic Varieties

arxiv url: http://arxiv.org/abs/2308.03051v1
Date: Sun, 6 Aug 2023 08:29:16 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-08 17:00:42.373351
Title: TARJAMAT: Evaluation of Bard and ChatGPT on Machine Translation of Ten Arabic Varieties
Title（参考訳）: TARJAMAT:10種類のアラビア語の機械翻訳における Bard と ChatGPT の評価
Authors: Karima Kadaoui, Samar M. Magdy, Abdul Waheed, Md Tawkat Islam Khondaker, Ahmed Oumar El-Shangiti, El Moatez Billah Nagoudi, Muhammad Abdul-Mageed
Abstract要約: 人間の指示に従うように微調整された大規模言語モデル(LLM)が、AIのブレークスルーとして最近登場した。これらのモデルの多言語的習熟度が報告されているにもかかわらず、その言語的傾向はいまだに十分に調査されていない。アラビア語10種類の機械翻訳能力について, Bard と ChatGPT の徹底的な評価を行った。
参考スコア（独自算出の注目度）: 6.625343914898585
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) finetuned to follow human instructions have recently emerged as a breakthrough in AI. Models such as Google Bard and OpenAI ChatGPT, for example, are surprisingly powerful tools for question answering, code debugging, and dialogue generation. Despite the purported multilingual proficiency of these models, their linguistic inclusivity remains insufficiently explored. Considering this constraint, we present a thorough assessment of Bard and ChatGPT (encompassing both GPT-3.5 and GPT-4) regarding their machine translation proficiencies across ten varieties of Arabic. Our evaluation covers diverse Arabic varieties such as Classical Arabic, Modern Standard Arabic, and several nuanced dialectal variants. Furthermore, we undertake a human-centric study to scrutinize the efficacy of the most recent model, Bard, in following human instructions during translation tasks. Our exhaustive analysis indicates that LLMs may encounter challenges with certain Arabic dialects, particularly those for which minimal public data exists, such as Algerian and Mauritanian dialects. However, they exhibit satisfactory performance with more prevalent dialects, albeit occasionally trailing behind established commercial systems like Google Translate. Additionally, our analysis reveals a circumscribed capability of Bard in aligning with human instructions in translation contexts. Collectively, our findings underscore that prevailing LLMs remain far from inclusive, with only limited ability to cater for the linguistic and cultural intricacies of diverse communities.
Abstract（参考訳）: 人間の指示に従うように微調整された大規模言語モデル(LLM)が、AIのブレークスルーとして最近登場した。例えば、Google BardやOpenAI ChatGPTといったモデルは、質問応答、コードのデバッグ、対話生成のための驚くほど強力なツールです。これらのモデルの多言語的習熟度が報告されているにもかかわらず、その言語的傾向はいまだに不十分である。この制約を考慮し,10種類のアラビア語の機械翻訳能力について, Bard と ChatGPT (GPT-3.5 と GPT-4 を併用) を徹底的に評価した。評価は,古典アラビア語,現代標準アラビア語,数種のニュアンス方言など,多種多様なアラビア語を対象とする。さらに,翻訳作業中の人間の指示に従う際に,最新のモデルであるbardの有効性を検証するために,人間中心の研究を行った。我々の徹底的な分析は、LLMが特定のアラビア方言、特にアルジェリア方言やモーリタニア方言のような最小の公的なデータが存在する方言との課題に直面する可能性を示唆している。しかし、Google Translateのような確立した商用システムに追随することもあるが、より一般的な方言との良好なパフォーマンスを示している。さらに,翻訳文脈における人間の指示と整合するbardの周辺的機能についても分析を行った。総じて, LLMの普及は包括的ではなく, 多様な地域社会の言語的, 文化的な複雑さに対処する能力に限られていることが示唆された。

関連論文リスト

CEA-LIST at CheckThat! 2025: Evaluating LLMs as Detectors of Bias and Opinion in Text [3.9845507207125967]
本稿では,大言語モデル (LLM) を用いた多言語主観性検出の競争的アプローチを提案する。 LLMは、慎重に設計されたプロンプトと組み合わせることで、微調整されたより小さな言語モデル(SLM)に適合または優れることを示す。このシステムは,2025年の主観性検出タスクにおいて,複数の言語で上位にランクインした。
論文参考訳（メタデータ） (2025-07-10T08:35:05Z)
Bridging the Linguistic Divide: A Survey on Leveraging Large Language Models for Machine Translation [33.08089616645845]
大規模言語モデル(LLM)の出現は機械翻訳(MT)の景観を大きく変えた。我々は、アンダーリソース設定への効果的な適応を可能にする、少数ショットプロンプト、クロスランガル転送、パラメータ効率の微調整などの手法を解析する。幻覚, 評価の不整合, 遺伝バイアスなどの持続的課題について検討するとともに, 翻訳品質向上のためのLCM駆動メトリクスの評価を行った。
論文参考訳（メタデータ） (2025-04-02T17:26:40Z)
Jawaher: A Multidialectal Dataset of Arabic Proverbs for LLM Benchmarking [12.078532717928185]
大型言語モデル(LLM)は、西洋文化、アングロ・セントリック文化、アメリカ文化への偏見を示し続けている。我々は、アラビア語の証明を理解し解釈するLLMの能力を評価するために設計されたベンチマークであるJawaherを紹介する。 LLMは慣用的に正確な翻訳を生成できるが、文化的にニュアンスで文脈的に関係のある説明を生み出すのに苦労している。
論文参考訳（メタデータ） (2025-02-28T22:28:00Z)
Controlled Evaluation of Syntactic Knowledge in Multilingual Language Models [16.414150004715367]
本研究では,3つの低リソース言語を対象とした構文評価試験を開発した。オープンアクセス型多言語トランスフォーマーLMの5つのファミリーを評価する。いくつかの構文的タスクは、LMにとって比較的容易であるのに対して、他のタスクは困難である。
論文参考訳（メタデータ） (2024-11-12T01:26:41Z)
One Language, Many Gaps: Evaluating Dialect Fairness and Robustness of Large Language Models in Reasoning Tasks [68.33068005789116]
本研究は,大言語モデル(LLM)の標準推論タスクにおける方言処理における妥当性と頑健さを客観的に評価することを目的とした最初の研究である。我々は、コンピュータサイエンスのバックグラウンドの専門家を含むAAVEスピーカーを雇い、HumanEvalやGSM8Kといった7つの人気のあるベンチマークを書き換えます。以上の結果から,これら広く使用されているモデルのほとんどは,AAVEにおけるクエリに対する不安定さと不公平さを顕著に示していることがわかった。
論文参考訳（メタデータ） (2024-10-14T18:44:23Z)
AraDiCE: Benchmarks for Dialectal and Cultural Capabilities in LLMs [22.121471902726892]
本稿ではアラビア方言と文化評価のベンチマークであるAraDiCEを紹介する。湾岸地域、エジプト地域、レバント地域の文化意識を評価するために設計された最初のきめ細かいベンチマーク。本研究で検証した方言翻訳モデルとベンチマークをリリースする。
論文参考訳（メタデータ） (2024-09-17T17:59:25Z)
Breaking Boundaries: Investigating the Effects of Model Editing on Cross-linguistic Performance [6.907734681124986]
本稿では,多言語文脈における知識編集技術を検討することにより,言語的平等の必要性を戦略的に識別する。 Mistral, TowerInstruct, OpenHathi, Tamil-Llama, Kan-Llamaなどのモデルの性能を,英語,ドイツ語,フランス語,イタリア語,スペイン語,ヒンディー語,タミル語,カンナダ語を含む言語で評価した。
論文参考訳（メタデータ） (2024-06-17T01:54:27Z)
(Perhaps) Beyond Human Translation: Harnessing Multi-Agent Collaboration for Translating Ultra-Long Literary Texts [52.18246881218829]
本稿では,大言語モデル(LLM)をベースとした多エージェントフレームワークを,TransAgentsという企業として実装した。本システムの有効性を評価するため,モノリンガル・ヒューマン・プライス(MHP)とバイリンガル・LLM・プライス(BLP)の2つの革新的な評価戦略を提案する。
論文参考訳（メタデータ） (2024-05-20T05:55:08Z)
Zero-Shot Cross-Lingual Reranking with Large Language Models for Low-Resource Languages [51.301942056881146]
アフリカ語における言語間情報検索システムにおいて,大規模言語モデル (LLM) がリランカーとしてどのように機能するかを検討する。私たちの実装は、英語と4つのアフリカの言語(ハウサ語、ソマリ語、スワヒリ語、ヨルバ語)を対象としています。我々は、英語のクェリとアフリカの言葉の文節による言語横断的な格付けについて検討する。
論文参考訳（メタデータ） (2023-12-26T18:38:54Z)
Analyzing Multilingual Competency of LLMs in Multi-Turn Instruction Following: A Case Study of Arabic [1.0878040851638]
GPT-4を英語とアラビア語の問合せのための一様評価器として使用し、様々なオープンエンドタスクにおけるLCMの性能を評価し比較する。マルチリンガルおよびマルチターンデータセットを用いた微調整ベースモデルは、スクラッチからトレーニングされたマルチリンガルデータと競合する可能性がある。
論文参考訳（メタデータ） (2023-10-23T11:40:04Z)
ChatGPT MT: Competitive for High- (but not Low-) Resource Languages [62.178282377729566]
大規模言語モデル(LLM)は、機械翻訳(MT)を含む様々な言語タスクの実行を暗黙的に学習する。 MTコスト分析とともに,204言語を拡張した最初の実験的な証拠を提示する。分析の結果,ChatGPTの相対的翻訳能力を決定する上で,言語リソースレベルが最も重要な特徴であることが判明した。
論文参考訳（メタデータ） (2023-09-14T04:36:00Z)
Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文参考訳（メタデータ） (2023-06-20T08:27:47Z)
Eliciting the Translation Ability of Large Language Models via Multilingual Finetuning with Translation Instructions [68.01449013641532]
大規模事前学習言語モデル(LLM)は多言語翻訳において強力な能力を示している。本稿では,多言語事前学習言語モデルであるXGLM-7Bを微調整して,多言語翻訳を行う方法を提案する。
論文参考訳（メタデータ） (2023-05-24T12:00:24Z)
Large language models effectively leverage document-level context for literary translation, but critical errors persist [32.54546652197316]
大規模言語モデル(LLM)は、幅広い文レベルの翻訳データセット上での最先端技術と競合する。我々は,Gpt-3.5 (text-davinci-003) LLM) を用いて文節全体を翻訳し,高品質な翻訳を行うという厳密な評価を通して示す。
論文参考訳（メタデータ） (2023-04-06T17:27:45Z)
Cross-lingual Machine Reading Comprehension with Language Branch Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。 LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文参考訳（メタデータ） (2020-10-27T13:12:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。