論文の概要: BHASA: A Holistic Southeast Asian Linguistic and Cultural Evaluation
Suite for Large Language Models
- arxiv url: http://arxiv.org/abs/2309.06085v2
- Date: Tue, 19 Sep 2023 03:44:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-20 18:51:14.513828
- Title: BHASA: A Holistic Southeast Asian Linguistic and Cultural Evaluation
Suite for Large Language Models
- Title(参考訳): bhasa:大規模言語モデルのための総合的東南アジア言語・文化評価スイート
- Authors: Wei Qi Leong, Jian Gang Ngui, Yosephine Susanto, Hamsawardhini
Rengarajan, Kengatharaiyer Sarveswaran, William Chandra Tjhi
- Abstract要約: BHASA (英語: BHASA) は、東南アジアにおける大規模言語モデル(LLM)のための総合言語・文化評価スイートである。
1)自然言語理解(NLU)、生成(NLG)、推論(NLR)の8つのタスクをカバーするNLPベンチマーク,(2)LINDSEA, 構文, 意味学, 実用学などの言語現象を網羅する言語診断ツールキット, (3) 文化的表現と感受性の両方を探索する文化的診断データセットである。
- 参考スコア(独自算出の注目度): 0.06597195879147556
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid development of Large Language Models (LLMs) and the emergence of
novel abilities with scale have necessitated the construction of holistic,
diverse and challenging benchmarks such as HELM and BIG-bench. However, at the
moment, most of these benchmarks focus only on performance in English and
evaluations that include Southeast Asian (SEA) languages are few in number. We
therefore propose BHASA, a holistic linguistic and cultural evaluation suite
for LLMs in SEA languages. It comprises three components: (1) a NLP benchmark
covering eight tasks across Natural Language Understanding (NLU), Generation
(NLG) and Reasoning (NLR) tasks, (2) LINDSEA, a linguistic diagnostic toolkit
that spans the gamut of linguistic phenomena including syntax, semantics and
pragmatics, and (3) a cultural diagnostics dataset that probes for both
cultural representation and sensitivity. For this preliminary effort, we
implement the NLP benchmark only for Indonesian, Vietnamese, Thai and Tamil,
and we only include Indonesian and Tamil for LINDSEA and the cultural
diagnostics dataset. As GPT-4 is purportedly one of the best-performing
multilingual LLMs at the moment, we use it as a yardstick to gauge the
capabilities of LLMs in the context of SEA languages. Our initial experiments
on GPT-4 with BHASA find it lacking in various aspects of linguistic
capabilities, cultural representation and sensitivity in the targeted SEA
languages. BHASA is a work in progress and will continue to be improved and
expanded in the future. The repository for this paper can be found at:
https://github.com/aisingapore/BHASA
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な発展とスケールによる新しい能力の出現は、HELMやBIG-benchといった総合的で多様で困難なベンチマークの構築を必要としている。
しかし現時点では、これらのベンチマークのほとんどは英語のパフォーマンスのみに焦点を当てており、東南アジア(SEA)言語を含む評価は少ない。
そこで我々は,SEA言語におけるLLMの総合的言語的・文化的評価スイートであるBHASAを提案する。
1)自然言語理解(NLU)、生成(NLG)、推論(NLR)の8つのタスクをカバーするNLPベンチマーク,(2)LINDSEA, 構文, 意味学, 実用学などの言語現象を網羅する言語診断ツールキット, (3) 文化的表現と感受性の両方を探索する文化的診断データセットである。
この予備的な取り組みのために、インドネシア、ベトナム、タイ、タミルでのみNLPベンチマークを実装し、LINDSEAと文化的診断データセットのためにインドネシアとタミルのみを含む。
GPT-4は、現時点で最も優れた多言語LLMの1つであり、SEA言語の文脈におけるLLMの能力を評価するためにヤードスティックとして使用しています。
GPT-4とBHASAの初期実験では,言語能力,文化的表現,センシティブなSEA言語が欠如していることが判明した。
BHASAは現在開発中で、今後も改善と拡張が続けられる予定である。
本論文のレポジトリは、https://github.com/aisingapore/bhasaにある。
関連論文リスト
- IndicGenBench: A Multilingual Benchmark to Evaluate Generation Capabilities of LLMs on Indic Languages [12.514648269553104]
IndicGenBenchは、大規模言語モデル(LLM)を評価するための最大のベンチマークである。
言語間要約、機械翻訳、言語間質問応答などの多様な世代タスクで構成されている。
最大の PaLM-2 モデルは、ほとんどのタスクにおいて最高に機能するが、英語と比較して全ての言語で顕著な性能差がある。
論文 参考訳(メタデータ) (2024-04-25T17:57:36Z) - Multilingual Evaluation of Semantic Textual Relatedness [0.0]
意味的テクスト関係性(STR)は、言語的要素や話題、感情、視点といった非言語的要素を考慮して、表面的な単語重複を越えている。
以前のNLP研究は主に英語に焦点を合わせており、言語間の適用性を制限している。
Marathi、Hindi、スペイン語、英語でSTRを探索し、情報検索や機械翻訳などの可能性を解き放つ。
論文 参考訳(メタデータ) (2024-04-13T17:16:03Z) - MLaKE: Multilingual Knowledge Editing Benchmark for Large Language Models [65.10456412127405]
MLaKEは5言語にわたる知識編集手法の適応性のベンチマークである。
MLaKEは、ウィキペディアから言語にまたがるファクトチェーンを集約し、フリーフォームとマルチチョイスの両方で質問を生成する。
MLaKEにおける既存手法の多言語知識編集の一般化能力を評価する。
論文 参考訳(メタデータ) (2024-04-07T15:23:28Z) - Is Translation All You Need? A Study on Solving Multilingual Tasks with Large Language Models [79.46179534911019]
大規模言語モデル(LLM)は、強力な多言語機能を示している。
トレーニングコーパスの不均衡のため、主に英語中心である。
我々はNLPタスクから実際のユーザクエリまで評価を拡張した。
論文 参考訳(メタデータ) (2024-03-15T12:47:39Z) - Teaching Large Language Models an Unseen Language on the Fly [35.87287102728755]
テキスト内学習によりLLMを未知の言語に適応させるフレームワークであるtextscDiPMT++を導入する。
辞書と5Kパラレル文のみを用いて、textscDiPMT++は、中国語から中国語への翻訳は0から16BLEU、中国語への翻訳は32BLEUである。
論文 参考訳(メタデータ) (2024-02-29T13:50:47Z) - How do Large Language Models Handle Multilingualism? [87.06210331315451]
大規模言語モデル(LLM)は、様々な言語で顕著な性能を示す。
LLMの多言語入力処理を記述したフレームワークを提案する。
さらに,特定の言語処理における言語特異的ニューロンの存在について検討する。
論文 参考訳(メタデータ) (2024-02-29T02:55:26Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - Breaking Language Barriers in Multilingual Mathematical Reasoning:
Insights and Observations [90.73517523001149]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。
翻訳を利用して,最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
我々は、MathOctopusという名の強力なxMR LLMを構築するための異なるトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2023-10-31T08:09:20Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Role of Language Relatedness in Multilingual Fine-tuning of Language
Models: A Case Study in Indo-Aryan Languages [34.79533646549939]
我々は,多言語微調整を用いたNLPモデルにおいて,同族に属する言語の関連性を活用した影響について検討する。
Oriya や Punjabi のような低資源言語は多言語微調整の最大の受益者である。
論文 参考訳(メタデータ) (2021-09-22T06:37:39Z) - ParsiNLU: A Suite of Language Understanding Challenges for Persian [23.26176232463948]
この作品は、世界で広く話されている言語の1つであるペルシャ語に焦点を当てています。
このリッチ言語で利用可能なNLUデータセットは少ない。
ParsiNLUは、さまざまな高レベルのタスクを含むペルシャ語言語の最初のベンチマークです。
論文 参考訳(メタデータ) (2020-12-11T06:31:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。