Fugu-MT 論文翻訳(概要): IndicGenBench: A Multilingual Benchmark to Evaluate Generation Capabilities of LLMs on Indic Languages

論文の概要: IndicGenBench: A Multilingual Benchmark to Evaluate Generation Capabilities of LLMs on Indic Languages

arxiv url: http://arxiv.org/abs/2404.16816v1
Date: Thu, 25 Apr 2024 17:57:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-26 12:51:20.198196
Title: IndicGenBench: A Multilingual Benchmark to Evaluate Generation Capabilities of LLMs on Indic Languages
Title（参考訳）: IndicGenBench: 言語におけるLLMの生成能力を評価するための多言語ベンチマーク
Authors: Harman Singh, Nitish Gupta, Shikhar Bharadwaj, Dinesh Tewari, Partha Talukdar,
Abstract要約: IndicGenBenchは、大規模言語モデル(LLM)を評価するための最大のベンチマークである。言語間要約、機械翻訳、言語間質問応答などの多様な世代タスクで構成されている。最大の PaLM-2 モデルは、ほとんどのタスクにおいて最高に機能するが、英語と比較して全ての言語で顕著な性能差がある。
参考スコア（独自算出の注目度）: 12.514648269553104
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As large language models (LLMs) see increasing adoption across the globe, it is imperative for LLMs to be representative of the linguistic diversity of the world. India is a linguistically diverse country of 1.4 Billion people. To facilitate research on multilingual LLM evaluation, we release IndicGenBench - the largest benchmark for evaluating LLMs on user-facing generation tasks across a diverse set 29 of Indic languages covering 13 scripts and 4 language families. IndicGenBench is composed of diverse generation tasks like cross-lingual summarization, machine translation, and cross-lingual question answering. IndicGenBench extends existing benchmarks to many Indic languages through human curation providing multi-way parallel evaluation data for many under-represented Indic languages for the first time. We evaluate a wide range of proprietary and open-source LLMs including GPT-3.5, GPT-4, PaLM-2, mT5, Gemma, BLOOM and LLaMA on IndicGenBench in a variety of settings. The largest PaLM-2 models performs the best on most tasks, however, there is a significant performance gap in all languages compared to English showing that further research is needed for the development of more inclusive multilingual language models. IndicGenBench is released at www.github.com/google-research-datasets/indic-gen-bench
Abstract（参考訳）: 大規模言語モデル(LLM)が世界中で普及するにつれて、LLMは世界の言語多様性を表現することが不可欠である。インドは14億人の言語的に多様である。 IndicGenBenchは、13のスクリプトと4つの言語ファミリーをカバーする多言語言語29の多言語からなるユーザ向け生成タスクにおいて、LLMを評価するための最大のベンチマークである。 IndicGenBenchは、言語間要約、機械翻訳、言語間質問応答など、さまざまな生成タスクで構成されている。 IndicGenBenchは、人間のキュレーションを通じて既存のベンチマークを多くのIndic言語に拡張し、非表現のIndic言語で初めてマルチウェイ並列評価データを提供する。我々は,IndicGenBench 上で GPT-3.5, GPT-4, PaLM-2, mT5, Gemma, BLOOM, LLaMA など,プロプライエタリかつオープンソースな LLM を多種多様な設定で評価した。最大の PaLM-2 モデルは、ほとんどのタスクにおいて最高に機能するが、英語と比較して、より包括的な多言語言語モデルの開発にはさらなる研究が必要であることを示している。 IndicGenBenchはwww.github.com/google-research-datasets/indic-gen-benchでリリースされた。

関連論文リスト

MultiTEND: A Multilingual Benchmark for Natural Language to NoSQL Query Translation [6.142748564599452]
本稿では,自然言語によるクエリ生成のためのマルチ言語ベンチマークとして,MultiTENDを紹介する。自然言語を様々な言語構造にまたがるクエリに翻訳する際の課題を分析する。並列リンクプロセスを通じてクエリ生成ギャップに多言語入力をブリッジする新しいフレームワークであるMultiLinkを紹介する。
論文参考訳（メタデータ） (2025-02-16T07:12:47Z)
IndicMMLU-Pro: Benchmarking Indic Large Language Models on Multi-Task Language Understanding [2.062076715606512]
インド亜大陸の15億人以上の人々によって知られており、Indic言語は自然言語処理(NLP)の研究に固有の課題と機会を提示している。 IndicMMLU-Proは、Indic言語全体にわたる大規模言語モデル(LLM)を評価するために設計されたベンチマークである。
論文参考訳（メタデータ） (2025-01-27T03:19:03Z)
MILU: A Multi-task Indic Language Understanding Benchmark [7.652738829153342]
既存のベンチマークは主に英語に焦点を当てており、Indic言語における大規模言語モデルの評価においてかなりのギャップを残している。このギャップに対処するために設計された総合評価ベンチマークMILUを紹介する。インド中心のデザインにより、MILUは地域や州レベルの試験の資料を取り入れ、地域の歴史、芸術、祭典、法律などのトピックを科学や数学のような標準的な主題と共にカバーしている。
論文参考訳（メタデータ） (2024-11-04T19:17:17Z)
mHumanEval -- A Multilingual Benchmark to Evaluate Large Language Models for Code Generation [28.531581489405745]
mHumanEvalは200以上の自然言語でプロンプトをサポートする拡張ベンチマークである。我々は15の多様な自然言語(NL)に対して専門的な人文翻訳を提供する。我々は,SOTA (State-of-the-art) Code LLMの多言語コード生成能力を解析して結論付ける。
論文参考訳（メタデータ） (2024-10-19T08:44:26Z)
Parrot: Multilingual Visual Instruction Tuning [66.65963606552839]
既存の手法では、視覚エンコーダを教師付き微調整(SFT)を介してMLLM(Multimodal Large Language Models)と整列させるのが一般的である。言語レベルでの視覚的トークンアライメントにテキストガイダンスを活用する新しいアプローチであるPARROTを提案する。我々は6言語、15カテゴリ、12,000の質問からなる新しいベンチマークであるMassive Multilingual Multimodal Benchmark (MMMB)を紹介する。
論文参考訳（メタデータ） (2024-06-04T17:56:28Z)
LLMs Beyond English: Scaling the Multilingual Capability of LLMs with Cross-Lingual Feedback [61.23008372927665]
我々はLLaMAとBLOOMの多言語機能を100言語に拡張するxLLMs-100を紹介する。 5つの多言語ベンチマークでxLLMs-100の多言語理解と生成能力を評価する。
論文参考訳（メタデータ） (2024-06-03T20:25:12Z)
How do Large Language Models Handle Multilingualism? [81.15060972112563]
本研究では,大規模言語モデル(LLM)が多言語モデルをどのように扱うかを検討する。 LLMはまずクエリを理解し、タスク解決のために多言語入力を英語に変換する。中間層では、英語を思考に用い、自己意識とフィードフォワード構造を持つ多言語知識を取り入れている。
論文参考訳（メタデータ） (2024-02-29T02:55:26Z)
OMGEval: An Open Multilingual Generative Evaluation Benchmark for Large Language Models [59.54423478596468]
OMGEvalは、オープンソースの多言語生成テストセットであり、異なる言語におけるLLMの能力を評価することができる。各言語について、OMGEvalは804のオープンエンド質問を提供し、LLMの重要な機能を幅広くカバーしている。具体的には、OMGEvalの現在のバージョンには5つの言語(Zh, Ru, Fr, Es, Ar)が含まれている。
論文参考訳（メタデータ） (2024-02-21T04:42:41Z)
How Vocabulary Sharing Facilitates Multilingualism in LLaMA? [19.136382859468693]
大きな言語モデル(LLM)は英語のタスクに強いパフォーマンスを示すが、他の言語には制限がある。本研究では,語彙共有の観点からLLMの多言語的能力について検討する。
論文参考訳（メタデータ） (2023-11-15T16:13:14Z)
The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文参考訳（メタデータ） (2023-08-31T17:43:08Z)
GlobalBench: A Benchmark for Global Progress in Natural Language Processing [114.24519009839142]
GlobalBenchは、すべての言語におけるすべてのNLPデータセットの進捗を追跡することを目的としている。話者当たりのユーティリティと、全言語にわたるテクノロジのエクイティをトラックする。現在、GlobalBenchは190言語で966のデータセットをカバーしており、62言語にまたがる1,128のシステムサブミッションを持っている。
論文参考訳（メタデータ） (2023-05-24T04:36:32Z)
Towards Leaving No Indic Language Behind: Building Monolingual Corpora, Benchmark and Models for Indic Languages [19.91781398526369]
3つの重要な軸に沿ってコントリビューションを行うことで、Indic言語のNLU機能を改善することを目指している。具体的には、4つの言語ファミリーの24言語をカバーする20.9Bトークンで、最大のモノリンガルコーパスであるIndicCorpをキュレートする。我々は、20言語をカバーする9つの異なるNLUタスクからなる人間によるベンチマークIndicXTREMEを作成する。言語やタスク全体にわたって、IndicXTREMEには合計105の評価セットが含まれており、そのうち52が新たな文献への貢献である。
論文参考訳（メタデータ） (2022-12-11T04:45:50Z)
X-FACTR: Multilingual Factual Knowledge Retrieval from Pretrained Language Models [103.75890012041366]
言語モデル(LM)は、事実の知識を捉えるのに驚くほど成功した。しかし、LMの実際の表現能力の研究は、ほぼ間違いなく英語で行われている。我々は23の語型的多様言語に対するクローゼスタイルプローブのベンチマークを作成する。
論文参考訳（メタデータ） (2020-10-13T05:29:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。