Fugu-MT 論文翻訳(概要): KOBEST: Korean Balanced Evaluation of Significant Tasks

論文の概要: KOBEST: Korean Balanced Evaluation of Significant Tasks

arxiv url: http://arxiv.org/abs/2204.04541v1
Date: Sat, 9 Apr 2022 20:13:51 GMT
ステータス: 翻訳完了
システム内更新日: 2022-04-15 01:32:04.540800
Title: KOBEST: Korean Balanced Evaluation of Significant Tasks
Title（参考訳）: KOBEST:韓国の重要課題のバランス評価
Authors: Dohyeong Kim, Myeongjun Jang, Deuk Sin Kwon, Eric Davis
Abstract要約: 自然言語処理(NLP)分野の進歩を加速させる上で,十分に構成されたベンチマークが重要な役割を担っている。我々は,韓国語下流5つのタスクからなる重要なタスク(KoBEST)について,韓国語バランス評価という新しいベンチマークを提案する。
参考スコア（独自算出の注目度）: 3.664687661363732
License: http://creativecommons.org/licenses/by/4.0/
Abstract: A well-formulated benchmark plays a critical role in spurring advancements in the natural language processing (NLP) field, as it allows objective and precise evaluation of diverse models. As modern language models (LMs) have become more elaborate and sophisticated, more difficult benchmarks that require linguistic knowledge and reasoning have been proposed. However, most of these benchmarks only support English, and great effort is necessary to construct benchmarks for other low resource languages. To this end, we propose a new benchmark named Korean balanced evaluation of significant tasks (KoBEST), which consists of five Korean-language downstream tasks. Professional Korean linguists designed the tasks that require advanced Korean linguistic knowledge. Moreover, our data is purely annotated by humans and thoroughly reviewed to guarantee high data quality. We also provide baseline models and human performance results. Our dataset is available on the Huggingface.
Abstract（参考訳）: 自然言語処理(NLP)分野の進歩を加速させる上では、多種多様なモデルの客観的かつ正確な評価を可能にするため、適切に構成されたベンチマークが重要な役割を果たす。現代の言語モデル(LM)はより精巧で洗練されたものとなり、言語知識と推論を必要とするより難しいベンチマークが提案されている。しかし、これらのベンチマークのほとんどは英語のみをサポートしており、他の低リソース言語のベンチマークを構築するには多大な労力が必要である。そこで本研究では,韓国語下流5つのタスクからなる重要なタスク(KoBEST)について,韓国語バランス評価という新しいベンチマークを提案する。韓国の専門言語学者は、高度な韓国語の知識を必要とするタスクを設計した。さらに、我々のデータは人間によって純粋に注釈付けされ、高いデータ品質を保証するために徹底的にレビューされる。また、ベースラインモデルと人間のパフォーマンス結果も提供します。当社のデータセットはhughingfaceで利用可能です。

関連論文リスト

KITE: A Benchmark for Evaluating Korean Instruction-Following Abilities in Large Language Models [36.90941464587649]
本稿では,韓国語指導フォロータスク評価(KITE)について紹介する。事実知識や複数選択テストに重点を置いている既存の韓国のベンチマークとは異なり、KITEは多様なオープンエンド命令フォロータスクを直接ターゲットとしている。
論文参考訳（メタデータ） (2025-10-17T11:45:15Z)
KoBALT: Korean Benchmark For Advanced Linguistic Tasks [0.6971903955510721]
KoBALT (Korean Benchmark for Advanced Linguistic Tasks) は700の質問からなる言語的に動機付けられたベンチマークである。韓国語における大規模言語モデル(LLM)の評価を推し進めるために設計された。韓国の標準コーパスとn-gramの重複が最小限に抑えられた専門家による言語的動機付けの質問スイートを導入している。
論文参考訳（メタデータ） (2025-05-22T02:03:07Z)
Zero-shot Benchmarking: A Framework for Flexible and Scalable Automatic Evaluation of Language Models [24.481028155002523]
タスクごとに高品質なベンチマークを作成するためのフレームワークであるZero-shot Benchmarking (ZSB)を提案する。 ZSBはシンプルで柔軟性があり、データ生成のためのプロンプトの作成と評価のためのプロンプトのみを必要とする。実際のデータを収集する作業や言語には、費用がかかるか実用的でない。
論文参考訳（メタデータ） (2025-04-01T17:40:08Z)
Multilingual European Language Models: Benchmarking Approaches and Challenges [2.413212225810367]
生成型大規模言語モデル(LLM)は、チャットインタラクションによってさまざまなタスクを解決できる。本稿では、多言語欧州ベンチマークに着目し、現在の評価データセットの利点と限界について分析する。本稿では,翻訳品質と文化バイアスを高めるための潜在的な解決策について論じる。
論文参考訳（メタデータ） (2025-02-18T14:32:17Z)
Deep Exploration of Cross-Lingual Zero-Shot Generalization in Instruction Tuning [47.75550640881761]
非英語タスクに適用することで、命令チューニングにおける言語間一般化について検討する。我々は、言語における不一致を軽減するために言語間テンプレートを設計し、トレーニングと推論の間のテンプレートの命令形式を規定する。実験の結果,英語と韓国語の両方の言語間一般化による一貫した改善が示された。
論文参考訳（メタデータ） (2024-06-13T04:10:17Z)
SOUL: Towards Sentiment and Opinion Understanding of Language [96.74878032417054]
我々は、言語感覚とオピニオン理解(SOUL)と呼ばれる新しいタスクを提案する。 SOULは2つのサブタスクを通して感情理解を評価することを目的としている:レビュー(RC)と正当化生成(JG)。
論文参考訳（メタデータ） (2023-10-27T06:48:48Z)
HAE-RAE Bench: Evaluation of Korean Knowledge in Language Models [0.0]
HAE-RAE Benchは,韓国の文化的・文脈的深度に欠けるモデルに挑戦するためのデータセットである。このデータセットは、語彙、歴史、一般的な知識、読み理解の4つの領域にまたがる6つの下流タスクを含んでいる。
論文参考訳（メタデータ） (2023-09-06T04:38:16Z)
Evaluating the Performance of Large Language Models on GAOKAO Benchmark [53.663757126289795]
本稿では,中国のガオカオ検定の質問をサンプルとして用いた直感的なベンチマークであるガオカオベンチについて紹介する。人間の評価により, GPT-4, ChatGPT, ERNIE-Botを含むLLMの変換総得点を得た。また、LLMを用いて主観的質問を格付けし、モデルスコアが人間のスコアと適度な一貫性を達成することを確認する。
論文参考訳（メタデータ） (2023-05-21T14:39:28Z)
This is the way: designing and compiling LEPISZCZE, a comprehensive NLP benchmark for Polish [5.8090623549313944]
ポーランドNLPの新しい総合ベンチマークであるLEPISZCZEを紹介する。ポーランドのベンチマークから5つのデータセットを使用し、8つの新しいデータセットを追加しています。我々はポーランド語のためのベンチマークを作成しながら学んだ洞察と経験を提供し、他の低リソース言語のための同様のベンチマークを設計する青写真を提供する。
論文参考訳（メタデータ） (2022-11-23T16:51:09Z)
IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。 IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文参考訳（メタデータ） (2022-01-27T18:53:22Z)
CUGE: A Chinese Language Understanding and Generation Evaluation Benchmark [144.05723617401674]
汎用言語インテリジェンス評価は、自然言語処理の長年の目標である。汎用言語インテリジェンス評価には,ベンチマーク自体が包括的で体系的なものである必要がある,と我々は主張する。以下に示す機能を備えた中国語理解・生成評価ベンチマークであるCUGEを提案する。
論文参考訳（メタデータ） (2021-12-27T11:08:58Z)
KLUE: Korean Language Understanding Evaluation [43.94952771238633]
韓国語理解評価(KLUE)ベンチマークを紹介する。 KLUEは、韓国の8つの自然言語理解(NLU)タスクのコレクションである。著作権を尊重しながら、さまざまなソースコーパスから、すべてのタスクをゼロから構築します。
論文参考訳（メタデータ） (2021-05-20T11:40:30Z)
XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating Cross-lingual Generalization [128.37244072182506]
言語間TRansfer Evaluation of Multilinguals XTREMEは、40言語および9タスクにわたる多言語表現の言語間一般化能力を評価するためのベンチマークである。我々は、英語でテストされたモデルは、多くのタスクにおいて人間のパフォーマンスに達するが、言語間変換されたモデルの性能にはまだ大きなギャップがあることを示した。
論文参考訳（メタデータ） (2020-03-24T19:09:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。