論文の概要: KITE: A Benchmark for Evaluating Korean Instruction-Following Abilities in Large Language Models
- arxiv url: http://arxiv.org/abs/2510.15558v1
- Date: Fri, 17 Oct 2025 11:45:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.601763
- Title: KITE: A Benchmark for Evaluating Korean Instruction-Following Abilities in Large Language Models
- Title(参考訳): KITE:大言語モデルにおける韓国語指導能力の評価ベンチマーク
- Authors: Dongjun Kim, Chanhee Park, Chanjun Park, Heuiseok Lim,
- Abstract要約: 本稿では,韓国語指導フォロータスク評価(KITE)について紹介する。
事実知識や複数選択テストに重点を置いている既存の韓国のベンチマークとは異なり、KITEは多様なオープンエンド命令フォロータスクを直接ターゲットとしている。
- 参考スコア(独自算出の注目度): 36.90941464587649
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The instruction-following capabilities of large language models (LLMs) are pivotal for numerous applications, from conversational agents to complex reasoning systems. However, current evaluations predominantly focus on English models, neglecting the linguistic and cultural nuances of other languages. Specifically, Korean, with its distinct syntax, rich morphological features, honorific system, and dual numbering systems, lacks a dedicated benchmark for assessing open-ended instruction-following capabilities. To address this gap, we introduce the Korean Instruction-following Task Evaluation (KITE), a comprehensive benchmark designed to evaluate both general and Korean-specific instructions. Unlike existing Korean benchmarks that focus mainly on factual knowledge or multiple-choice testing, KITE directly targets diverse, open-ended instruction-following tasks. Our evaluation pipeline combines automated metrics with human assessments, revealing performance disparities across models and providing deeper insights into their strengths and weaknesses. By publicly releasing the KITE dataset and code, we aim to foster further research on culturally and linguistically inclusive LLM development and inspire similar endeavors for other underrepresented languages.
- Abstract(参考訳): 大規模言語モデル(LLM)の命令追従能力は、対話エージェントから複雑な推論システムに至るまで、多くのアプリケーションにおいて重要である。
しかしながら、現在の評価は主に英語モデルに焦点を当てており、他の言語の言語的・文化的ニュアンスを無視している。
具体的には、韓国語は、独自の構文、豊富な形態的特徴、名誉システム、二重番号システムを持ち、オープンエンド命令フォロー機能を評価するための専用のベンチマークを欠いている。
このギャップに対処するため,韓国語指導フォロータスク評価 (KITE) を導入する。
事実知識や複数選択テストに重点を置いている既存の韓国のベンチマークとは異なり、KITEは多様なオープンエンド命令フォロータスクを直接ターゲットとしている。
評価パイプラインは、自動メトリクスと人間の評価を組み合わせることで、モデル間のパフォーマンス格差を明らかにし、その長所と短所についてより深い洞察を提供する。
KITEデータセットとコードを公開することで、文化的・言語学的に包括的なLLM開発に関するさらなる研究を促進し、他の未表現言語に対する同様の取り組みを促すことを目指している。
関連論文リスト
- Redefining Evaluation Standards: A Unified Framework for Evaluating the Korean Capabilities of Language Models [0.0]
我々は,韓国のアセスメントを統合するオープンソースのレジストリベースのフレームワークであるHRET(Haerae Evaluation Toolkit)を紹介する。
HRETは、主要な韓国のベンチマーク、複数の推論バックエンド、マルチメソッド評価を統合している。
モジュール化されたレジストリ設計により、新しいデータセット、メソッド、バックエンドの迅速な取り込みが可能になる。
論文 参考訳(メタデータ) (2025-03-29T04:17:58Z) - Deep Exploration of Cross-Lingual Zero-Shot Generalization in Instruction Tuning [47.75550640881761]
非英語タスクに適用することで、命令チューニングにおける言語間一般化について検討する。
我々は、言語における不一致を軽減するために言語間テンプレートを設計し、トレーニングと推論の間のテンプレートの命令形式を規定する。
実験の結果,英語と韓国語の両方の言語間一般化による一貫した改善が示された。
論文 参考訳(メタデータ) (2024-06-13T04:10:17Z) - HyperCLOVA X Technical Report [119.94633129762133]
韓国語と文化に合わせた大型言語モデル(LLM)のファミリーであるHyperCLOVA Xを紹介する。
HyperCLOVA Xは韓国語、英語、コードデータのバランスの取れた混合でトレーニングされ、その後、高品質な人間アノテーション付きデータセットによる命令チューニングが行われた。
このモデルは、韓国語と英語の両方で、包括的な推論、知識、常識、事実性、コーディング、数学、チャット、指示追従、無害など、様々なベンチマークで評価されている。
論文 参考訳(メタデータ) (2024-04-02T13:48:49Z) - HAE-RAE Bench: Evaluation of Korean Knowledge in Language Models [0.0]
HAE-RAE Benchは,韓国の文化的・文脈的深度に欠けるモデルに挑戦するためのデータセットである。
このデータセットは、語彙、歴史、一般的な知識、読み理解の4つの領域にまたがる6つの下流タスクを含んでいる。
論文 参考訳(メタデータ) (2023-09-06T04:38:16Z) - KOBEST: Korean Balanced Evaluation of Significant Tasks [3.664687661363732]
自然言語処理(NLP)分野の進歩を加速させる上で,十分に構成されたベンチマークが重要な役割を担っている。
我々は,韓国語下流5つのタスクからなる重要なタスク(KoBEST)について,韓国語バランス評価という新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2022-04-09T20:13:51Z) - CUGE: A Chinese Language Understanding and Generation Evaluation
Benchmark [144.05723617401674]
汎用言語インテリジェンス評価は、自然言語処理の長年の目標である。
汎用言語インテリジェンス評価には,ベンチマーク自体が包括的で体系的なものである必要がある,と我々は主張する。
以下に示す機能を備えた中国語理解・生成評価ベンチマークであるCUGEを提案する。
論文 参考訳(メタデータ) (2021-12-27T11:08:58Z) - XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating
Cross-lingual Generalization [128.37244072182506]
言語間TRansfer Evaluation of Multilinguals XTREMEは、40言語および9タスクにわたる多言語表現の言語間一般化能力を評価するためのベンチマークである。
我々は、英語でテストされたモデルは、多くのタスクにおいて人間のパフォーマンスに達するが、言語間変換されたモデルの性能にはまだ大きなギャップがあることを示した。
論文 参考訳(メタデータ) (2020-03-24T19:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。