論文の概要: OpenHuEval: Evaluating Large Language Model on Hungarian Specifics
- arxiv url: http://arxiv.org/abs/2503.21500v1
- Date: Thu, 27 Mar 2025 13:40:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:53:17.290784
- Title: OpenHuEval: Evaluating Large Language Model on Hungarian Specifics
- Title(参考訳): OpenHuEval: ハンガリー特有の大規模言語モデルの評価
- Authors: Haote Yang, Xingjian Wei, Jiang Wu, Noémi Ligeti-Nagy, Jiaxing Sun, Yinfan Wang, Zijian Győző Yang, Junyuan Gao, Jingchao Wang, Bowen Jiang, Shasha Wang, Nanjun Yu, Zihao Zhang, Shixin Hong, Hongwei Liu, Wei Li, Songyang Zhang, Dahua Lin, Lijun Wu, Gábor Prószéky, Conghui He,
- Abstract要約: OpenHuEvalはハンガリー語と特定の言語に焦点を当てた LLM の最初のベンチマークである。
OpenHuEvalは、複数の起源に由来するハンガリー固有の資料の膨大なコレクションから構築されている。
- 参考スコア(独自算出の注目度): 69.99614509404424
- License:
- Abstract: We introduce OpenHuEval, the first benchmark for LLMs focusing on the Hungarian language and specifics. OpenHuEval is constructed from a vast collection of Hungarian-specific materials sourced from multiple origins. In the construction, we incorporated the latest design principles for evaluating LLMs, such as using real user queries from the internet, emphasizing the assessment of LLMs' generative capabilities, and employing LLM-as-judge to enhance the multidimensionality and accuracy of evaluations. Ultimately, OpenHuEval encompasses eight Hungarian-specific dimensions, featuring five tasks and 3953 questions. Consequently, OpenHuEval provides the comprehensive, in-depth, and scientifically accurate assessment of LLM performance in the context of the Hungarian language and its specifics. We evaluated current mainstream LLMs, including both traditional LLMs and recently developed Large Reasoning Models. The results demonstrate the significant necessity for evaluation and model optimization tailored to the Hungarian language and specifics. We also established the framework for analyzing the thinking processes of LRMs with OpenHuEval, revealing intrinsic patterns and mechanisms of these models in non-English languages, with Hungarian serving as a representative example. We will release OpenHuEval at https://github.com/opendatalab/OpenHuEval .
- Abstract(参考訳): OpenHuEvalはハンガリー語と特定の言語に焦点を当てた LLM の最初のベンチマークである。
OpenHuEvalは、複数の起源に由来するハンガリー固有の資料の膨大なコレクションから構築されている。
構築にあたっては,インターネットからの実際のユーザクエリの利用,LCMの生成能力の評価,多次元性の向上と評価精度向上のためのLCM-as-judgeの利用など,LCMを評価するための最新の設計原則を取り入れた。
最終的にOpenHuEvalは、ハンガリー固有の8つの次元を含み、5つのタスクと3953の質問を含む。
その結果、OpenHuEvalはハンガリー語とその特質の文脈において、LLMのパフォーマンスの包括的で、深く、科学的に正確な評価を提供する。
従来のLLMと最近開発されたLarge Reasoning Modelの両方を含む,現行のLLMを評価した。
この結果は、ハンガリー語や特定言語に合わせて評価とモデル最適化を行うための重要な必要性を示している。
また,LRMの思考過程をOpenHuEvalで分析する枠組みを構築し,ハンガリー語を代表例とした非英語言語におけるモデル固有のパターンとメカニズムを明らかにした。
https://github.com/opendatalab/OpenHuEval で OpenHuEval をリリースします。
関連論文リスト
- LLMic: Romanian Foundation Language Model [76.09455151754062]
ルーマニア語に特化して設計された基礎言語モデルである LLMic について述べる。
英語からルーマニア語への翻訳作業において,事前学習後の言語翻訳のための微調整 LLMic が既存の解よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-01-13T22:14:45Z) - Open Llama2 Model for the Lithuanian Language [0.0]
リトアニア語に対する最初のオープンなLlama2大言語モデル(LLM)を提案し,記述する。
本稿では,オープン地域LSMの簡単なレビューと,提案するLSMとそのトレーニングプロセスの詳細情報について述べる。
論文 参考訳(メタデータ) (2024-08-23T10:18:39Z) - Evaluating Language Models for Generating and Judging Programming Feedback [4.743413681603463]
大規模言語モデル(LLM)は、幅広い領域で研究と実践を変革してきた。
我々は,オープンソースのLCMのプログラミング課題に対する高品質なフィードバック生成における効率性を評価する。
論文 参考訳(メタデータ) (2024-07-05T21:44:11Z) - A Systematic Evaluation of Large Language Models for Natural Language Generation Tasks [30.54635848057259]
本稿では、よく知られた高性能な大規模言語モデル(LLM)の包括的な評価を行う。
対話生成とテキスト要約を含む英語と中国語のデータセットを選択する。
本研究は, 詳細な分析を伴って, 両自動検査の結果を報告する。
論文 参考訳(メタデータ) (2024-05-16T16:56:54Z) - OMGEval: An Open Multilingual Generative Evaluation Benchmark for Large
Language Models [59.54423478596468]
OMGEvalは、オープンソースの多言語生成テストセットであり、異なる言語におけるLLMの能力を評価することができる。
各言語について、OMGEvalは804のオープンエンド質問を提供し、LLMの重要な機能を幅広くカバーしている。
具体的には、OMGEvalの現在のバージョンには5つの言語(Zh, Ru, Fr, Es, Ar)が含まれている。
論文 参考訳(メタデータ) (2024-02-21T04:42:41Z) - Large Language Models: A Survey [66.39828929831017]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。
LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文 参考訳(メタデータ) (2024-02-09T05:37:09Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - L-Eval: Instituting Standardized Evaluation for Long Context Language
Models [91.05820785008527]
長い文脈言語モデル(LCLM)のより標準化された評価を行うためにL-Evalを提案する。
20のサブタスク、508の長いドキュメント、2000以上の人間ラベルのクエリ応答対を含む新しい評価スイートを構築した。
その結果、一般的なn-gramマッチングの指標は人間の判断とよく相関しないことがわかった。
論文 参考訳(メタデータ) (2023-07-20T17:59:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。