論文の概要: Evaluating Large Language Model with Knowledge Oriented Language Specific Simple Question Answering
- arxiv url: http://arxiv.org/abs/2505.16591v1
- Date: Thu, 22 May 2025 12:27:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.279315
- Title: Evaluating Large Language Model with Knowledge Oriented Language Specific Simple Question Answering
- Title(参考訳): 知識指向型言語による大規模言語モデルの評価
- Authors: Bowen Jiang, Runchuan Zhu, Jiang Wu, Zinco Jiang, Yifan He, Junyuan Gao, Jia Yu, Rui Min, Yinfan Wang, Haote Yang, Songyang Zhang, Dahua Lin, Lijun Wu, Conghui He,
- Abstract要約: KoLasSimpleQAは,Large Language Models (LLMs) の多言語事実能力を評価する最初のベンチマークである。
既存の研究に触発されて、単一知識点カバレッジ、絶対的客観性、独特な答え、時間的安定性といった特徴を備えた質問セットを作成しました。
その結果,2つの領域間に大きな性能差が認められた。
- 参考スコア(独自算出の注目度): 73.73820209993515
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We introduce KoLasSimpleQA, the first benchmark evaluating the multilingual factual ability of Large Language Models (LLMs). Inspired by existing research, we created the question set with features such as single knowledge point coverage, absolute objectivity, unique answers, and temporal stability. These questions enable efficient evaluation using the LLM-as-judge paradigm, testing both the LLMs' factual memory and self-awareness ("know what they don't know"). KoLasSimpleQA expands existing research in two key dimensions: (1) Breadth (Multilingual Coverage): It includes 9 languages, supporting global applicability evaluation. (2) Depth (Dual Domain Design): It covers both the general domain (global facts) and the language-specific domain (such as history, culture, and regional traditions) for a comprehensive assessment of multilingual capabilities. We evaluated mainstream LLMs, including traditional LLM and emerging Large Reasoning Models. Results show significant performance differences between the two domains, particularly in performance metrics, ranking, calibration, and robustness. This highlights the need for targeted evaluation and optimization in multilingual contexts. We hope KoLasSimpleQA will help the research community better identify LLM capability boundaries in multilingual contexts and provide guidance for model optimization. We will release KoLasSimpleQA at https://github.com/opendatalab/KoLasSimpleQA .
- Abstract(参考訳): 我々は,Large Language Models (LLMs) の多言語事実能力を評価する最初のベンチマークであるKoLasSimpleQAを紹介する。
既存の研究に触発されて、単一知識点カバレッジ、絶対的客観性、独特な答え、時間的安定性といった特徴を備えた質問セットを作成しました。
これらの質問はLLM-as-judgeパラダイムを用いた効率的な評価を可能にし、LLMの事実記憶と自己認識の両方をテストする("know what they don't know")。
KoLasSimpleQAは,既存の研究を2つの重要な次元に拡張する。(1) Breadth (Multilingual Coverage):9言語を含み,グローバルな適用性評価をサポートする。
2)Depth (Dual Domain Design):多言語能力を総合的に評価するために、一般ドメイン(グローバルな事実)と言語固有のドメイン(歴史、文化、地域伝統など)の両方をカバーする。
従来のLLMや大規模推論モデルなど,主要なLLMを評価した。
結果は2つの領域、特にパフォーマンス指標、ランキング、キャリブレーション、ロバストネスにおいて、大きなパフォーマンス差を示している。
これは、多言語コンテキストにおけるターゲット評価と最適化の必要性を強調している。
KoLasSimpleQAは、多言語コンテキストにおけるLLM機能境界をよりよく識別し、モデル最適化のためのガイダンスを提供することを期待しています。
https://github.com/opendatalab/KoLasSimpleQAでKoLasSimpleQAをリリースします。
関連論文リスト
- CALM: Unleashing the Cross-Lingual Self-Aligning Ability of Language Model Question Answering [42.92810049636768]
大規模言語モデル(LLM)は、言語固有の文化的知識と一般知識の両方を取得するために、多言語コーパスで事前訓練されている。
言語モデル(CALM)の言語間知識の整合性について検討する。
我々は、異なる言語間でモデルの知識を整合させるために、直接選好最適化(DPO)を用いる。
論文 参考訳(メタデータ) (2025-01-30T16:15:38Z) - Multilingual Needle in a Haystack: Investigating Long-Context Behavior of Multilingual Large Language Models [22.859955360764275]
本稿では,MultiLingual Needle-in-a-Haystack(MLNeedle)テストを導入する。
我々はMLNeedleの4つの最先端の大規模言語モデルを評価する。
論文 参考訳(メタデータ) (2024-08-19T17:02:06Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間の対応する概念、すなわち言語を横断的に関連付けることができるだろうか?
本研究は,言語横断的タスクにおける最先端LLMの評価である。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - OMGEval: An Open Multilingual Generative Evaluation Benchmark for Large
Language Models [59.54423478596468]
OMGEvalは、オープンソースの多言語生成テストセットであり、異なる言語におけるLLMの能力を評価することができる。
各言語について、OMGEvalは804のオープンエンド質問を提供し、LLMの重要な機能を幅広くカバーしている。
具体的には、OMGEvalの現在のバージョンには5つの言語(Zh, Ru, Fr, Es, Ar)が含まれている。
論文 参考訳(メタデータ) (2024-02-21T04:42:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。