論文の概要: KAIO: A Collection of More Challenging Korean Questions
- arxiv url: http://arxiv.org/abs/2509.14752v1
- Date: Thu, 18 Sep 2025 08:56:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.135247
- Title: KAIO: A Collection of More Challenging Korean Questions
- Title(参考訳): KAIO:韓国の質問の集大成
- Authors: Nahyun Lee, Guijin Son, Hyunwoo Ko, Kyubeen Han,
- Abstract要約: KAIOは、フロンティアモデルの評価とランク付けが可能な韓国のベンチマークである。
彩度に近い最近の韓国のスイートとは異なり、KAIOは飽和状態には程遠い。
- 参考スコア(独自算出の注目度): 6.603008356222286
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the advancement of mid/post-training techniques, LLMs are pushing their boundaries at an accelerated pace. Legacy benchmarks saturate quickly (e.g., broad suites like MMLU over the years, newer ones like GPQA-D even faster), which makes frontier progress hard to track. The problem is especially acute in Korean: widely used benchmarks are fewer, often translated or narrow in scope, and updated more slowly, so saturation and contamination arrive sooner. Accordingly, at this moment, there is no Korean benchmark capable of evaluating and ranking frontier models. To bridge this gap, we introduce KAIO, a Korean, math-centric benchmark that stresses long-chain reasoning. Unlike recent Korean suites that are at or near saturation, KAIO remains far from saturated: the best-performing model, GPT-5, attains 62.8, followed by Gemini-2.5-Pro (52.3). Open models such as Qwen3-235B and DeepSeek-R1 cluster falls below 30, demonstrating substantial headroom, enabling robust tracking of frontier progress in Korean. To reduce contamination, KAIO will remain private and be served via a held-out evaluator until the best publicly known model reaches at least 80% accuracy, after which we will release the set and iterate to a harder version.
- Abstract(参考訳): 中・ポストトレーニング技術の進歩に伴い、LSMは境界線を加速ペースで押し上げている。
レガシーベンチマークは急速に飽和している(例えば、MMLUのような幅広いスイート、GPQA-Dのような新しいベンチマーク)。
広く使われているベンチマークはより少なく、しばしば翻訳されるか、スコープが狭くなり、よりゆっくりと更新されるため、飽和と汚染はより早くやってくる。
したがって、現時点では、フロンティアモデルの評価とランク付けが可能な韓国のベンチマークは存在しない。
このギャップを埋めるために、長鎖推論を強調する韓国の数学中心のベンチマークであるKAIOを紹介します。
KAIOは飽和に近い最近の韓国のスイートとは異なり、最高のパフォーマンスモデルであるGPT-5は62.8に達し、続いてGemini-2.5-Pro(52.3)が続く。
Qwen3-235BやDeepSeek-R1クラスタといったオープンモデルは30以下で、かなり大きなヘッドルームを示し、韓国におけるフロンティアの進行の堅牢な追跡を可能にしている。
汚染を減らすため、KAIOは非公開のままで、最もよく知られたモデルが少なくとも80%の精度に達するまで、保留評価器経由で提供されます。
関連論文リスト
- Kimi K2: Open Agentic Intelligence [118.78600121345099]
Kimi K2は32億の活性化パラメータと1兆の総パラメータを持つ大きな言語モデルである。
MuonClipに基づいて、K2は15.5兆のトークンで事前訓練され、損失のスパイクはゼロだった。
Kimi K2は、オープンソース非思考モデルの間で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-07-28T05:35:43Z) - Self-Consistency Preference Optimization [79.37880123635405]
自己整合性優先最適化(ScPO)を導入する。
ScPOは、教師なしの新たな問題に関して、一貫性のない答えよりも好まれる一貫性のある回答を反復的に訓練する。
ゼブラ論理では、ScPO fine Llamatunes-3 8Bは、Llama-3 70B、Gemma-2 27B、Claude-3 Haikuより優れている。
論文 参考訳(メタデータ) (2024-11-06T18:36:22Z) - Open Ko-LLM Leaderboard2: Bridging Foundational and Practical Evaluation for Korean LLMs [7.924819546105335]
我々は、以前のOpen Ko-LLM Leaderboardの改良版であるOpen Ko-LLM Leaderboard2を提案する。
オリジナルのベンチマークは、現実の能力とより密に整合した新しいタスクに完全に置き換えられている。
韓国語の特徴をよりよく反映するために、4つの新しい韓国語ベンチマークが導入されている。
論文 参考訳(メタデータ) (2024-10-16T10:49:22Z) - KMMLU: Measuring Massive Multitask Language Understanding in Korean [32.06346608507584]
KMMLUは、人文科学からSTEMまで、45科目にわたる35,030名のエキスパートレベルの多重選択質問を備えた、韓国の新しいベンチマークである。
以前の韓国のベンチマークは既存の英語のベンチマークから翻訳されるが、KMMLUはオリジナルの韓国の試験から収集される。
論文 参考訳(メタデータ) (2024-02-18T11:41:07Z) - Zero-Shot Temporal Action Detection via Vision-Language Prompting [134.26292288193298]
視覚言語プロンプト(STALE)を用いた新しいゼロショット時間行動検出モデルを提案する。
我々のモデルは最先端の代替品を著しく上回っている。
我々のモデルは、近年の強力な競合相手よりも監督的TADにおいて優れた結果をもたらす。
論文 参考訳(メタデータ) (2022-07-17T13:59:46Z) - Long Range Language Modeling via Gated State Spaces [67.64091993846269]
本稿では,英語書籍,Githubソースコード,ArXiv数学論文の自己回帰シーケンスモデリングに焦点をあてる。
Gated State Space (GSS) と呼ばれる新しい層を提案し、S4の対角線よりもかなり高速に訓練可能であることを示す。
論文 参考訳(メタデータ) (2022-06-27T01:50:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。