論文の概要: K-BrowseComp: A Web Browsing Agent Benchmark Grounded in Korean Contexts
- arxiv url: http://arxiv.org/abs/2606.02404v1
- Date: Mon, 01 Jun 2026 15:50:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:32.407822
- Title: K-BrowseComp: A Web Browsing Agent Benchmark Grounded in Korean Contexts
- Title(参考訳): K-BrowseComp: 韓国におけるWebブラウザエージェントベンチマーク
- Authors: Nahyun Lee, Dongkeun Yoon, Guijin Son, Geewook Kim, Dayoon Ko, Jeonghun Park, Haneul Yoo, Jaewon Cho, Junghun Park, Changyoon Lee, Kyochul Jang, Jaeyeon Kim, Eunsu Kim, Woojin Cho, Seungone Kim,
- Abstract要約: 我々は,K-BrowseCompを紹介した。K-BrowseComp,K-BrowseComp,K-BrowseComp,K-BrowseComp,K-BrowseComp,K-BrowseComp,K-BrowseComp,K-BrowseC omp,K-BrowseComp。
300プロブレムのK-BrowseComp-Verifiedサブセットは、韓国のネイティブスピーカーによって手作業で構築され、検証される。
このサブセットでは、GPT-5.5、DeepSeek-V4-Pro、GLM-5.1を含むフロンティアのLLMが30.00--45.67%にしか達せず、BrowseCompから大幅に落ち込んだ。
- 参考スコア(独自算出の注目度): 43.3460021951349
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Frontier model evaluations are shifting from foundational capabilities (e.g., instruction following and reasoning) toward compositional, agentic ones, but Korean agentic benchmarks remain scarce. We introduce K-BrowseComp, a web-browsing agent benchmark grounded in Korean contexts, consisting of 400 problems. The 300-problem K-BrowseComp-Verified subset is manually constructed and validated by native Korean speakers. On this subset, frontier LLMs, including GPT-5.5, DeepSeek-V4-Pro, and GLM-5.1, reach only 30.00--45.67\%, a substantial drop from BrowseComp, while Korean LLMs released through Korea's Proprietary AI Foundation Model program obtain only 0.00--10.33\%. We further construct a 100-problem synthetic split using hard few-shot exemplars and failure-mode-targeted generation to exploit the asymmetry between solving and creating web browsing problems. On the adversarially filtered synthetic diagnostic split, the strongest model reaches only 26.00\%, and we report this split separately as a targeted stress test. We publicly release our data and code.
- Abstract(参考訳): 最前線モデル評価は、基礎能力(例えば、指示の追従と推論)から、構成的、エージェント的なものへとシフトしているが、韓国のエージェント的ベンチマークは依然として不足している。
我々は,K-BrowseCompを紹介した。K-BrowseComp,K-BrowseComp,K-BrowseComp,K-BrowseComp,K-BrowseComp,K-BrowseComp,K-BrowseComp,K-BrowseC omp,K-BrowseComp。
300プロブレムのK-BrowseComp-Verifiedサブセットは、韓国のネイティブスピーカーによって手作業で構築され、検証される。
このサブセットでは、GPT-5.5、DeepSeek-V4-Pro、GLM-5.1といったフロンティアのLLMは、BrowseCompから大幅に低下した30.00--45.67\%、韓国のProprietary AI Foundation ModelプログラムからリリースされたLLMは0.00--10.33\%である。
さらに,Webブラウジング問題の解法と生成の非対称性を利用するために,ハードショットの例とフェールモードのターゲット生成を用いた100プロブレム合成スプリットを構築した。
逆フィルタによる合成診断分割では,最強モデルが26.00\%に達し,この分割を目標応力試験として別々に報告する。
データとコードを公開しています。
関連論文リスト
- KMMMU: Evaluation of Massive Multi-discipline Multimodal Understanding in Korean Language and Context [8.518732134730355]
KMMMUは,韓国の文化的・制度的環境におけるマルチモーダル理解を評価するための,韓国のネイティブベンチマークである。
KMMMUには、韓国語で書かれた試験から3,466の質問が含まれており、9つの規律と9つの視覚的モダリティのカテゴリ、300石の韓国固有のサブセットと627の難しいサブセットを含んでいる。
実験によると、最強のオープンソースモデルはフルセットで42.05%の精度でしか到達せず、最高のプロプライエタリモデルはハードサブセットで52.42%の精度で達成されている。
論文 参考訳(メタデータ) (2026-03-18T01:58:14Z) - K-EXAONE Technical Report [76.23621600385238]
K-EXAONEはLG AI Researchが開発した大規模多言語言語モデルである。
256Kのコンテキストウィンドウをサポートし、韓国語、英語、スペイン語、ドイツ語、日本語、ベトナム語をカバーしている。
我々はK-EXAONEを、推論、エージェント、一般、韓国語、多言語能力にまたがる総合的なベンチマークスイートで評価した。
論文 参考訳(メタデータ) (2026-01-05T02:30:59Z) - AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。
テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。
アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文 参考訳(メタデータ) (2025-04-29T17:36:05Z) - Multi-Step Reasoning in Korean and the Emergent Mirage [0.0]
HRMCR(HAE-RAE Multi-Step Commonsense Reasoning)は,文化的に特定の文脈で多段階推論を行う大規模言語モデルの能力を評価するためのベンチマークである。
質問はテンプレートやアルゴリズムを通じて自動的に生成され、韓国の文化知識をシーケンシャルな推論ステップに統合する必要がある。
実験の結果, (2 cdot 1025) 未満の FLOP のトレーニングモデルでは, ほぼゼロに近い性能を示しながら, 問題の解決に苦慮していることがわかった。
論文 参考訳(メタデータ) (2025-01-10T05:07:27Z) - CIF-Bench: A Chinese Instruction-Following Benchmark for Evaluating the Generalizability of Large Language Models [53.9835961434552]
本研究では,中国語に対する大規模言語モデル(LLM)の一般化性を評価するために,中国語命令追跡ベンチマーク(CIF-Bench)を導入する。
CIF-Benchは150のタスクと15,000の入力出力ペアで構成され、複雑な推論と中国の文化的ニュアンスをテストするためにネイティブスピーカーによって開発された。
データ汚染を軽減するため、データセットの半分しか公開せず、残りは非公開であり、スコア分散を最小限に抑えるために多種多様な命令を導入する。
論文 参考訳(メタデータ) (2024-02-20T16:02:12Z) - KMMLU: Measuring Massive Multitask Language Understanding in Korean [32.06346608507584]
KMMLUは、人文科学からSTEMまで、45科目にわたる35,030名のエキスパートレベルの多重選択質問を備えた、韓国の新しいベンチマークである。
以前の韓国のベンチマークは既存の英語のベンチマークから翻訳されるが、KMMLUはオリジナルの韓国の試験から収集される。
論文 参考訳(メタデータ) (2024-02-18T11:41:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。