論文の概要: Ko-MuSR: A Multistep Soft Reasoning Benchmark for LLMs Capable of Understanding Korean
- arxiv url: http://arxiv.org/abs/2510.24150v1
- Date: Tue, 28 Oct 2025 07:42:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:36.892084
- Title: Ko-MuSR: A Multistep Soft Reasoning Benchmark for LLMs Capable of Understanding Korean
- Title(参考訳): Ko-MuSR:韓国語理解が可能なLLMのためのマルチステップソフト推論ベンチマーク
- Authors: Chanwoo Park, Suyoung Park, JiA Kang, Jongyeon Park, Sangho Kim, Hyunji M. Park, Sumin Bae, Mingyu Kang, Jaejin Lee,
- Abstract要約: Ko-MuSRは、韓国の長文におけるソフト推論を総合的に評価した最初のベンチマークである。
完全な韓国の物語、推論の連鎖、そして人間のアノテーターによって検証された複数の選択の質問が特徴である。
- 参考スコア(独自算出の注目度): 12.64152783930775
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present Ko-MuSR, the first benchmark to comprehensively evaluate multistep, soft reasoning in long Korean narratives while minimizing data contamination. Built following MuSR, Ko-MuSR features fully Korean narratives, reasoning chains, and multiple-choice questions verified by human annotators for logical consistency and answerability. Evaluations of four large language models -- two multilingual and two Korean-specialized -- show that multilingual models outperform Korean-focused ones even in Korean reasoning tasks, indicating cross-lingual generalization of reasoning ability. Carefully designed prompting strategies, which combine few-shot examples, reasoning traces, and task-specific hints, further boost accuracy, approaching human-level performance. Ko-MuSR offers a solid foundation for advancing Korean NLP by enabling systematic evaluation of long-context reasoning and prompting strategies.
- Abstract(参考訳): 我々は,データ汚染を最小限に抑えつつ,韓国の長い物語において,多段階のソフト推論を包括的に評価する最初のベンチマークであるKo-MuSRを提案する。
MuSRの後継として構築されたKo-MuSRは、完全韓国の物語、推論チェーン、論理的一貫性と応答性に関する人間のアノテータによって検証された多重選択質問を特徴としている。
4つの大言語モデル(多言語2つと韓国特化2つ)の評価は、多言語モデルが韓国の推論タスクにおいても韓国に特化しているモデルよりも優れており、推論能力の言語横断的な一般化を示していることを示している。
慎重に設計されたプロンプト戦略は、わずかな例、推論トレース、タスク固有のヒントを組み合わせることで、精度をさらに向上し、人間レベルのパフォーマンスに近づきます。
Ko-MuSRは、長文推論の体系的な評価と戦略の推進を可能にして、韓国のNLPを前進させるための確かな基盤を提供する。
関連論文リスト
- KITE: A Benchmark for Evaluating Korean Instruction-Following Abilities in Large Language Models [36.90941464587649]
本稿では,韓国語指導フォロータスク評価(KITE)について紹介する。
事実知識や複数選択テストに重点を置いている既存の韓国のベンチマークとは異なり、KITEは多様なオープンエンド命令フォロータスクを直接ターゲットとしている。
論文 参考訳(メタデータ) (2025-10-17T11:45:15Z) - Think Natively: Unlocking Multilingual Reasoning with Consistency-Enhanced Reinforcement Learning [85.7304930030649]
本稿では,言語一貫性報酬と言語間思考アライメント報酬によって訓練されたM-Thinkerを提案する。
M-Thinkerは2つのマルチ言語ベンチマークで100%近い言語一貫性と優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-10-08T17:55:02Z) - mSCoRe: a $M$ultilingual and Scalable Benchmark for $S$kill-based $Co$mmonsense $Re$asoning [74.97363626515236]
textbfSkill ベースの textbfCommonsense textbfReasoning (textbfmSCoRe) のための textbfMultilingual と Scalable Benchmark を提案する。
本ベンチマークでは,LLMの推論能力を体系的に評価するための3つの重要な要素を取り入れた。
本研究は,多言語多言語一般と文化的共通点に直面する場合,そのような推論強化モデルの限界を明らかにするものである。
論文 参考訳(メタデータ) (2025-08-13T18:59:02Z) - MMATH: A Multilingual Benchmark for Mathematical Reasoning [94.05289799605957]
MMATHは10言語にまたがる374の高品質な数学問題にまたがる多言語複雑推論のためのベンチマークである。
我々は、DeepSeek R1のような先進モデルでさえ、言語間での大幅な性能格差を示し、意図しない言語において重要な目標外問題発生応答に悩まされていることを観察する。
本研究は,大規模言語モデルの多言語推論能力向上のための新たな洞察と実践的戦略を提供する。
論文 参考訳(メタデータ) (2025-05-25T12:47:39Z) - Redefining Evaluation Standards: A Unified Framework for Evaluating the Korean Capabilities of Language Models [0.0]
我々は,韓国のアセスメントを統合するオープンソースのレジストリベースのフレームワークであるHRET(Haerae Evaluation Toolkit)を紹介する。
HRETは、主要な韓国のベンチマーク、複数の推論バックエンド、マルチメソッド評価を統合している。
モジュール化されたレジストリ設計により、新しいデータセット、メソッド、バックエンドの迅速な取り込みが可能になる。
論文 参考訳(メタデータ) (2025-03-29T04:17:58Z) - Demystifying Multilingual Chain-of-Thought in Process Reward Modeling [86.98098988779809]
プロセス報酬モデル(PRM)を多言語設定に拡張するという課題に対処する。
我々は、7つの言語にまたがるデータセット上で多言語PRMを訓練し、それを英語から翻訳する。
本結果は,学習言語数と英語データ量の両方に対する多言語PRMの感度を強調した。
論文 参考訳(メタデータ) (2025-02-18T09:11:44Z) - HAE-RAE Bench: Evaluation of Korean Knowledge in Language Models [0.0]
HAE-RAE Benchは,韓国の文化的・文脈的深度に欠けるモデルに挑戦するためのデータセットである。
このデータセットは、語彙、歴史、一般的な知識、読み理解の4つの領域にまたがる6つの下流タスクを含んでいる。
論文 参考訳(メタデータ) (2023-09-06T04:38:16Z) - KOBEST: Korean Balanced Evaluation of Significant Tasks [3.664687661363732]
自然言語処理(NLP)分野の進歩を加速させる上で,十分に構成されたベンチマークが重要な役割を担っている。
我々は,韓国語下流5つのタスクからなる重要なタスク(KoBEST)について,韓国語バランス評価という新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2022-04-09T20:13:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。