論文の概要: Multi-Step Reasoning in Korean and the Emergent Mirage
- arxiv url: http://arxiv.org/abs/2501.05712v1
- Date: Fri, 10 Jan 2025 05:07:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-13 15:27:43.190411
- Title: Multi-Step Reasoning in Korean and the Emergent Mirage
- Title(参考訳): 韓国のマルチステップ推論と創世鏡
- Authors: Guijin Son, Hyunwoo Ko, Dasol Choi,
- Abstract要約: HRMCR(HAE-RAE Multi-Step Commonsense Reasoning)は,文化的に特定の文脈で多段階推論を行う大規模言語モデルの能力を評価するためのベンチマークである。
質問はテンプレートやアルゴリズムを通じて自動的に生成され、韓国の文化知識をシーケンシャルな推論ステップに統合する必要がある。
実験の結果, (2 cdot 1025) 未満の FLOP のトレーニングモデルでは, ほぼゼロに近い性能を示しながら, 問題の解決に苦慮していることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: We introduce HRMCR (HAE-RAE Multi-Step Commonsense Reasoning), a benchmark designed to evaluate large language models' ability to perform multi-step reasoning in culturally specific contexts, focusing on Korean. The questions are automatically generated via templates and algorithms, requiring LLMs to integrate Korean cultural knowledge into sequential reasoning steps. Consistent with prior observations on emergent abilities, our experiments reveal that models trained on fewer than \(2 \cdot 10^{25}\) training FLOPs struggle to solve any questions, showing near-zero performance. Beyond this threshold, performance improves sharply. State-of-the-art models (e.g., O1) still score under 50\%, underscoring the difficulty of our tasks. Notably, stepwise analysis suggests the observed emergent behavior may stem from compounding errors across multiple steps rather than reflecting a genuinely new capability. We publicly release the benchmark and commit to regularly updating the dataset to prevent contamination.
- Abstract(参考訳): HRMCR(HAE-RAE Multi-Step Commonsense Reasoning)は,大言語モデルが文化的に特定の文脈で多段階推論を行う能力を評価するためのベンチマークである。
質問はテンプレートやアルゴリズムを通じて自動的に生成され、韓国の文化知識をシーケンシャルな推論ステップに統合する必要がある。
先発能力に関する事前の観察結果と一致し, FLOP の訓練では, 2 \cdot 10^{25}\) 未満のモデルで訓練したモデルでは, ほぼゼロに近い性能を示しながら, 問題の解決に苦慮していることが明らかとなった。
このしきい値を超えると、パフォーマンスが大幅に向上します。
最先端のモデル(例:O1)は依然として50%以下であり、タスクの難しさを浮き彫りにしています。
特に、ステップワイズ分析は、観察された創発的行動は、真に新しい能力を反映するのではなく、複数のステップにまたがる複雑なエラーに起因する可能性があることを示唆している。
ベンチマークを公開し、汚染を防ぐために定期的にデータセットを更新します。
関連論文リスト
- Multilingual European Language Models: Benchmarking Approaches and Challenges [2.413212225810367]
生成型大規模言語モデル(LLM)は、チャットインタラクションによってさまざまなタスクを解決できる。
本稿では、多言語欧州ベンチマークに着目し、現在の評価データセットの利点と限界について分析する。
本稿では,翻訳品質と文化バイアスを高めるための潜在的な解決策について論じる。
論文 参考訳(メタデータ) (2025-02-18T14:32:17Z) - Demystifying Multilingual Chain-of-Thought in Process Reward Modeling [71.12193680015622]
プロセス報酬モデル(PRM)を多言語設定に拡張するという課題に対処する。
我々は、7つの言語にまたがるデータセット上で多言語PRMを訓練し、それを英語から翻訳する。
本結果は,学習言語数と英語データ量の両方に対する多言語PRMの感度を強調した。
論文 参考訳(メタデータ) (2025-02-18T09:11:44Z) - LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs [103.0226977561914]
大規模言語モデルにおけるステップバイステップの視覚的推論を促進するための包括的フレームワークを提案する。
マルチステップ推論タスクの評価に特化して設計された視覚推論ベンチマークを導入する。
第二に,個々のステップの粒度で視覚的推論品質を評価する新しい指標を提案する。
第3に、マルチステップのカリキュラム学習アプローチを用いて学習したLlamaV-o1という新しいマルチモーダル視覚推論モデルを提案する。
論文 参考訳(メタデータ) (2025-01-10T18:59:51Z) - Understand, Solve and Translate: Bridging the Multilingual Mathematical Reasoning Gap [0.0]
大規模言語モデル(LLM)は複雑な推論タスクにおいて例外的な性能を示す。
高リソース言語では強い推論能力があるが、他の言語では大きなパフォーマンスギャップが持続する。
提案するUST(Understand, Solve, and Translate)は,推論と解生成のためのアンカーとして英語を戦略的に利用する手法である。
論文 参考訳(メタデータ) (2025-01-05T05:57:22Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Deep Exploration of Cross-Lingual Zero-Shot Generalization in Instruction Tuning [47.75550640881761]
非英語タスクに適用することで、命令チューニングにおける言語間一般化について検討する。
我々は、言語における不一致を軽減するために言語間テンプレートを設計し、トレーニングと推論の間のテンプレートの命令形式を規定する。
実験の結果,英語と韓国語の両方の言語間一般化による一貫した改善が示された。
論文 参考訳(メタデータ) (2024-06-13T04:10:17Z) - The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。
実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。
我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文 参考訳(メタデータ) (2024-05-02T14:49:50Z) - Min-K%++: Improved Baseline for Detecting Pre-Training Data from Large Language Models [15.50128790503447]
我々はMin-K%++という名前の事前学習データ検出のための新しい理論的動機付け手法を提案する。
具体的には,各入力次元に沿ったモデル分布の局所的な最大値であることを示す。
論文 参考訳(メタデータ) (2024-04-03T04:25:01Z) - CIF-Bench: A Chinese Instruction-Following Benchmark for Evaluating the Generalizability of Large Language Models [53.9835961434552]
本研究では,中国語に対する大規模言語モデル(LLM)の一般化性を評価するために,中国語命令追跡ベンチマーク(CIF-Bench)を導入する。
CIF-Benchは150のタスクと15,000の入力出力ペアで構成され、複雑な推論と中国の文化的ニュアンスをテストするためにネイティブスピーカーによって開発された。
データ汚染を軽減するため、データセットの半分しか公開せず、残りは非公開であり、スコア分散を最小限に抑えるために多種多様な命令を導入する。
論文 参考訳(メタデータ) (2024-02-20T16:02:12Z) - Information Association for Language Model Updating by Mitigating
LM-Logical Discrepancy [68.31760483418901]
大規模言語モデル(LLM)は、時代遅れの事前学習データのために現在の情報を提供するのに苦労する。
知識編集や連続的な微調整など,従来のLCMの更新方法は,新たな情報の一般化に重大な欠点がある。
これらの欠点の中核となる課題は,言語モデリングの確率と論理的確率の差を特徴とするLM論理的相違である。
論文 参考訳(メタデータ) (2023-05-29T19:48:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。