Fugu-MT 論文翻訳(概要): LIMO: Less is More for Reasoning

論文の概要: LIMO: Less is More for Reasoning

arxiv url: http://arxiv.org/abs/2502.03387v3
Date: Tue, 29 Jul 2025 16:23:02 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-30 12:52:36.795949
Title: LIMO: Less is More for Reasoning
Title（参考訳）: LIMO: 推論にはあまり役に立たない
Authors: Yixin Ye, Zhen Huang, Yang Xiao, Ethan Chern, Shijie Xia, Pengfei Liu,
Abstract要約: 数例の例で、洗練された数学的推論が実現可能であることを実証する。 LIMOはAIME24では63.3%,MATH500では95.6%の精度を実現している。 LIMOは、様々なベンチマークで45.8%の絶対的な改善を実現している。
参考スコア（独自算出の注目度）: 23.312893016642096
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We challenge the prevailing assumption that complex reasoning in large language models (LLMs) necessitates massive training data. We demonstrate that sophisticated mathematical reasoning can emerge with only a few examples. Specifically, through simple supervised fine-tuning, our model, LIMO, achieves 63.3\% accuracy on AIME24 and 95.6\% on MATH500, surpassing previous fine-tuned models (6.5\% on AIME24, 59.2\% on MATH500) while using only 1\% of the training data required by prior approaches. Furthermore, LIMO exhibits strong out-of-distribution generalization, achieving a 45.8\% absolute improvement across diverse benchmarks, outperforming models trained on 100x more data. Synthesizing these findings, we propose the Less-Is-More Reasoning Hypothesis (LIMO Hypothesis): In foundation models where domain knowledge has been comprehensively encoded during pre-training, sophisticated reasoning can emerge through minimal but strategically designed demonstrations of cognitive processes. This hypothesis suggests that the threshold for eliciting complex reasoning is not dictated by task complexity but rather by two key factors: (1) the completeness of the model's pre-trained knowledge base and (2) the effectiveness of post-training examples in serving as "cognitive templates" that guide reasoning.
Abstract（参考訳）: 我々は,大規模言語モデル (LLM) における複雑な推論が大規模な学習データを必要とするという仮定に挑戦する。数例の例で、洗練された数学的推論が現れることを実証する。具体的には、単純な教師付き微調整により、従来の微調整モデル(MATH500では6.5\%、MATH500では59.2\%)を上回り、AIME24では63.3\%、MATH500では95.6\%となる。さらに、LIMOは分散の強い一般化を示し、様々なベンチマークで45.8倍の絶対的な改善を実現し、100倍のデータでトレーニングされたモデルよりも優れています。これらの知見を合成し,Lase-Is-More Reasoning hypothesis (LIMO仮説)を提案する。この仮説は、複雑な推論を引き出すためのしきい値は、タスクの複雑さではなく、(1)モデルの事前学習された知識基盤の完全性、(2)推論を導く「認知テンプレート」として機能するための後学習例の有効性の2つの主要な要因によって規定されていることを示唆している。

関連論文リスト

From Abstract to Contextual: What LLMs Still Cannot Do in Mathematics [79.81905350372067]
我々は文脈的数学的推論を通してギャップを研究する。 AIMEとMATH-500の問題を2つのコンテキスト設定に再利用するベンチマークであるContextMATHを紹介する。オープンソースモデルはSGとCSで13、34ポイント減少し、プロプライエタリモデルは13、20ポイント減少している。
論文参考訳（メタデータ） (2026-01-30T14:56:04Z)
Logit Arithmetic Elicits Long Reasoning Capabilities Without Training [14.015546463427732]
大きな推論モデル(LRM)は、バックトラックや自己補正といった認知戦略を含む長いチェーン・オブ・シント(CoT)を介して複雑な推論を行うことができる。最近の研究は、いくつかのモデルは本質的にこれらの長い推論能力を持ち、余分な訓練によって解錠される可能性があることを示唆している。本稿では,より小さなモデルをガイドとして,目標とする大規模LMを長時間の推論のために調整するための復号時間アプローチであるThinkLogitを提案する。
論文参考訳（メタデータ） (2025-07-17T03:31:36Z)
Scaling Reasoning can Improve Factuality in Large Language Models [7.184302333801519]
複雑なオープンドメイン質問応答(QA)シナリオにおいて,大規模言語モデル(LLM)の推論を徹底的に検討する。推論トレースを豊かにするために、我々は知識グラフからの事実情報を、推論トレースへの経路の形で導入する。本研究は,1回の動作において,より小さな推論モデルにより,従来の命令調整モデルと比較して,実際の精度が顕著に向上することが示唆された。
論文参考訳（メタデータ） (2025-05-16T11:39:33Z)
Climbing the Ladder of Reasoning: What LLMs Can-and Still Can't-Solve after SFT? [59.418994222096885]
AIME24データセット上でモデル性能の詳細な解析を行う。我々は質問を4段階(易、中、硬、極度硬)に分類する。我々は,SFT-1Kインスタンスが最小限であるR1推論スタイルを採用する必要があることを見出した。エクレベルの質問は、根本的に異なる課題を示します。
論文参考訳（メタデータ） (2025-04-16T03:39:38Z)
How Difficulty-Aware Staged Reinforcement Learning Enhances LLMs' Reasoning Capabilities: A Preliminary Experimental Study [16.441081996257576]
本稿では,難易度の高い強化学習戦略が推論性能を大幅に向上させる方法について,厳密な実験的検討を行った。本研究は,RLの最適化を著しく向上させることを特徴とする,明確な難易度に応じて,戦略的にトレーニングデータを選択することを示す。私たちはデータセットをGitHubとHugging Faceでオープンソース化します。
論文参考訳（メタデータ） (2025-04-01T14:18:38Z)
Proof or Bluff? Evaluating LLMs on 2025 USA Math Olympiad [0.8030359871216614]
我々は2025年のUSAMOの6つの問題に対して、最先端の推論モデルを評価する。 Gemini-2.5-Proのみが25%という非自明なスコアを達成している。以上の結果から,現在のLLMは厳密な数学的推論作業には不十分であることが示唆された。
論文参考訳（メタデータ） (2025-03-27T19:21:05Z)
The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。 UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文参考訳（メタデータ） (2025-03-04T18:56:03Z)
Graph-Augmented Reasoning: Evolving Step-by-Step Knowledge Graph Retrieval for LLM Reasoning [55.6623318085391]
最近の大規模言語モデル(LLM)推論は、限られたドメイン知識、幻覚への感受性、制約された推論深さに悩まされている。本稿では、ステップワイズ知識グラフ検索とステップワイズ推論の統合に関する最初の研究について述べる。本稿では,プロセス指向の知識グラフ構築を中心としたフレームワークであるKG-RAR,階層的検索戦略,検索後処理と報酬モデルを提案する。
論文参考訳（メタデータ） (2025-03-03T15:20:41Z)
LIMR: Less is More for RL Scaling [25.477841726836836]
学習影響測定(Learning Impact Measurement, LIM)は, 学習サンプルを評価・優先順位付けする自動手法である。提案手法は,1,389個のサンプルと8,523個のサンプルの完全なデータセットとを比較して,同等あるいは優れた性能を実現する。再現可能な研究と今後のイノベーションのために、LIMRをオープンソース化しています。LIMRの実装、トレーニングと評価コード、キュレートされたデータセット、トレーニングされたモデルなどです。
論文参考訳（メタデータ） (2025-02-17T15:13:29Z)
Exploring the Limit of Outcome Reward for Learning Mathematical Reasoning [65.2421542320293]
推論能力は汎用知能の重要な構成要素である。 OpenAIのoシリーズモデルなどのプロプライエタリ企業による最近の進歩は、推論タスクに顕著な進歩をもたらした。本稿では、数学的推論タスクのための textbfOutcome textbfREwtextbfArd ベースの強化 textbfLearning により達成できる性能限界を追求する新しい RL フレームワーク OREAL を提案する。
論文参考訳（メタデータ） (2025-02-10T18:57:29Z)
Self-supervised Analogical Learning using Language Models [59.64260218737556]
自己教師型アナログ学習フレームワークであるSALを提案する。 SALは人間の類推過程を模倣し、高品質な記号解を明示的に伝達するようモデルを訓練する。得られたモデルは、幅広い推論ベンチマークでベース言語モデルより優れていることを示す。
論文参考訳（メタデータ） (2025-02-03T02:31:26Z)
Advancing Language Model Reasoning through Reinforcement Learning and Inference Scaling [52.34735382627312]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な能力を示した。既存のアプローチは主に、効果的なテストタイムスケーリングを達成するために、模倣学習と苦労に依存しています。我々は、探索を奨励し、推論スケーリングを理解することで、強化学習をスケールするためにT1を提案する。
論文参考訳（メタデータ） (2025-01-20T18:33:33Z)
Patience Is The Key to Large Language Model Reasoning [0.0]
そこで我々は,モデルに患者推論スタイルを採用することを奨励する簡単な方法を提案する。我々は、肯定的な例として詳細な推論プロセス、否定的な例として単純な回答を生成し、その結果、その反応の完全性を支持するようにモデルを訓練する。この結果から,軽量データセット上でのトレーニングにより,GSM8kのパフォーマンスは最大2.1%向上した。
論文参考訳（メタデータ） (2024-11-20T07:20:48Z)
What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文参考訳（メタデータ） (2024-11-12T09:52:40Z)
Common 7B Language Models Already Possess Strong Math Capabilities [61.61442513067561]
本稿では,LLaMA-2 7Bモデルと事前学習を併用したモデルが,すでに強力な数学的能力を示していることを示す。拡張スケーリングの可能性は、公開されている数学の質問の不足によって制限されている。
論文参考訳（メタデータ） (2024-03-07T18:00:40Z)
Enhancing Numerical Reasoning with the Guidance of Reliable Reasoning Processes [55.2326738851157]
Enhancing NumeriCal reasOning with Reliable procEsses (Encore)を導入する。我々は、モデルが合成データを用いて推論プロセスの生成を学習するのに役立つ一連の事前学習タスクを提案する。実験の結果、Encoreは平均1.8%の5つの実験データセットに改善をもたらすことが示された。
論文参考訳（メタデータ） (2024-02-16T13:02:11Z)
Learn to Accumulate Evidence from All Training Samples: Theory and Practice [7.257751371276488]
Evidential Deep Learningは、決定論的ニューラルネットワークの不確実性を認識するための、原則的かつ計算的に効率的な方法を提供する。既存の明らかなアクティベーション関数はゼロエビデンス領域を生成するため、モデルがそのような領域に落ちてくるトレーニングサンプルから学ぶことができない。我々の理論的基盤に基づく顕在的活性化関数のより深い分析は、新しい正則化器の設計を刺激する。
論文参考訳（メタデータ） (2023-06-19T18:27:12Z)
LIMA: Less Is More for Alignment [112.93890201395477]
65B パラメータ LLaMa 言語モデル LIMA のトレーニングを行う。 LIMAは、非常に強力なパフォーマンスを示し、少数の例から特定のレスポンスフォーマットに従うことを学ぶ。制御されたヒトの研究では、LIMAからの反応は43%の症例において、GPT-4に等しいか、厳格に好まれる。
論文参考訳（メタデータ） (2023-05-18T17:45:22Z)
Logic-Guided Data Augmentation and Regularization for Consistent Question Answering [55.05667583529711]
本稿では,比較質問に対する応答の精度と整合性を改善する問題に対処する。提案手法は論理的および言語的知識を利用してラベル付きトレーニングデータを増強し,一貫性に基づく正規化器を用いてモデルを訓練する。
論文参考訳（メタデータ） (2020-04-21T17:03:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。