Fugu-MT 論文翻訳(概要): SoS1: O1 and R1-Like Reasoning LLMs are Sum-of-Square Solvers

論文の概要: SoS1: O1 and R1-Like Reasoning LLMs are Sum-of-Square Solvers

arxiv url: http://arxiv.org/abs/2502.20545v1
Date: Thu, 27 Feb 2025 21:41:43 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-03 16:38:45.475628
Title: SoS1: O1 and R1-Like Reasoning LLMs are Sum-of-Square Solvers
Title（参考訳）: SoS1: O1 と R1 のような推論 LLM は正方形の解である
Authors: Kechen Li, Wenqi Zhu, Coralia Cartis, Tianbo Ji, Shiwei Liu,
Abstract要約: 大規模言語モデル(LLM)は多種多様なタスクにまたがって人間レベルの習熟を実現しているが、厳密な数学的問題解決能力は依然としてオープンな課題である。本研究では,与えられた1.8%が非負であるか否かを判定する,基本的な難解な問題について検討する。本研究は, LLMが数学的推論の境界を押し上げ, NP-hard問題に対処する可能性を明らかにするものである。
参考スコア（独自算出の注目度）: 17.326575243638437
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) have achieved human-level proficiency across diverse tasks, but their ability to perform rigorous mathematical problem solving remains an open challenge. In this work, we investigate a fundamental yet computationally intractable problem: determining whether a given multivariate polynomial is nonnegative. This problem, closely related to Hilbert's Seventeenth Problem, plays a crucial role in global polynomial optimization and has applications in various fields. First, we introduce SoS-1K, a meticulously curated dataset of approximately 1,000 polynomials, along with expert-designed reasoning instructions based on five progressively challenging criteria. Evaluating multiple state-of-the-art LLMs, we find that without structured guidance, all models perform only slightly above the random guess baseline 50%. However, high-quality reasoning instructions significantly improve accuracy, boosting performance up to 81%. Furthermore, our 7B model, SoS-7B, fine-tuned on SoS-1K for just 4 hours, outperforms the 671B DeepSeek-V3 and GPT-4o-mini in accuracy while only requiring 1.8% and 5% of the computation time needed for letters, respectively. Our findings highlight the potential of LLMs to push the boundaries of mathematical reasoning and tackle NP-hard problems.
Abstract（参考訳）: 大規模言語モデル(LLM)は多種多様なタスクにまたがって人間レベルの習熟を実現してきたが、厳密な数学的問題解決能力は依然としてオープンな課題である。本研究では,与えられた多変量多項式が非負であるか否かを判定する,基本的だが計算的に難解な問題について検討する。この問題はヒルベルトの17番目の問題と密接に関連しており、大域多項式最適化において重要な役割を果たし、様々な分野で応用されている。まず,約1,000の多項式からなる厳密にキュレートされたデータセットであるSoS-1Kと,5つの段階的な基準に基づく専門家設計の推論命令を紹介する。複数の最先端LCMを評価すると、構造化ガイダンスがなければ、すべてのモデルがランダムな推定基準値の50%以上しか動作しないことがわかった。しかし、高品質な推論命令は精度を大幅に向上し、性能は81%まで向上した。さらに、我々の7BモデルSoS-7Bは、SoS-1K上でわずか4時間微調整され、671BのDeepSeek-V3とGPT-4o-miniより精度が良く、文字に必要な計算時間の1.8%と5%しか必要としない。本研究は, LLMが数学的推論の境界を押し上げ, NP-hard問題に対処する可能性を明らかにするものである。

関連論文リスト

Unleashing the Reasoning Potential of Pre-trained LLMs by Critique Fine-Tuning on One Problem [53.3188041952701]
一つの問題に対する批判的微調整(CFT)は,LLMの推論能力を効果的に解き放つことができることを示す。わずか5回のGPUトレーニングで、Qwen-Math-7B-CFTは6つのベンチマークで平均15%改善、3つのロジック推論ベンチマークで平均16%改善した。結果は20倍の計算量で、RLの結果に匹敵するか、さらに上回っている。
論文参考訳（メタデータ） (2025-06-03T18:35:52Z)
Climbing the Ladder of Reasoning: What LLMs Can-and Still Can't-Solve after SFT? [59.418994222096885]
AIME24データセット上でモデル性能の詳細な解析を行う。我々は質問を4段階(易、中、硬、極度硬)に分類する。我々は,SFT-1Kインスタンスが最小限であるR1推論スタイルを採用する必要があることを見出した。エクレベルの質問は、根本的に異なる課題を示します。
論文参考訳（メタデータ） (2025-04-16T03:39:38Z)
Large Language Models in Numberland: A Quick Test of Their Numerical Reasoning Abilities [0.0]
ナンバーランド(Numberland)は、LSMをベースとしたエージェントの数値推論能力を評価するための100プロブレム試験である。 OpenAIのo1とo1-mini, Google Gemini, Microsoft Copilot, Anthropic Claudeの5つのLDMエージェントを評価した。私たちは25の難しい問題に対してトップ24ソルバ(o1と73%の精度)をテストし、そのスコアは27%に低下し、ボトルネックとして検索を確認しました。
論文参考訳（メタデータ） (2025-03-31T21:06:39Z)
Can 1B LLM Surpass 405B LLM? Rethinking Compute-Optimal Test-Time Scaling [69.57918638435491]
テスト時間スケーリングは、大規模言語モデルの性能を向上させる重要な方法である。異なるポリシーモデル、PRM、問題の難易度にまたがってテスト時間計算をスケールするための最適なアプローチは何か? 計算-最適TS戦略により、非常に小さなポリシーモデルがより大きなモデルより優れていることを示す。
論文参考訳（メタデータ） (2025-02-10T17:30:23Z)
HARP: A challenging human-annotated math reasoning benchmark [7.691786865279827]
本稿では,米国数学コンペティション(A(J)HSME,AMC,AIME,USA(J)MO)の5,409個の問題からなるHARP(Human Annotated Reasoning Problems)を紹介する。そのうち4,780の回答は自動的にチェックできる(SymPyなどのライブラリで)。これらの問題には6つの難易度があり、フロンティアモデルは197の最も難しいブラケット(平均41.1%のo1-mini、9.6%のGemini 1.5 Pro)で比較的性能が劣っている。私たちのデータセットには、複数の選択肢(4,110問題)と、平均2つの人書き文字も備えています。
論文参考訳（メタデータ） (2024-12-11T23:31:06Z)
BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex Instructions [72.56339136017759]
BigCodeBenchは、大規模言語モデル(LLM)に対して、139のライブラリと7つのドメインから1140のきめ細かいタスクに対して、複数の関数呼び出しをツールとして呼び出すためのベンチマークである。評価の結果,LLMは機能コールを正確に使用するための複雑な指示に従うことができず,スコアは最大60%,人的性能は97%と極めて低いことがわかった。そこで本研究では,BigCodeBench-Instructという自然言語指向の変種を提案する。
論文参考訳（メタデータ） (2024-06-22T15:52:04Z)
Navigating the Labyrinth: Evaluating and Enhancing LLMs' Ability to Reason About Search Problems [59.72548591120689]
我々は,11種類の検索問題を含む新しいベンチマークであるSearchBenchを紹介する。もっとも先進的なLCMでさえ、これらの問題をエンドツーエンドのテキストで解決することができないことを示す。 LLMにその問題を解決するコードを生成するように指示することは助けになるが、GPT4のパフォーマンスは11.7%向上した。
論文参考訳（メタデータ） (2024-06-18T00:44:58Z)
Achieving >97% on GSM8K: Deeply Understanding the Problems Makes LLMs Better Solvers for Math Word Problems [50.76385564061713]
CoT(Chain-of-Thought)のプロンプトにより、さまざまな推論タスクにわたるLLM(Large Language Models)のパフォーマンスが向上した。 CoTは通常、セマンティックな誤解エラー、計算エラー、ステップミスという3つの落とし穴に悩まされる。意味的誤解の誤りに対処し,LLMの数学的問題解決能力を改善するために,DUP(Deeply Understanding the Problems)を提案する。
論文参考訳（メタデータ） (2024-04-23T12:16:05Z)
Large Language Models Struggle with Unreasonability in Math Problems [41.970853209666224]
大規模言語モデル(LLM)は、幅広い数学と推論のベンチマークで顕著な成功を収めている。我々は、不合理な数学問題に直面した時にしばしば苦労するのを観察する。我々は,不合理な数学問題文を検出し,応答するLLMの能力を評価するために,textbfUnreasonable Math Problems (UMP)ベンチマークを提案する。
論文参考訳（メタデータ） (2024-03-28T12:04:28Z)
PAL: Program-aided Language Models [112.94785609781503]
自然言語問題を理解するために,プログラム支援言語モデル(PaL)を提案する。 PaLはソリューションステップをPythonインタプリタのようなプログラムランタイムにオフロードする。私たちは12のベンチマークで新しい最先端の結果を設定しました。
論文参考訳（メタデータ） (2022-11-18T18:56:13Z)
Large Language Models are Zero-Shot Reasoners [28.6899375595088]
思考の連鎖(CoT)プロンプトは、ステップバイステップの回答例を通して複雑な多段階推論を引き出す手法である。 LLMは、各回答の前に単に「ステップバイステップ」を追加して、まともなゼロショット推論子であることを示す。実験結果から,同一のプロンプトテンプレートを用いたZero-shot-CoTはゼロショットLLM性能を著しく上回ることがわかった。
論文参考訳（メタデータ） (2022-05-24T09:22:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。