論文の概要: Can Large Language Models Reinvent Foundational Algorithms?
- arxiv url: http://arxiv.org/abs/2604.05716v1
- Date: Tue, 07 Apr 2026 11:15:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 17:42:09.780502
- Title: Can Large Language Models Reinvent Foundational Algorithms?
- Title(参考訳): 大規模言語モデルは基礎的アルゴリズムを再発明できるか?
- Authors: Jian Zhao, Haoren Luo, Yu Wang, Yuhan Cao, Pingyue Sheng, Tianxing He,
- Abstract要約: LLMはコンピュータ科学の基盤的アルゴリズムを再発明できるか?
textitUnlearn-and-Reinventパイプラインは、LLMアンラーニングを適用して、特定の基礎アルゴリズムを除去し、モデルが制御された環境で再発明できるかどうかをテストする。
10個のターゲットアルゴリズム、3つの強力なオープンウェイトモデル、3つのヒントレベルにおいて、最強モデルであるQwen3-4B-Thinking-2507がヒントなしで50%のアルゴリズムを再発明し、ヒントレベル1で70%、ヒントレベル2で90%を達成できた。
- 参考スコア(独自算出の注目度): 14.986588554815567
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLMs have shown strong potential to advance scientific discovery. Whether they possess the capacity for foundational innovation, however, remains an open question. In this work, we focus on a prerequisite for foundational innovation: can LLMs reinvent foundational algorithms in computer science? Our \textit{Unlearn-and-Reinvent} pipeline applies LLM unlearning to remove a specific foundational algorithm, such as Dijkstra's or Euclid's algorithm, from an LLM's pretrained knowledge, and then tests whether the model can reinvent it in a controlled environment. To enable effective unlearning, we adopt a GRPO-based, on-policy unlearning method. Across 10 target algorithms, 3 strong open-weight models, and 3 hint levels, our experiments demonstrate that (1) the strongest model Qwen3-4B-Thinking-2507 successfully reinvents 50% of the algorithms with no hint, 70% at hint level 1, and 90% at hint level 2; (2) a few high-level hints can enhance the reinvention success rate, but even step-by-step hints fail for those complicated algorithms; and (3) test-time reinforcement learning enables successful reinvention for the Strassen algorithm at hint level 2. Through analyses of output trajectories and ablation studies, we find that generative verifier in the reinvention phase plays a critical role in sustaining models' reasoning strength, helping to avoid the ``thought collapse'' phenomenon. These findings offer insights into both the potential and current limits of LLMs' innovative thinking.
- Abstract(参考訳): LLMは科学的発見を推し進める強い可能性を示している。
しかし、基礎的なイノベーションの能力を持っているかどうかは未解決のままだ。
本研究では,基礎的イノベーションの前提として,LLMがコンピュータ科学の基盤的アルゴリズムを再発明できるのか,という課題に焦点をあてる。
我々の \textit{Unlearn-and-Reinvent} パイプラインは LLM アンラーニングを適用し、Dijkstra や Euclid のアルゴリズムのような特定の基礎アルゴリズムを LLM の事前訓練された知識から取り除き、モデルが制御された環境で再発明できるかどうかをテストする。
効果的なアンラーニングを可能にするために,GRPOをベースとしたオンラインアンラーニング手法を採用した。
実験では,(1)最強モデルであるQwen3-4B-Thinking-2507がヒント無しで50%, ヒントレベル1で70%, ヒントレベル2で90%のアルゴリズムを再発明し, 2) 少数の高レベルヒントは再発明成功率を高めることができるが, ステップバイステップのヒントでさえ複雑なアルゴリズムでは失敗し, (3) テスト時強化学習により, ヒントレベル2でストラッセンアルゴリズムの再発明に成功した。
アウトプット・トラジェクトリの分析とアブレーション・スタディにより、再発明フェーズにおける生成検証はモデルの推論強度を維持する上で重要な役割を担っており、「思考崩壊」現象を避けるのに役立っていることが判明した。
これらの知見は、LLMの革新的思考の可能性と現在の限界に関する洞察を与える。
関連論文リスト
- Nudging the Boundaries of LLM Reasoning [77.26972440427285]
現在のオンライン強化学習アルゴリズムは、モデルに「解決不可能」な問題から学べない。
自己生成ヒントを用いてLLM推論の上界を推し進める「看護」手法であるNuRLを提案する。
NuRLは、テスト時間スケーリングを補完しながら、6つのベンチマークと3つのモデルで一貫した改善を実現している。
論文 参考訳(メタデータ) (2025-09-30T02:01:40Z) - A Survey of Slow Thinking-based Reasoning LLMs using Reinforced Learning and Inference-time Scaling Law [29.763080554625216]
本調査は「スロー思考」を模倣した大規模言語モデル(LLM)の最近の進歩を考察する。
LLMは、数学の推論、視覚的推論、診断、マルチエージェントの議論などの複雑なタスクの間、動的に計算資源をスケーリングすることに焦点を当てている。
論文 参考訳(メタデータ) (2025-05-05T14:14:59Z) - R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。
本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。
提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-03-07T17:14:44Z) - From Decoding to Meta-Generation: Inference-time Algorithms for Large Language Models [63.188607839223046]
この調査は、推論中に計算をスケールするメリットに焦点を当てている。
我々はトークンレベルの生成アルゴリズム、メタジェネレーションアルゴリズム、効率的な生成という3つの領域を統一的な数学的定式化の下で探索する。
論文 参考訳(メタデータ) (2024-06-24T17:45:59Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Algorithm of Thoughts: Enhancing Exploration of Ideas in Large Language Models [17.059322033670124]
本稿では,アルゴリズム的推論経路を通じて大規模言語モデルを促進する新しい手法を提案する。
この結果から,LLMをアルゴリズムを用いて指導すると,アルゴリズム自体よりも性能が向上する可能性が示唆された。
論文 参考訳(メタデータ) (2023-08-20T22:36:23Z) - AutoML-Zero: Evolving Machine Learning Algorithms From Scratch [76.83052807776276]
基本数学的操作をビルディングブロックとして使うだけで,完全な機械学習アルゴリズムを自動的に発見できることが示される。
汎用的な検索空間を通じて人間のバイアスを大幅に低減する新しいフレームワークを導入することでこれを実証する。
機械学習アルゴリズムをゼロから発見する上で、これらの予備的な成功は、この分野における有望な新しい方向性を示していると信じている。
論文 参考訳(メタデータ) (2020-03-06T19:00:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。