論文の概要: How LLMs Learn to Reason: A Complex Network Perspective
- arxiv url: http://arxiv.org/abs/2509.23629v1
- Date: Sun, 28 Sep 2025 04:10:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.337603
- Title: How LLMs Learn to Reason: A Complex Network Perspective
- Title(参考訳): LLMはどのように推論を学ぶか - 複雑なネットワークの視点
- Authors: Sihan Hu, Xiansheng Cai, Yuan Huang, Zhiyuan Yao, Linfeng Zhang, Pan Zhang, Youjin Deng, Kun Chen,
- Abstract要約: Reinforcement Learning from Verifiable Rewards による大規模言語モデルのトレーニングは、突飛な振る舞いのセットを示している。
この現象は単一統一理論を用いて説明できると考えられる。
私たちの研究は、将来のAIシステムの創発的な推論能力をエンジニアリングするための新しい物理的直感を提供します。
- 参考スコア(独自算出の注目度): 14.638878448692493
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training large language models with Reinforcement Learning from Verifiable Rewards (RLVR) exhibits a set of distinctive and puzzling behaviors that remain poorly understood, including a two-stage learning curve, V-shaped response-length trajectories, and a pronounced vulnerability to catastrophic forgetting. In this work, we propose that these seemingly disparate phenomena can be explained using a single unifying theory: the model's reasoning process maps to the self-organization of a semantic complex network whose topology remains persistently sparse, with the average degree pinned close to two. This topology imposes a fundamental mechanism for forgetting and learning: it first drives the system into a maximally frustrated state where ``skill islands'' form, slow-learning happens, and forgetting is induced; then it enters a sharp growth phase where the new skills are ``bolted on'', driven by phase-transition-like learning at the web's frontier. Equipped with the theory, we propose \textit{Annealed-RLVR}, a principled algorithm that introduces an SFT-based ``heating'' step at the point of maximal frustration to resolve the competitive bottleneck and enhance the reasoning capability of the model. Experiments on a 1.5B-parameter model demonstrate that the approach outperforms standard RLVR on both in-distribution and out-of-distribution benchmarks. By recasting RLVR from black-box optimization into a predictable process of structural self-organization, our work provides a new physical intuition for engineering the emergent reasoning capabilities of future AI systems.
- Abstract(参考訳): Reinforcement Learning from Verifiable Rewards (RLVR) を用いた大規模言語モデルのトレーニングでは、2段階の学習曲線、V字型の応答長軌跡、破滅的な忘れ方に対する顕著な脆弱性など、未理解のままの独特でファズリングな行動のセットが示されている。
モデルの推論過程は、トポロジが持続的に疎いセマンティック・コンプレックス・ネットワークの自己組織化にマップされ、平均等級は2に近く固定される。
このトポロジは、まずシステムを「スキルアイランド」の形に極端にフラストレーションのある状態に駆り立て、スローラーニングが起こって、忘れが引き起こされる、という基本的なメカニズムを課し、その後、Webのフロンティアにおけるフェーズ遷移のような学習によって、新しいスキルが「ボールドオン」された急激な成長段階に入る。
この理論を応用して,SFTに基づく「熱」ステップを最大フラストレーション点に導入し,競合ボトルネックを解消し,モデルの推論能力を向上する原理的アルゴリズムである「textit{Annealed-RLVR}」を提案する。
1.5Bパラメータモデルによる実験では、この手法は分布内および分布外ベンチマークの両方において標準RLVRよりも優れていた。
ブラックボックス最適化から構造的自己組織化の予測可能なプロセスにRLVRをリキャストすることで、我々の研究は、将来のAIシステムの創発的推論能力をエンジニアリングするための新しい物理的直感を提供する。
関連論文リスト
- KPFlow: An Operator Perspective on Dynamic Collapse Under Gradient Descent Training of Recurrent Networks [9.512147747894026]
勾配流を2つの作用素を含む積に分解する方法を示す。
それらの相互作用がGDの下での低次元潜在力学にどのように影響するかを示す。
マルチタスクトレーニングでは,各サブタスクの目的がどのように一致しているかを演算子を用いて測定できることが示される。
論文 参考訳(メタデータ) (2025-07-08T20:33:15Z) - SimpleGVR: A Simple Baseline for Latent-Cascaded Video Super-Resolution [46.311223206965934]
後続の超解像モデルの設計原理について検討し,その設計原理について検討する。
まず、ベースモデルの出力特性をよりよく模倣し、VSRモデルと上流ジェネレータとの整合性を確保するための2つのトレーニングペアを生成する方法を提案する。
第2に,(1)時間ステップサンプリング戦略,(2)低分解能(LR)入力に対する雑音増強効果の系統的解析を通じて,VSRモデル行動に対する批判的洞察を提供する。
論文 参考訳(メタデータ) (2025-06-24T17:57:26Z) - Reshaping Reasoning in LLMs: A Theoretical Analysis of RL Training Dynamics through Pattern Selection [35.268183415853976]
本稿では,実験解析と厳密な理論的モデリングによるRL学習プロセスの説明を行う。
我々は、報酬(RLVR)とモデルの内部フィードバック(RLIF)という2つの典型的な報酬を用いて、RLのトレーニングダイナミクスを理解するための理論的枠組みを開発する。
論文 参考訳(メタデータ) (2025-06-05T07:17:04Z) - A ghost mechanism: An analytical model of abrupt learning [6.509233267425589]
一次元のシステムでさえ、分岐よりもゴーストポイントを通して突然学習できることを示す。
本モデルは,突発学習のための分岐のない機構を明らかにし,学習力学の安定化における意図的不確実性と冗長性の両方の重要性を示す。
論文 参考訳(メタデータ) (2025-01-04T20:49:20Z) - Deep Learning Through A Telescoping Lens: A Simple Model Provides Empirical Insights On Grokking, Gradient Boosting & Beyond [61.18736646013446]
その驚くべき振る舞いをより深く理解するために、トレーニングされたニューラルネットワークの単純かつ正確なモデルの有用性について検討する。
3つのケーススタディで、様々な顕著な現象に関する新しい経験的洞察を導き出すためにどのように適用できるかを説明します。
論文 参考訳(メタデータ) (2024-10-31T22:54:34Z) - Proof Flow: Preliminary Study on Generative Flow Network Language Model Tuning for Formal Reasoning [11.268313729426627]
本稿では,形式的推論の領域,特にニューラル定理証明設定における概念実証について述べる。
古典的な報酬最大化強化学習とは異なり、GFlowNetsは合成対象をサンプリングするための有望なアプローチとして登場した。
我々の初期の結果は、GFlowNetが検索環境におけるモデル性能を向上させる可能性を示している。
論文 参考訳(メタデータ) (2024-10-17T05:10:12Z) - Harnessing Neural Unit Dynamics for Effective and Scalable Class-Incremental Learning [38.09011520275557]
クラスインクリメンタルラーニング(Class-incremental Learning, CIL)は、古いクラスを忘れずに、非定常データストリームから新しいクラスを学ぶためのモデルをトレーニングすることを目的としている。
本稿では、ニューラルネットワークの動作をCILに適応させるニューラルネットワークユニットダイナミクスを調整し、新しい種類のコネクショナリストモデルを提案する。
論文 参考訳(メタデータ) (2024-06-04T15:47:03Z) - Deep learning applied to computational mechanics: A comprehensive
review, state of the art, and the classics [77.34726150561087]
人工知能,特に深層学習(DL)の最近の進歩を概観する。
ハイブリッドおよび純粋機械学習(ML)の手法について論じる。
AIの歴史と限界は、特に古典の誤解や誤解を指摘し、議論され、議論される。
論文 参考訳(メタデータ) (2022-12-18T02:03:00Z) - An Ode to an ODE [78.97367880223254]
我々は、O(d) 群上の行列フローに応じて主フローの時間依存パラメータが進化する ODEtoODE と呼ばれるニューラルODE アルゴリズムの新しいパラダイムを提案する。
この2つの流れのネストされたシステムは、訓練の安定性と有効性を提供し、勾配の消滅・爆発問題を確実に解決する。
論文 参考訳(メタデータ) (2020-06-19T22:05:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。