論文の概要: Free(): Learning to Forget in Malloc-Only Reasoning Models
- arxiv url: http://arxiv.org/abs/2602.08030v2
- Date: Tue, 10 Feb 2026 05:58:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 15:31:43.033929
- Title: Free(): Learning to Forget in Malloc-Only Reasoning Models
- Title(参考訳): Free():Malloc-Only Reasoning Modelでの学習
- Authors: Yilun Zheng, Dongyang Ma, Tian Liang, Jiahao Xu, Xinting Huang, Lihui Chen, Haitao Mi, Yan Wang,
- Abstract要約: 本稿では,Free-Moduleを介し,本質的な自己鍛造機能を導入するモデルであるFree()LMを提案する。
Free()LMはすべてのモデルスケールで一貫した改善を提供します。
最上位の推論基準よりも平均3.3%向上している。
- 参考スコア(独自算出の注目度): 34.2538961178261
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reasoning models enhance problem-solving by scaling test-time compute, yet they face a critical paradox: excessive thinking tokens often degrade performance rather than improve it. We attribute this to a fundamental architectural flaw: standard LLMs operate as "malloc-only" engines, continuously accumulating valid and redundant steps alike without a mechanism to prune obsolete information. To break this cycle, we propose Free()LM, a model that introduces an intrinsic self-forgetting capability via the Free-Module, a plug-and-play LoRA adapter. By iteratively switching between reasoning and cleaning modes, Free()LM dynamically identifies and prunes useless context chunks, maintaining a compact and noise-free state. Extensive experiments show that Free()LM provides consistent improvements across all model scales (8B to 685B). It achieves a 3.3% average improvement over top-tier reasoning baselines, even establishing a new SOTA on IMOanswerBench using DeepSeek V3.2-Speciale. Most notably, in long-horizon tasks where the standard Qwen3-235B-A22B model suffers a total collapse (0% accuracy), Free()LM restores performance to 50%. Our findings suggest that sustainable intelligence requires the freedom to forget as much as the power to think.
- Abstract(参考訳): 推論モデルはテスト時の計算をスケールすることで問題解決を促進するが、それらは重要なパラドックスに直面している。
標準的なLCMは"マルチロックオンリー"なエンジンとして動作し、古い情報を掘り起こすメカニズムを使わずに、有効で冗長なステップを継続的に蓄積します。
このサイクルを断ち切るために,プラグイン・アンド・プレイのLoRAアダプタであるFree-Moduleを通じて本質的な自己鍛造機能を導入するモデルであるFree()LMを提案する。
推論モードとクリーニングモードを反復的に切り替えることで、Free()LMは、無駄なコンテキストチャンクを動的に識別し、プーンし、コンパクトでノイズのない状態を維持する。
大規模な実験の結果、Free()LMはすべてのモデルスケール(8Bから685B)で一貫した改善を提供することがわかった。
トップクラスの推論ベースラインよりも平均3.3%向上し、DeepSeek V3.2- Speciale を使用して IMOanswerBench 上で SOTA を新たに確立した。
特に、標準のQwen3-235B-A22Bモデルが完全に崩壊(0%の精度)する長期タスクでは、Free()LMは性能を50%まで回復する。
我々の発見は、持続可能な知性は考える力だけを忘れる自由を必要とすることを示唆している。
関連論文リスト
- Breaking Model Lock-in: Cost-Efficient Zero-Shot LLM Routing via a Universal Latent Space [30.65360400232171]
現在のルーティングフレームワークは、徹底的でコストのかかるリトレーニングを必要とし、スケーラビリティと適応性を妨げる。
我々は、このロックインを壊すLSMルーティングの新しいパラダイムであるZeroを紹介します。
提案手法は,モデルのプロファイリングからクエリの特徴を根本的に分離する,クエリの難しさのモデルに依存しない表現である。
論文 参考訳(メタデータ) (2026-01-09T04:03:40Z) - The Erasure Illusion: Stress-Testing the Generalization of LLM Forgetting Evaluation [15.252787015786796]
機械学習は、訓練されたモデルから特定のデータの影響を取り除くことを目的としている。
現在のアンラーニングメトリクスは、特定のアンラーニングデータセットでモデルのパフォーマンス劣化を監視して成功を測定する。
我々は,Large Language Models (LLMs) に対して,この評価パラダイムは不十分であり,誤解を招く可能性があると主張している。
論文 参考訳(メタデータ) (2025-12-22T04:42:41Z) - FreeRet: MLLMs as Training-Free Retrievers [21.04237443940747]
FreeRetは、任意のMLLMを2段階のレトリバーに変換するプラグイン・アンド・プレイフレームワークである。
MMEBとMMEB-V2のベンチマークでは、FreeRetは何百万ものペアでトレーニングされたモデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2025-09-29T11:28:42Z) - Model Collapse Is Not a Bug but a Feature in Machine Unlearning for LLMs [54.167494079321465]
LLMの現在のアンラーニング方法は、それらを微調整データに組み込むことで、削除しようとしているプライベート情報に基づいて最適化されている。
本研究では,未学習目標を学習対象に含まない新しい非学習手法-部分的モデル崩壊(PMC)を提案する。
論文 参考訳(メタデータ) (2025-07-06T03:08:49Z) - RULE: Reinforcement UnLEarning Achieves Forget-Retain Pareto Optimality [24.299312059430704]
Unlearningは、スクラッチからトレーニングしたり、全体的なユーティリティを劣化させたりすることなく、モデルから特定の情報を選択的に削除するタスクである。
既存の手法は、しばしばデータセットを大規模に忘れ、保持し、不自然な応答、一般化の貧弱、破滅的なユーティリティ損失に悩まされる。
本稿では,非学習を拒絶境界最適化問題として定式化する効率的なフレームワークであるReinforcement UnLearning (RULE)を提案する。
論文 参考訳(メタデータ) (2025-06-08T14:38:39Z) - Scalable Best-of-N Selection for Large Language Models via Self-Certainty [75.1351701045874]
Best-of-N selectionは、Large Language Models(LLMs)の推論性能を改善するための重要なテクニックである。
本稿では, LLM出力の固有確率分布を利用して, 外部報酬モデルを必要としない応答品質を推定する, 新規で効率的な指標である自己確実性を提案する。
本研究は, LLM推論能力を向上させるための実用的で効率的な方法として, 自己確実性を確立した。
論文 参考訳(メタデータ) (2025-02-25T19:08:07Z) - S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。
以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文 参考訳(メタデータ) (2025-02-18T13:40:22Z) - SPaR: Self-Play with Tree-Search Refinement to Improve Instruction-Following in Large Language Models [88.29990536278167]
SPaRは、木探索の自己精製を統合して、有効かつ同等な選好ペアを得るセルフプレイフレームワークである。
実験により,SPaRで誘導された3回の反復で訓練されたLLaMA3-8Bモデルが,一般機能を失うことなくIFEvalベンチマークでGPT-4-Turboを上回った。
論文 参考訳(メタデータ) (2024-12-16T09:47:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。