論文の概要: PENCIL: Long Thoughts with Short Memory
- arxiv url: http://arxiv.org/abs/2503.14337v1
- Date: Tue, 18 Mar 2025 15:14:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 16:29:13.154671
- Title: PENCIL: Long Thoughts with Short Memory
- Title(参考訳): PENCIL: メモリ不足の長い考え
- Authors: Chenxiao Yang, Nathan Srebro, David McAllester, Zhiyuan Li,
- Abstract要約: 自己回帰生成プロセスに還元機構を組み込んだPENCILを提案する。
PENCILは生成に必要な最大コンテキスト長を著しく削減する。
我々は,難解なアインシュタインのパズルに対して,PENCILが97%の精度を達成したことを実証する。
- 参考スコア(独自算出の注目度): 34.880226179021996
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While recent works (e.g. o1, DeepSeek R1) have demonstrated great promise of using long Chain-of-Thought (CoT) to improve reasoning capabilities of language models, scaling it up during test-time is challenging due to inefficient memory usage -- intermediate computations accumulate indefinitely in context even no longer needed for future thoughts. We propose PENCIL, which incorporates a reduction mechanism into the autoregressive generation process, allowing the model to recursively clean up intermediate thoughts based on patterns learned from training. With this reduction mechanism, PENCIL significantly reduces the maximal context length required during generation, and thus can generate longer thoughts with limited memory, solving larger-scale problems given more thinking time. For example, we demonstrate PENCIL achieves 97\% accuracy on the challenging Einstein's puzzle -- a task even large models like GPT-4 struggle with -- using only a small 25M-parameter transformer with 2048 context length. Theoretically, we prove PENCIL can perform universal space-efficient computation by simulating Turing machines with optimal time and space complexity, and thus can solve arbitrary computational tasks that would otherwise be intractable given context window constraints.
- Abstract(参考訳): 最近の研究(例:o1、DeepSeek R1)では、言語モデルの推論能力を改善するために長いチェーン・オブ・ソート(CoT)を使用するという大きな可能性を実証している。
本稿では,自己回帰生成プロセスに還元機構を組み込んだPENCILを提案する。
この還元機構により、PENCILは生成時に必要となる最大コンテキスト長を著しく削減し、メモリを制限してより長い思考を生成することができ、思考時間が増えるとより大規模な問題を解くことができる。
例えば、PENCILは、2048コンテキスト長の小さな25Mパラメータ変換器のみを使用して、GPT-4のような大きなモデルで苦労するアインシュタインのパズルの精度を99%向上することを示した。
理論的には、PENCILはチューリングマシンを最適時間と空間の複雑さでシミュレートすることで、普遍的な空間効率の計算が可能であり、従って任意の計算タスクを解くことができる。
関連論文リスト
- Z1: Efficient Test-time Scaling with Code [26.374317704720234]
大規模言語モデル(LLM)は、テスト時間コンピューティングのスケーリングを通じて、複雑な問題解決を実現することができる。
本稿では,LLMをコード関連推論軌道上で学習する効率的なテスト時間スケーリング手法を提案する。
オーバヘッドを過度に考慮する新しいシフトドシンキングウィンドウを提案する。
論文 参考訳(メタデータ) (2025-04-01T14:01:50Z) - InftyThink: Breaking the Length Limits of Long-Context Reasoning in Large Language Models [44.86868676444545]
InftyThinkは、モノリシック推論を中間的な要約を伴う反復的なプロセスに変換するパラダイムである。
本手法では, 計算コストを抑えながら, 推理深度を推定できる。
論文 参考訳(メタデータ) (2025-03-09T16:59:14Z) - DAST: Difficulty-Adaptive Slow-Thinking for Large Reasoning Models [31.189242663680695]
本稿では,問題の難易度に基づいて,モデルがチェーン・オブ・ソート(CoT)の長さを自律的に調整できる新しいフレームワークであるDASTを紹介する。
多様なデータセットとモデルスケールの実験により、DASTは複雑な問題に対する推論精度を維持しながら、過剰思考を効果的に軽減することを示した。
論文 参考訳(メタデータ) (2025-03-06T14:23:06Z) - LightThinker: Thinking Step-by-Step Compression [53.8069487638972]
提案するLightThinkerは,大規模言語モデルを用いて推論中の中間的思考を動的に圧縮する手法である。
人間の認知プロセスにインスパイアされたLightThinkerは、思考ステップをコンパクトな表現に圧縮し、元の推論チェーンを捨てる。
実験によると、LightThinkerは競合精度を維持しながら、ピークメモリ使用量と推論時間を短縮する。
論文 参考訳(メタデータ) (2025-02-21T16:57:22Z) - Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs [76.43407125275202]
o1のようなモデルは、推論中に人間のような長時間の思考をエミュレートすることができる。
本論文は,これらのモデルにおける過度な考察の課題に関する,最初の包括的研究である。
精度を損なうことなく、過剰思考を緩和し、推論プロセスを合理化するための戦略を提案する。
論文 参考訳(メタデータ) (2024-12-30T18:55:12Z) - Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers [58.5711048151424]
SPARSEK Attention(SPARSEK Attention)は、計算およびメモリ障害を克服するために設計された、新しいスパースアテンション機構である。
提案手法では,各クエリに対して一定数のKVペアを選択するために,スコアリングネットワークと差別化可能なトップkマスク演算子であるSPARSEKを統合する。
実験結果から,SPARSEK注意は従来のスパースアテンション法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-24T15:55:59Z) - Resistive Memory-based Neural Differential Equation Solver for Score-based Diffusion Model [55.116403765330084]
スコアベースの拡散のような現在のAIGC法は、迅速性と効率性の点で依然として不足している。
スコアベース拡散のための時間連続型およびアナログ型インメモリ型ニューラル微分方程式解法を提案する。
我々は180nmの抵抗型メモリインメモリ・コンピューティング・マクロを用いて,我々の解を実験的に検証した。
論文 参考訳(メタデータ) (2024-04-08T16:34:35Z) - End-to-end Algorithm Synthesis with Recurrent Networks: Logical
Extrapolation Without Overthinking [52.05847268235338]
機械学習システムが問題を過度に考えずに論理的外挿を行う方法を示す。
本稿では,問題インスタンスの明示的なコピーをメモリに保持して,それを忘れないようにするリコールアーキテクチャを提案する。
また、モデルが数に固有の行動を学ぶのを防ぎ、無期限に繰り返される行動を学ぶためにモデルをプッシュするプログレッシブトレーニングルーチンも採用しています。
論文 参考訳(メタデータ) (2022-02-11T18:43:28Z) - PAC-learning gains of Turing machines over circuits and neural networks [1.4502611532302039]
私達は最低記述の長さの原則を持って来ることができるサンプル効率の潜在的な利益を研究します。
我々はチューリングマシンを用いて普遍的なモデルと回路を表現する。
回路の複雑さと密接性における古典的オープン問題との密接な関係を浮き彫りにする。
論文 参考訳(メタデータ) (2021-03-23T17:03:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。