論文の概要: PENCIL: Long Thoughts with Short Memory
- arxiv url: http://arxiv.org/abs/2503.14337v1
- Date: Tue, 18 Mar 2025 15:14:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 14:17:50.534974
- Title: PENCIL: Long Thoughts with Short Memory
- Title(参考訳): PENCIL: メモリ不足の長い考え
- Authors: Chenxiao Yang, Nathan Srebro, David McAllester, Zhiyuan Li,
- Abstract要約: 自己回帰生成プロセスに還元機構を組み込んだPENCILを提案する。
PENCILは生成に必要な最大コンテキスト長を著しく削減する。
我々は,難解なアインシュタインのパズルに対して,PENCILが97%の精度を達成したことを実証する。
- 参考スコア(独自算出の注目度): 34.880226179021996
- License:
- Abstract: While recent works (e.g. o1, DeepSeek R1) have demonstrated great promise of using long Chain-of-Thought (CoT) to improve reasoning capabilities of language models, scaling it up during test-time is challenging due to inefficient memory usage -- intermediate computations accumulate indefinitely in context even no longer needed for future thoughts. We propose PENCIL, which incorporates a reduction mechanism into the autoregressive generation process, allowing the model to recursively clean up intermediate thoughts based on patterns learned from training. With this reduction mechanism, PENCIL significantly reduces the maximal context length required during generation, and thus can generate longer thoughts with limited memory, solving larger-scale problems given more thinking time. For example, we demonstrate PENCIL achieves 97\% accuracy on the challenging Einstein's puzzle -- a task even large models like GPT-4 struggle with -- using only a small 25M-parameter transformer with 2048 context length. Theoretically, we prove PENCIL can perform universal space-efficient computation by simulating Turing machines with optimal time and space complexity, and thus can solve arbitrary computational tasks that would otherwise be intractable given context window constraints.
- Abstract(参考訳): 最近の研究(例:o1、DeepSeek R1)では、言語モデルの推論能力を改善するために長いチェーン・オブ・ソート(CoT)を使用するという大きな可能性を実証している。
本稿では,自己回帰生成プロセスに還元機構を組み込んだPENCILを提案する。
この還元機構により、PENCILは生成時に必要となる最大コンテキスト長を著しく削減し、メモリを制限してより長い思考を生成することができ、思考時間が増えるとより大規模な問題を解くことができる。
例えば、PENCILは、2048コンテキスト長の小さな25Mパラメータ変換器のみを使用して、GPT-4のような大きなモデルで苦労するアインシュタインのパズルの精度を99%向上することを示した。
理論的には、PENCILはチューリングマシンを最適時間と空間の複雑さでシミュレートすることで、普遍的な空間効率の計算が可能であり、従って任意の計算タスクを解くことができる。
関連論文リスト
- When More is Less: Understanding Chain-of-Thought Length in LLMs [53.77747102201451]
CoT推論は大規模言語モデル(LLM)の多段階推論能力を高める
しかし、ほとんどのモデルやタスクでは、CoT長の増加は一貫して推論精度の向上につながりますか?
本稿では, 推論ステップの数が増加するにつれて, 性能は向上するが, 最終的には低下する,というニュアンスな関係を観察する。
論文 参考訳(メタデータ) (2025-02-11T05:28:59Z) - Klotski: Efficient Mixture-of-Expert Inference via Expert-Aware Multi-Batch Pipeline [39.52960562420227]
混合専門家(MoE)は、計算コストを大幅に増加させることなく、数兆のパラメータまで言語モデルのスケーリングを可能にする。
オフロード技術は、メモリをCPUとディスクから利用し、I/Oと計算を並列化する。
Klotskiは、新しいエキスパート対応マルチバッチパイプラインパラダイムを通じて、パイプラインバブルを著しく低減する効率的なMoE推論エンジンである。
論文 参考訳(メタデータ) (2025-02-09T08:47:06Z) - Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs [76.43407125275202]
o1のようなモデルは、推論中に人間のような長時間の思考をエミュレートすることができる。
本論文は,これらのモデルにおける過度な考察の課題に関する,最初の包括的研究である。
精度を損なうことなく、過剰思考を緩和し、推論プロセスを合理化するための戦略を提案する。
論文 参考訳(メタデータ) (2024-12-30T18:55:12Z) - SparseAccelerate: Efficient Long-Context Inference for Mid-Range GPUs [0.0]
SparseAccelerateは動的スパースアテンション手法であり、入力特性に基づいてその疎度パターンを適応する。
実験結果から,SparseAccelerateは最大1.04倍のTTTF遅延を32Kトークンで達成した。
論文 参考訳(メタデータ) (2024-12-09T04:27:03Z) - Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers [58.5711048151424]
SPARSEK Attention(SPARSEK Attention)は、計算およびメモリ障害を克服するために設計された、新しいスパースアテンション機構である。
提案手法では,各クエリに対して一定数のKVペアを選択するために,スコアリングネットワークと差別化可能なトップkマスク演算子であるSPARSEKを統合する。
実験結果から,SPARSEK注意は従来のスパースアテンション法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-24T15:55:59Z) - SCORE: A 1D Reparameterization Technique to Break Bayesian Optimization's Curse of Dimensionality [0.0]
この呪文を破り、高次元景観におけるBOの線形時間複雑性を維持するための1次元再パラメータ化手法が提案されている。
SCOREと呼ばれるこの高速でスケーラブルなアプローチは、大域的に最小のニードル・ア・ヘイスタック最適化関数を見つけることができる。
論文 参考訳(メタデータ) (2024-06-18T14:28:29Z) - Resistive Memory-based Neural Differential Equation Solver for Score-based Diffusion Model [55.116403765330084]
スコアベースの拡散のような現在のAIGC法は、迅速性と効率性の点で依然として不足している。
スコアベース拡散のための時間連続型およびアナログ型インメモリ型ニューラル微分方程式解法を提案する。
我々は180nmの抵抗型メモリインメモリ・コンピューティング・マクロを用いて,我々の解を実験的に検証した。
論文 参考訳(メタデータ) (2024-04-08T16:34:35Z) - End-to-end Algorithm Synthesis with Recurrent Networks: Logical
Extrapolation Without Overthinking [52.05847268235338]
機械学習システムが問題を過度に考えずに論理的外挿を行う方法を示す。
本稿では,問題インスタンスの明示的なコピーをメモリに保持して,それを忘れないようにするリコールアーキテクチャを提案する。
また、モデルが数に固有の行動を学ぶのを防ぎ、無期限に繰り返される行動を学ぶためにモデルをプッシュするプログレッシブトレーニングルーチンも採用しています。
論文 参考訳(メタデータ) (2022-02-11T18:43:28Z) - PAC-learning gains of Turing machines over circuits and neural networks [1.4502611532302039]
私達は最低記述の長さの原則を持って来ることができるサンプル効率の潜在的な利益を研究します。
我々はチューリングマシンを用いて普遍的なモデルと回路を表現する。
回路の複雑さと密接性における古典的オープン問題との密接な関係を浮き彫りにする。
論文 参考訳(メタデータ) (2021-03-23T17:03:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。