論文の概要: Reasoning with Latent Thoughts: On the Power of Looped Transformers
- arxiv url: http://arxiv.org/abs/2502.17416v1
- Date: Mon, 24 Feb 2025 18:49:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:59:25.350560
- Title: Reasoning with Latent Thoughts: On the Power of Looped Transformers
- Title(参考訳): 潜在思想と推論:ループ変換器のパワーについて
- Authors: Nikunj Saunshi, Nishanth Dikkala, Zhiyuan Li, Sanjiv Kumar, Sashank J. Reddi,
- Abstract要約: 多くの合成推論問題に対して、$k$層変換器が$L$倍ループしたことが、$kL$層非ループモデルの性能にほぼ一致することを示す。
ループ型および非ループ型モデルは、その有効深さに依存するスケーリングの挙動を示す。
- 参考スコア(独自算出の注目度): 52.84192961524481
- License:
- Abstract: Large language models have shown remarkable reasoning abilities and scaling laws suggest that large parameter count, especially along the depth axis, is the primary driver. In this work, we make a stronger claim -- many reasoning problems require a large depth but not necessarily many parameters. This unlocks a novel application of looped models for reasoning. Firstly, we show that for many synthetic reasoning problems like addition, $p$-hop induction, and math problems, a $k$-layer transformer looped $L$ times nearly matches the performance of a $kL$-layer non-looped model, and is significantly better than a $k$-layer model. This is further corroborated by theoretical results showing that many such reasoning problems can be solved via iterative algorithms, and thus, can be solved effectively using looped models with nearly optimal depth. Perhaps surprisingly, these benefits also translate to practical settings of language modeling -- on many downstream reasoning tasks, a language model with $k$-layers looped $L$ times can be competitive to, if not better than, a $kL$-layer language model. In fact, our empirical analysis reveals an intriguing phenomenon: looped and non-looped models exhibit scaling behavior that depends on their effective depth, akin to the inference-time scaling of chain-of-thought (CoT) reasoning. We further elucidate the connection to CoT reasoning by proving that looped models implicitly generate latent thoughts and can simulate $T$ steps of CoT with $T$ loops. Inspired by these findings, we also present an interesting dichotomy between reasoning and memorization, and design a looping-based regularization that is effective on both fronts.
- Abstract(参考訳): 大規模言語モデルは、顕著な推論能力を示し、スケーリング法則は、特に深度軸に沿った大きなパラメータ数が主要なドライバであることを示唆している。
この研究において、我々はより強い主張をする -- 多くの推論問題は大きな深さを必要とするが、必ずしも多くのパラメータを必要としない。
これは、推論のためのループモデルの新しい応用を解き放つ。
まず、加算、$p$ホップ誘導、数学問題などの多くの合成推論問題に対して、$k$層変換器が$L$のループをループし、$kL$層非ループモデルの性能とほぼ一致し、$k$層モデルよりもはるかに優れていることを示す。
このことは、多くの推論問題を反復アルゴリズムで解くことができ、ほぼ最適深さのループモデルを用いて効果的に解くことができるという理論的な結果によってさらに裏付けられている。
多くのダウンストリーム推論タスクでは、$k$-layersループした$L$ timesの言語モデルが、$kL$-layer languageモデルよりも優れているとしても、競合する可能性がある。
ループ型および非ループ型モデルは、チェーン・オブ・ソート(CoT)推論の推論時間スケーリングと同様、効果的な深さに依存するスケーリング挙動を示す。
さらに、ループされたモデルが潜在思考を暗黙的に生成し、CoTの$T$ステップを$T$ループでシミュレートできることを証明することで、CoT推論への接続をさらに解明する。
また,これらの知見に触発されて,推論と暗記の間に興味深い二分法を呈し,両面に有効であるループ型正規化を設計した。
関連論文リスト
- When More is Less: Understanding Chain-of-Thought Length in LLMs [53.77747102201451]
CoT推論は大規模言語モデル(LLM)の多段階推論能力を高める
しかし、ほとんどのモデルやタスクでは、CoT長の増加は一貫して推論精度の向上につながりますか?
本稿では, 推論ステップの数が増加するにつれて, 性能は向上するが, 最終的には低下する,というニュアンスな関係を観察する。
論文 参考訳(メタデータ) (2025-02-11T05:28:59Z) - Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach [70.44265766483633]
本稿では,潜在空間における暗黙的推論によるテスト時間計算のスケールアップが可能な,新しい言語モデルアーキテクチャについて検討する。
我々のモデルは繰り返しブロックを繰り返すことで動作し、テスト時に任意の深さに展開する。
結果のモデルが推論ベンチマークの性能を劇的に改善できることが示される。
論文 参考訳(メタデータ) (2025-02-07T18:55:02Z) - The Jumping Reasoning Curve? Tracking the Evolution of Reasoning Performance in GPT-[n] and o-[n] Models on Multimodal Puzzles [29.214813685163218]
OpenAIのo1とo3のリリースは、大規模言語モデルの高度な推論機能へのパラダイムシフトを表している。
GPT-[n] および o-[n] 級数モデルの進化を、挑戦的なマルチモーダルパズル上で追跡する。
o1の優れた性能は、GPT-4oの計算コストの約750倍となり、効率性への懸念が高まった。
論文 参考訳(メタデータ) (2025-02-03T05:47:04Z) - O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning [98.3430004984531]
精度を維持しながら推論オーバーヘッドを最小限に抑えるため,Longth-Harmonizing Fine-Tuning (O1-Pruner)を提案する。
私たちのコードはもうすぐhttps://github.com/StarDewXXX/O1-Pruner.comで公開されます。
論文 参考訳(メタデータ) (2025-01-22T01:35:11Z) - FLARE: Faithful Logic-Aided Reasoning and Exploration [50.9814063216852]
タスク分解を用いて問題空間をトラバースする新しい手法を提案する。
我々はLarge Language Modelsを使ってソリューションを計画し、クエリを事実に軟式化し、論理プログラミングコードを使って述語する。
提案手法は,生成したコードに対する推論プロセスの忠実度を計算し,外部の解法に頼らずにマルチホップ探索のステップを解析する。
論文 参考訳(メタデータ) (2024-10-14T19:39:11Z) - Towards a Theoretical Understanding of the 'Reversal Curse' via Training Dynamics [45.69328374321502]
自動回帰型大言語モデル(LLM)は、多くの複雑な推論タスクを解くのに優れた能力を示す。
LLM は、2つの文が意味的に同一であっても、推論中に '$B get A$' と結論付けることができない。
2つの自己回帰モデルに対する勾配降下のトレーニング力学を用いて、理論的に逆の呪いを解析する。
論文 参考訳(メタデータ) (2024-05-07T21:03:51Z) - Transformers in the Service of Description Logic-based Contexts [2.8210912543324658]
私たちは記述論理言語$mathcalALCQ$を使って自然言語データセットDELTA$_D$を構築します。
教師付き細調整DeBERTaモデルと2つの大言語モデル(GPT-3.5, GPT-4)の推論能力について検討した。
以上の結果から,DeBERTaをベースとしたモデルでは推論タスクをマスターすることができ,少数のサンプルが提供されてもGPTの性能は大幅に向上することが示された。
論文 参考訳(メタデータ) (2023-11-15T13:23:24Z) - Chain of Thought Prompting Elicits Reasoning in Large Language Models [56.811278668446825]
本稿では,コヒーレントな思考連鎖を生成する言語モデルについて考察する。
実験により、プロンプトによって思考の連鎖を誘導することで、十分な大きな言語モデルが推論タスクをよりよく実行できるようになることが示されている。
論文 参考訳(メタデータ) (2022-01-28T02:33:07Z) - Model Interpretability through the Lens of Computational Complexity [1.6631602844999724]
民間の解釈可能性主張が計算複雑性理論に相関しているかどうかを考察する。
線形モデルとツリーモデルの両方がニューラルネットワークよりも厳密に解釈可能であることを示す。
論文 参考訳(メタデータ) (2020-10-23T09:50:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。