Fugu-MT 論文翻訳(概要): Reasoning with Latent Thoughts: On the Power of Looped Transformers

論文の概要: Reasoning with Latent Thoughts: On the Power of Looped Transformers

arxiv url: http://arxiv.org/abs/2502.17416v1
Date: Mon, 24 Feb 2025 18:49:05 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-25 22:36:56.729259
Title: Reasoning with Latent Thoughts: On the Power of Looped Transformers
Title（参考訳）: 潜在思想と推論:ループ変換器のパワーについて
Authors: Nikunj Saunshi, Nishanth Dikkala, Zhiyuan Li, Sanjiv Kumar, Sashank J. Reddi,
Abstract要約: 多くの合成推論問題に対して、$k$層変換器が$L$倍ループしたことが、$kL$層非ループモデルの性能にほぼ一致することを示す。ループ型および非ループ型モデルは、その有効深さに依存するスケーリングの挙動を示す。
参考スコア（独自算出の注目度）: 52.84192961524481
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models have shown remarkable reasoning abilities and scaling laws suggest that large parameter count, especially along the depth axis, is the primary driver. In this work, we make a stronger claim -- many reasoning problems require a large depth but not necessarily many parameters. This unlocks a novel application of looped models for reasoning. Firstly, we show that for many synthetic reasoning problems like addition, $p$-hop induction, and math problems, a $k$-layer transformer looped $L$ times nearly matches the performance of a $kL$-layer non-looped model, and is significantly better than a $k$-layer model. This is further corroborated by theoretical results showing that many such reasoning problems can be solved via iterative algorithms, and thus, can be solved effectively using looped models with nearly optimal depth. Perhaps surprisingly, these benefits also translate to practical settings of language modeling -- on many downstream reasoning tasks, a language model with $k$-layers looped $L$ times can be competitive to, if not better than, a $kL$-layer language model. In fact, our empirical analysis reveals an intriguing phenomenon: looped and non-looped models exhibit scaling behavior that depends on their effective depth, akin to the inference-time scaling of chain-of-thought (CoT) reasoning. We further elucidate the connection to CoT reasoning by proving that looped models implicitly generate latent thoughts and can simulate $T$ steps of CoT with $T$ loops. Inspired by these findings, we also present an interesting dichotomy between reasoning and memorization, and design a looping-based regularization that is effective on both fronts.
Abstract（参考訳）: 大規模言語モデルは、顕著な推論能力を示し、スケーリング法則は、特に深度軸に沿った大きなパラメータ数が主要なドライバであることを示唆している。この研究において、我々はより強い主張をする -- 多くの推論問題は大きな深さを必要とするが、必ずしも多くのパラメータを必要としない。これは、推論のためのループモデルの新しい応用を解き放つ。まず、加算、$p$ホップ誘導、数学問題などの多くの合成推論問題に対して、$k$層変換器が$L$のループをループし、$kL$層非ループモデルの性能とほぼ一致し、$k$層モデルよりもはるかに優れていることを示す。このことは、多くの推論問題を反復アルゴリズムで解くことができ、ほぼ最適深さのループモデルを用いて効果的に解くことができるという理論的な結果によってさらに裏付けられている。多くのダウンストリーム推論タスクでは、$k$-layersループした$L$ timesの言語モデルが、$kL$-layer languageモデルよりも優れているとしても、競合する可能性がある。ループ型および非ループ型モデルは、チェーン・オブ・ソート(CoT)推論の推論時間スケーリングと同様、効果的な深さに依存するスケーリング挙動を示す。さらに、ループされたモデルが潜在思考を暗黙的に生成し、CoTの$T$ステップを$T$ループでシミュレートできることを証明することで、CoT推論への接続をさらに解明する。また,これらの知見に触発されて,推論と暗記の間に興味深い二分法を呈し,両面に有効であるループ型正規化を設計した。

関連論文リスト

The Challenge of Teaching Reasoning to LLMs Without RL or Distillation [31.973226821366325]
推論可能な言語モデルは、長く明示的なChain-of-Thoughtトレースを生成することで、様々な複雑なタスクにおいて最先端のパフォーマンスを達成する。我々は、プロンプトや最小限のチューニングのみを用いて、ベースモデルでCoTを誘導できるかどうかを問う。結果として得られたモデルは、はるかに大きなtexttQwen2.5-Math-72B-Instruct よりも優れており、いくつかの高品質な例が強力な推論能力を解き放つ可能性があることを示している。
論文参考訳（メタデータ） (2025-07-14T01:14:50Z)
Latent Chain-of-Thought? Decoding the Depth-Recurrent Transformer [0.0]
CoT(Chain-of- Thought)推論は、トランスフォーマーベースの言語モデルで複雑な数学や多段階計画に優れる。標準的なデコーダのみのアーキテクチャでは、これらの推論ステップは自然言語で外部化され、効率を犠牲にして解釈性を向上させる。パラメータ数の増加を伴わずに推論時に層を再利用する深度再帰変換器である Huginn-3.5B にそのような推論構造が出現するかどうかを検討する。
論文参考訳（メタデータ） (2025-07-02T23:35:21Z)
Language models can learn implicit multi-hop reasoning, but only if they have lots of training data [51.92147944576878]
暗黙の推論は、言語モデルが単一のフォワードパスでマルチホップ推論タスクを解く能力である。このようなモデルでは暗黙的な$k$-hop推論を学べるが、必要なトレーニングデータは$k$で指数関数的に増加する。
論文参考訳（メタデータ） (2025-05-23T14:01:56Z)
Do Larger Language Models Imply Better Reasoning? A Pretraining Scaling Law for Reasoning [89.17086632436363]
本研究では,実世界の大規模知識グラフの構造と分布を再現する合成マルチホップ推論環境を提案する。我々の推論タスクは、グラフの欠落したエッジを補完することであり、これは高度なマルチホップ推論を必要とし、現実世界の推論シナリオを模倣する。特定の知識グラフに対して最適なモデルサイズを予測するために,知識グラフ探索エントロピーを最適モデルサイズに線形にマッピングする経験的スケーリングを求める。
論文参考訳（メタデータ） (2025-04-04T17:57:22Z)
Unveiling Reasoning Thresholds in Language Models: Scaling, Fine-Tuning, and Interpretability through Attention Maps [3.8936716676293917]
本研究では,異なるモデルサイズと訓練データを持つデコーダのみの変換言語モデルのコンテキスト内学習能力について検討する。我々は,複数の質問応答におけるコモンセンス推論や帰納的推論といったタスクにおいて,推論性能が著しく向上する重要なパラメータしきい値(160億)を同定する。
論文参考訳（メタデータ） (2025-02-21T00:48:32Z)
When More is Less: Understanding Chain-of-Thought Length in LLMs [53.77747102201451]
CoT推論は大規模言語モデル(LLM)の多段階推論能力を高めるしかし、ほとんどのモデルやタスクでは、CoT長の増加は一貫して推論精度の向上につながりますか? 本稿では, 推論ステップの数が増加するにつれて, 性能は向上するが, 最終的には低下する,というニュアンスな関係を観察する。
論文参考訳（メタデータ） (2025-02-11T05:28:59Z)
Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach [70.44265766483633]
本稿では,潜在空間における暗黙的推論によるテスト時間計算のスケールアップが可能な,新しい言語モデルアーキテクチャについて検討する。我々のモデルは繰り返しブロックを繰り返すことで動作し、テスト時に任意の深さに展開する。結果のモデルが推論ベンチマークの性能を劇的に改善できることが示される。
論文参考訳（メタデータ） (2025-02-07T18:55:02Z)
The Jumping Reasoning Curve? Tracking the Evolution of Reasoning Performance in GPT-[n] and o-[n] Models on Multimodal Puzzles [29.214813685163218]
OpenAIのo1とo3のリリースは、大規模言語モデルの高度な推論機能へのパラダイムシフトを表している。 GPT-[n] および o-[n] 級数モデルの進化を、挑戦的なマルチモーダルパズル上で追跡する。 o1の優れた性能は、GPT-4oの計算コストの約750倍となり、効率性への懸念が高まった。
論文参考訳（メタデータ） (2025-02-03T05:47:04Z)
O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning [98.3430004984531]
精度を維持しながら推論オーバーヘッドを最小限に抑えるため,Longth-Harmonizing Fine-Tuning (O1-Pruner)を提案する。私たちのコードはもうすぐhttps://github.com/StarDewXXX/O1-Pruner.comで公開されます。
論文参考訳（メタデータ） (2025-01-22T01:35:11Z)
FLARE: Faithful Logic-Aided Reasoning and Exploration [50.9814063216852]
タスク分解を用いて問題空間をトラバースする新しい手法を提案する。我々はLarge Language Modelsを使ってソリューションを計画し、クエリを事実に軟式化し、論理プログラミングコードを使って述語する。提案手法は,生成したコードに対する推論プロセスの忠実度を計算し,外部の解法に頼らずにマルチホップ探索のステップを解析する。
論文参考訳（メタデータ） (2024-10-14T19:39:11Z)
An Empirical Study of $μ$P Learning Rate Transfer [0.0]
実際に,$mu$-Transfer法によってほぼ最適な学習率が得られることを示す。明らかな約束にもかかわらず、$mu$P メソッドはまだ広く採用されていない。
論文参考訳（メタデータ） (2024-04-08T17:59:44Z)
Transformers in the Service of Description Logic-based Contexts [2.8210912543324658]
私たちは記述論理言語$mathcalALCQ$を使って自然言語データセットDELTA$_D$を構築します。教師付き細調整DeBERTaモデルと2つの大言語モデル(GPT-3.5, GPT-4)の推論能力について検討した。以上の結果から,DeBERTaをベースとしたモデルでは推論タスクをマスターすることができ,少数のサンプルが提供されてもGPTの性能は大幅に向上することが示された。
論文参考訳（メタデータ） (2023-11-15T13:23:24Z)
Chain of Thought Prompting Elicits Reasoning in Large Language Models [56.811278668446825]
本稿では,コヒーレントな思考連鎖を生成する言語モデルについて考察する。実験により、プロンプトによって思考の連鎖を誘導することで、十分な大きな言語モデルが推論タスクをよりよく実行できるようになることが示されている。
論文参考訳（メタデータ） (2022-01-28T02:33:07Z)
Model Interpretability through the Lens of Computational Complexity [1.6631602844999724]
民間の解釈可能性主張が計算複雑性理論に相関しているかどうかを考察する。線形モデルとツリーモデルの両方がニューラルネットワークよりも厳密に解釈可能であることを示す。
論文参考訳（メタデータ） (2020-10-23T09:50:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。