論文の概要: Thoughtbubbles: an Unsupervised Method for Parallel Thinking in Latent Space
- arxiv url: http://arxiv.org/abs/2510.00219v1
- Date: Tue, 30 Sep 2025 19:49:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.228739
- Title: Thoughtbubbles: an Unsupervised Method for Parallel Thinking in Latent Space
- Title(参考訳): Thoughtbubbles: 潜在空間における並列思考の教師なし手法
- Authors: Houjun Liu, Shikhar Murty, Christopher D. Manning, Róbert Csordás,
- Abstract要約: 計算変換器における推論時間の計算をスケールするための現在のアプローチは、答えを生成する前に明示的な連鎖トークンを出力するようにトレーニングすることに依存している。
Thoughtbubblesは、残留ストリームのフォークや削除を学ぶことで、潜在空間における並列適応計算を実行するトランスフォーマーである。
Thoughtbubbles は標準デコーダ LM と OpenWebText と peS2o のパープレキシティおよびHellaSwag や LAMBADA などのゼロショット評価において、非適応並列計算手法の両方に優れる。
- 参考スコア(独自算出の注目度): 38.50132130644233
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current approaches for scaling inference-time compute in transformers rely on training them to emit explicit chain-of-thought tokens before producing an answer. While these methods are powerful, they are limited because they cannot be applied during pretraining and are limited to only serially-generated, natural-language verbalization to scale inference-time compute. In this work, we propose Thoughtbubbles, a transformer variant that natively performs parallel adaptive computation in latent space by learning to fork or delete residual streams. Thus, tokens that require a large amount of computation can form a "bubble" of cloned residuals in the middle of the network for additional thinking. Crucially, this behavior is learned during pretraining with only language modeling loss. Thoughtbubbles outperforms both standard decoder LMs as well as non-adaptive parallel computation approaches on OpenWebText and peS2o perplexity and in zero-shot evaluations such as HellaSwag and LAMBADA after pretraining across 150M to 772M parameter scales. The implicit nature of our method enables adaptive computation to be learned starting at pretraining time, paving the way to unify train and test-time behavior for reasoning models.
- Abstract(参考訳): トランスフォーマーにおける推論時間の計算をスケールするための現在のアプローチは、回答を生成する前に明示的な連鎖トークンを発行するようにトレーニングすることに依存している。
これらの手法は強力であるが、事前訓練では適用できないため制限されており、推論時間計算をスケールするために連続生成された自然言語の言語化に限られる。
本研究では,残余ストリームのフォークや削除を学習することで,遅延空間における並列適応計算をネイティブに行うトランスフォーマーであるThoughtbubblesを提案する。
したがって、大量の計算を必要とするトークンは、追加の思考のためにネットワークの中央でクローン化された残余の「バブル」を形成することができる。
重要なことは、この振る舞いは言語モデリングの損失だけで事前訓練中に学習される。
Thoughtbubblesは、標準デコーダLMとOpenWebTextとpeS2oパープレキシティの非適応並列計算アプローチ、および1億5000万から772万のパラメータスケールで事前トレーニングした後のHellaSwagやLAMBADAなどのゼロショット評価の両方に優れる。
提案手法の暗黙的な性質は,事前学習時間から適応計算を学習することを可能にし,推論モデルに対する列車とテスト時の挙動を統一する方法を編み出す。
関連論文リスト
- Pretraining LLM with Latent Thoughts in Continuous Space [44.24277388571869]
本稿では,言語モデルと潜在思考の事前学習手法を提案する。
我々のアプローチは言語モデル(LM)を事前訓練し、まず現在位置の最後の隠れ状態である中間潜在思考を生成する。
同一の推論コストで、トークンごとに1つの追加の潜在思考を生成するLMが、パラメータの2倍の標準モデルより優れていることを示す。
論文 参考訳(メタデータ) (2025-09-27T08:38:08Z) - Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling [90.86991492288487]
トークンの制約を評価するのは 違法にコストがかかる
LCDは文字列上のグローバル分布を歪め、ローカル情報のみに基づいてトークンをサンプリングすることができる。
我々のアプローチは最先端のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-04-07T18:30:18Z) - Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach [70.44265766483633]
本稿では,潜在空間における暗黙的推論によるテスト時間計算のスケールアップが可能な,新しい言語モデルアーキテクチャについて検討する。
我々のモデルは繰り返しブロックを繰り返すことで動作し、テスト時に任意の深さに展開する。
結果のモデルが推論ベンチマークの性能を劇的に改善できることが示される。
論文 参考訳(メタデータ) (2025-02-07T18:55:02Z) - Bridging the Training-Inference Gap in LLMs by Leveraging Self-Generated Tokens [45.745443096804586]
言語モデルは、トレーニングデータセットで過去のトークンが与えられた次のトークンの可能性を最大化するためにしばしば訓練される。
推論時間の間は、前述したトークンを入力として次のトークンを予測することによって、テキストを逐次かつ自動回帰的に生成する。
本稿では、モデル自己生成に基づく2つの簡単なアプローチを提案し、この訓練時間と推論時間との相違に対処する。
論文 参考訳(メタデータ) (2024-10-18T17:48:27Z) - Mixture-of-Depths: Dynamically allocating compute in transformer-based language models [8.774705201394916]
トランスフォーマーベースの言語モデルは、FLOPを入力シーケンスに均一に展開した。
変換器はシーケンス内の特定の位置にFLOPを動的に割り当てることが可能であることを示す。
論文 参考訳(メタデータ) (2024-04-02T19:28:11Z) - Just One Byte (per gradient): A Note on Low-Bandwidth Decentralized
Language Model Finetuning Using Shared Randomness [86.61582747039053]
分散環境での言語モデルトレーニングは、交換の通信コストによって制限される。
分散微調整を低帯域幅で行うために,共有ランダムネスを用いた最近の作業を拡張した。
論文 参考訳(メタデータ) (2023-06-16T17:59:51Z) - Lexically Constrained Neural Machine Translation with Levenshtein
Transformer [8.831954614241234]
本稿では,ニューラルネットワーク翻訳に語彙制約を組み込むための,単純かつ効果的なアルゴリズムを提案する。
提案手法は,デコード速度に影響を与えることなく,推論時に用語制約を注入する。
論文 参考訳(メタデータ) (2020-04-27T09:59:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。