論文の概要: Thoughtbubbles: an Unsupervised Method for Parallel Thinking in Latent Space
- arxiv url: http://arxiv.org/abs/2510.00219v1
- Date: Tue, 30 Sep 2025 19:49:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.228739
- Title: Thoughtbubbles: an Unsupervised Method for Parallel Thinking in Latent Space
- Title(参考訳): Thoughtbubbles: 潜在空間における並列思考の教師なし手法
- Authors: Houjun Liu, Shikhar Murty, Christopher D. Manning, Róbert Csordás,
- Abstract要約: 計算変換器における推論時間の計算をスケールするための現在のアプローチは、答えを生成する前に明示的な連鎖トークンを出力するようにトレーニングすることに依存している。
Thoughtbubblesは、残留ストリームのフォークや削除を学ぶことで、潜在空間における並列適応計算を実行するトランスフォーマーである。
Thoughtbubbles は標準デコーダ LM と OpenWebText と peS2o のパープレキシティおよびHellaSwag や LAMBADA などのゼロショット評価において、非適応並列計算手法の両方に優れる。
- 参考スコア(独自算出の注目度): 38.50132130644233
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current approaches for scaling inference-time compute in transformers rely on training them to emit explicit chain-of-thought tokens before producing an answer. While these methods are powerful, they are limited because they cannot be applied during pretraining and are limited to only serially-generated, natural-language verbalization to scale inference-time compute. In this work, we propose Thoughtbubbles, a transformer variant that natively performs parallel adaptive computation in latent space by learning to fork or delete residual streams. Thus, tokens that require a large amount of computation can form a "bubble" of cloned residuals in the middle of the network for additional thinking. Crucially, this behavior is learned during pretraining with only language modeling loss. Thoughtbubbles outperforms both standard decoder LMs as well as non-adaptive parallel computation approaches on OpenWebText and peS2o perplexity and in zero-shot evaluations such as HellaSwag and LAMBADA after pretraining across 150M to 772M parameter scales. The implicit nature of our method enables adaptive computation to be learned starting at pretraining time, paving the way to unify train and test-time behavior for reasoning models.
- Abstract(参考訳): トランスフォーマーにおける推論時間の計算をスケールするための現在のアプローチは、回答を生成する前に明示的な連鎖トークンを発行するようにトレーニングすることに依存している。
これらの手法は強力であるが、事前訓練では適用できないため制限されており、推論時間計算をスケールするために連続生成された自然言語の言語化に限られる。
本研究では,残余ストリームのフォークや削除を学習することで,遅延空間における並列適応計算をネイティブに行うトランスフォーマーであるThoughtbubblesを提案する。
したがって、大量の計算を必要とするトークンは、追加の思考のためにネットワークの中央でクローン化された残余の「バブル」を形成することができる。
重要なことは、この振る舞いは言語モデリングの損失だけで事前訓練中に学習される。
Thoughtbubblesは、標準デコーダLMとOpenWebTextとpeS2oパープレキシティの非適応並列計算アプローチ、および1億5000万から772万のパラメータスケールで事前トレーニングした後のHellaSwagやLAMBADAなどのゼロショット評価の両方に優れる。
提案手法の暗黙的な性質は,事前学習時間から適応計算を学習することを可能にし,推論モデルに対する列車とテスト時の挙動を統一する方法を編み出す。
関連論文リスト
- AdaPonderLM: Gated Pondering Language Models with Token-Wise Adaptive Depth [23.442686851761298]
AdaPonderLMは、事前トレーニング中にトークン単位の早期終了を学習する、自己教師型リカレント言語モデルである。
AdaPonderLMは、比較可能な言語モデリングの難易度と競合する下流の精度を維持しながら、推論計算を約10%削減する。
論文 参考訳(メタデータ) (2026-03-02T14:28:16Z) - Pretraining with Token-Level Adaptive Latent Chain-of-Thought [44.19871205975474]
パラメータの増加とトレーニングデータによる大規模言語モデルのスケーリングは、高品質コーパスの制限と通信コストの増大によって、ますます制限されている。
この研究は、潜在チェーン・オブ・ソート(CoT)を事前学習に内在させることにより、パラメータを拡張せずにトーケン毎の計算量を増やすという代替軸を探求する。
本稿では,各トークンを出力する前に可変長遅延CoT軌道を生成するToken-Level Adaptive Latent CoT(Adaptive Latent CoT)による事前学習を提案する。
Llamaアーキテクチャによる実験によると、適応潜在CoTは、訓練の少ないFLでも、言語モデリングの難易度と幅広い下流の精度を一貫して改善する。
論文 参考訳(メタデータ) (2026-02-09T02:49:15Z) - Semantic Soft Bootstrapping: Long Context Reasoning in LLMs without Reinforcement Learning [46.765013720309064]
大規模言語モデル(LLM)における長期文脈推論は、チェーン・オブ・ソート(CoT)推論による認知能力の向上を実証している。
このようなモデルのトレーニングは通常、数学やプログラミングのような推論に基づく問題において、検証可能な報酬(RLVR)を用いた強化学習によって行われる。
我々は,教師と学生の両方の役割を同一のベース言語モデルで担う自己蒸留技術であるtextbfSemantic Soft Bootstrapping (SSB) を提案する。
論文 参考訳(メタデータ) (2025-12-04T18:59:18Z) - Pretraining LLM with Latent Thoughts in Continuous Space [44.24277388571869]
本稿では,言語モデルと潜在思考の事前学習手法を提案する。
我々のアプローチは言語モデル(LM)を事前訓練し、まず現在位置の最後の隠れ状態である中間潜在思考を生成する。
同一の推論コストで、トークンごとに1つの追加の潜在思考を生成するLMが、パラメータの2倍の標準モデルより優れていることを示す。
論文 参考訳(メタデータ) (2025-09-27T08:38:08Z) - Blockwise SFT for Diffusion Language Models: Reconciling Bidirectional Attention and Autoregressive Decoding [60.06816407728172]
離散拡散言語モデルは、テキスト生成に強い可能性を示している。
半自己回帰推論による微調整ミスアライメントの標準化
我々は、応答を固定サイズブロックに分割するBlockwise SFTを提案する。
論文 参考訳(メタデータ) (2025-08-27T02:49:33Z) - ESLM: Risk-Averse Selective Language Modeling for Efficient Pretraining [53.893792844055106]
大規模言語モデルの事前学習は計算集約的であるが、多くのトークンが学習にわずかに寄与し、非効率になる。
Selective Efficient Language Modelingは、オンライントークンレベルのバッチ選択を行うことで、トレーニング効率と分散ロバスト性を改善するリスク認識アルゴリズムである。
GPT-2プレトレーニング実験の結果、ESLMはベースラインに比べて複雑度と下流性能の両面を維持・改善しながら、トレーニングFLOPを著しく低減することが示された。
論文 参考訳(メタデータ) (2025-05-26T12:23:26Z) - Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling [90.86991492288487]
トークンの制約を評価するのは 違法にコストがかかる
LCDは文字列上のグローバル分布を歪め、ローカル情報のみに基づいてトークンをサンプリングすることができる。
我々のアプローチは最先端のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-04-07T18:30:18Z) - Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach [70.44265766483633]
本稿では,潜在空間における暗黙的推論によるテスト時間計算のスケールアップが可能な,新しい言語モデルアーキテクチャについて検討する。
我々のモデルは繰り返しブロックを繰り返すことで動作し、テスト時に任意の深さに展開する。
結果のモデルが推論ベンチマークの性能を劇的に改善できることが示される。
論文 参考訳(メタデータ) (2025-02-07T18:55:02Z) - Bridging the Training-Inference Gap in LLMs by Leveraging Self-Generated Tokens [45.745443096804586]
言語モデルは、トレーニングデータセットで過去のトークンが与えられた次のトークンの可能性を最大化するためにしばしば訓練される。
推論時間の間は、前述したトークンを入力として次のトークンを予測することによって、テキストを逐次かつ自動回帰的に生成する。
本稿では、モデル自己生成に基づく2つの簡単なアプローチを提案し、この訓練時間と推論時間との相違に対処する。
論文 参考訳(メタデータ) (2024-10-18T17:48:27Z) - Mixture-of-Depths: Dynamically allocating compute in transformer-based language models [8.774705201394916]
トランスフォーマーベースの言語モデルは、FLOPを入力シーケンスに均一に展開した。
変換器はシーケンス内の特定の位置にFLOPを動的に割り当てることが可能であることを示す。
論文 参考訳(メタデータ) (2024-04-02T19:28:11Z) - Just One Byte (per gradient): A Note on Low-Bandwidth Decentralized
Language Model Finetuning Using Shared Randomness [86.61582747039053]
分散環境での言語モデルトレーニングは、交換の通信コストによって制限される。
分散微調整を低帯域幅で行うために,共有ランダムネスを用いた最近の作業を拡張した。
論文 参考訳(メタデータ) (2023-06-16T17:59:51Z) - Lexically Constrained Neural Machine Translation with Levenshtein
Transformer [8.831954614241234]
本稿では,ニューラルネットワーク翻訳に語彙制約を組み込むための,単純かつ効果的なアルゴリズムを提案する。
提案手法は,デコード速度に影響を与えることなく,推論時に用語制約を注入する。
論文 参考訳(メタデータ) (2020-04-27T09:59:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。