Fugu-MT 論文翻訳(概要): PonderLM-3: Adaptive Token-Wise Pondering with Differentiable Masking

論文の概要: PonderLM-3: Adaptive Token-Wise Pondering with Differentiable Masking

arxiv url: http://arxiv.org/abs/2603.02023v2
Date: Tue, 10 Mar 2026 14:33:30 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-11 15:25:23.66315
Title: PonderLM-3: Adaptive Token-Wise Pondering with Differentiable Masking
Title（参考訳）: PonderLM-3: カスタマイズ可能なマスキングによる適応型トークンワイズポンダリング
Authors: He Li, Feichen Song, Boyi Zeng, Shixiang Song, Zhiqin John Xu, Ziwei He, Zhouhan Lin,
Abstract要約: PonderLM-3はトークンワイド・アダプティブ・マイニングのための事前訓練フレームワークである。純粋に自己管理された目的の下で、追加の計算を選択的に割り当てることを学ぶ。これは、同じ推測FLOPでより低い事前学習パープレキシティを実現する。
参考スコア（独自算出の注目度）: 21.603905216597624
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Test-time scaling has shown that allocating more additional computation at inference can improve generation quality, motivating a natural follow-up question: where should this computation be spent? Building on this insight, we introduce PonderLM-3, a pretraining framework for token-wise adaptive pondering that learns to selectively allocate additional computation under purely self-supervised objectives, built on top of the PonderLM-2 backbone. This makes additional inference computation an allocatable per-token resource, so tokens receive more computation only when it is beneficial, rather than paying a uniform extra cost. To make this allocation learnable while maintaining train-inference consistency, PonderLM-3 injects a differentiable attention mask during pretraining and pairs it with a matching hard pruning rule at inference. PonderLM-3 defines a stronger Pareto frontier: compared with existing recursive or adaptive baselines, it achieves lower pretraining perplexity at equal inference FLOPs. On downstream benchmarks, PonderLM-3 attains comparable performance to fixed-step PonderLM-2 under the same maximum number of additional computation steps, while using fewer inference FLOPs in practice. Overall, PonderLM-3 provides an end-to-end differentiable and train-inference consistent framework for token-wise adaptive computation, enabling additional inference compute to be allocated where it is most useful rather than paid uniformly by every token.
Abstract（参考訳）: テストタイムのスケーリングによって、推論時により多くの計算を割り当てることで、生成品質が向上し、自然なフォローアップの疑問が浮かび上がっている。この知見に基づいて,PonderLM-2のバックボーン上に構築されたPonderLM-3を導入する。これにより、追加の推論計算は、トークンごとのアロケータブルなリソースとなるため、トークンは均一な追加費用を払うのではなく、有益な場合にのみより多くの計算を受けられる。列車干渉一貫性を維持しつつ、この割り当てを学習できるようにするため、PonderLM-3は事前訓練中に異なる注意マスクを注入し、推論時に一致するハードプルーニングルールとペアリングする。 PonderLM-3は、既存の再帰的ベースラインや適応的ベースラインと比較して、同じ推論FLOPでより低い事前学習パープレキシティを実現する。下流のベンチマークでは、PenderLM-3 は固定ステップの PonderLM-2 に匹敵する性能を達成し、実際の推論 FLOP は少ない。全体として、PenderLM-3はトークンワイド・アダプティブな計算のためのエンドツーエンドの微分可能およびトレイン推論一貫性のあるフレームワークを提供する。

関連論文リスト

AdaPonderLM: Gated Pondering Language Models with Token-Wise Adaptive Depth [23.442686851761298]
AdaPonderLMは、事前トレーニング中にトークン単位の早期終了を学習する、自己教師型リカレント言語モデルである。 AdaPonderLMは、比較可能な言語モデリングの難易度と競合する下流の精度を維持しながら、推論計算を約10%削減する。
論文参考訳（メタデータ） (2026-03-02T14:28:16Z)
General learned delegation by clones [55.144380092379976]
シリアル推論や非協調並列サンプリングは、固定された推論予算の下では計算非効率である。本研究では,SELFCESTを提案する。SELFCESTは,同じクローンを異なる並列コンテキストで生成する機能を備えたベースモデルである。
論文参考訳（メタデータ） (2026-02-03T15:53:35Z)
Native Parallel Reasoner: Reasoning in Parallelism via Self-Distilled Reinforcement Learning [68.9332598692234]
我々はNative Parallel Reasoner(NPR)を紹介した。これは、LLM(Large Language Models)が真の並列推論能力を自己発展させることを可能にする、教師なしのフレームワークである。 NPRは、モデルをシーケンシャルエミュレーションから3つの重要な革新を通じてネイティブ並列認識に変換する。
論文参考訳（メタデータ） (2025-12-08T11:39:43Z)
ADAPT: Learning Task Mixtures for Budget-Constrained Instruction Tuning [1.0039548765955955]
ADAPTは、命令チューニングのための明示的なトークン予算の下でタスクサンプリング比率を学習するメタ学習アルゴリズムである。我々は、推論、読解、コード生成、命令追従にまたがる11のドメイン外のベンチマークの評価を行う。
論文参考訳（メタデータ） (2025-12-04T08:17:05Z)
LaSeR: Reinforcement Learning with Last-Token Self-Rewarding [54.72617309922891]
RLVR(Reinforcement Learning with Verifiable Rewards)は、Large Language Models(LLM)の推論能力を高めるためのコアパラダイムとして登場した。従来、LLMは2つの異なるプロンプトテンプレートを使用してソリューションと自己検証をシーケンシャルに生成し、効率を大幅に低下させる必要があった。本稿では,従来のRLVR損失をMSE損失で増大させるアルゴリズムであるLaSeR(Reinforcement Learning with Last-Token Self-Rewarding)を提案する。
論文参考訳（メタデータ） (2025-10-16T17:55:11Z)
PonderLM-2: Pretraining LLM with Latent Thoughts in Continuous Space [44.24277388571869]
我々は、新しい事前学習手法を提案する:潜在思考を用いた言語モデル(PonderLM-2) 我々のアプローチでは、まず言語モデル(LM)を事前訓練して、現在位置の最後の隠れ状態である中間潜在思考を生成し、その後、実際のトークンを予測するために入力として使用される。実験により、同一の推論コストでトークンごとに1つの追加の潜在的思考を生成するLMが、パラメータの2倍の標準モデルより優れていることが示された。
論文参考訳（メタデータ） (2025-09-27T08:38:08Z)
e3: Learning to Explore Enables Extrapolation of Test-Time Compute for LLMs [49.01449646799905]
既存の推論モデルでは外挿がうまく行われていないことが示される。レシピ e3 は AIME'25 と HMMT'25 のスコアに基づいて最もよく知られた 1.7B モデルを生成する。 e3-1.7Bモデルは、高いpass@1スコアを得るだけでなく、ベースモデルよりもpass@kを改善する。
論文参考訳（メタデータ） (2025-06-10T17:52:42Z)
Aligning Instruction Tuning with Pre-training [61.50161961371844]
そこで我々は,AITP(Aligning Instruction Tuning with Pre-training)を提案する。 8つのベンチマークで3つの完全にオープンな大規模言語モデル(LLM)上で,AITPによる一貫したパフォーマンス向上を示す。
論文参考訳（メタデータ） (2025-01-16T08:27:40Z)
Federated Fine-Tuning of LLMs: Framework Comparison and Research Directions [59.5243730853157]
Federated Learning(FL)は、分散プライベートデータセットを使用して、トレーニング済みの大規模言語モデル(LLM)を微調整するための、プライバシ保護ソリューションを提供する。本稿では、知識蒸留(KD)とスプリットラーニング(SL)を統合し、これらの問題を緩和する3つの先進的連合LLM(FedLLM)フレームワークの比較分析を行う。
論文参考訳（メタデータ） (2025-01-08T11:37:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。