論文の概要: Catch Your Breath: Adaptive Computation for Self-Paced Sequence Production
- arxiv url: http://arxiv.org/abs/2510.13879v1
- Date: Mon, 13 Oct 2025 21:07:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.506618
- Title: Catch Your Breath: Adaptive Computation for Self-Paced Sequence Production
- Title(参考訳): Catch Your Breath: 自己更新シーケンス生成のための適応的な計算
- Authors: Alexandre Galashov, Matt Jones, Rosemary Ke, Yuan Cao, Vaishnavh Nagarajan, Michael C. Mozer,
- Abstract要約: 我々は,言語モデルが入力トークン毎に使用する計算ステップの数を動的かつ自律的に拡張できるような,教師付きトレーニング目標のクラスを探索する。
任意のトークンに対して、モデルは don't know> 出力を出力することで、追加の計算ステップを要求できる。
CYBモデルでは精度が向上し,トークンレベルの複雑性とコンテキストに処理時間を適用することができる。
- 参考スコア(独自算出の注目度): 55.76222360698305
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We explore a class of supervised training objectives that allow a language model to dynamically and autonomously scale the number of compute steps used for each input token. For any token, the model can request additional compute steps by emitting a <don't know> output. If the model is granted a delay, a specialized <pause> token is inserted at the next input step, providing the model with additional compute resources to generate an output. The model can request multiple pauses. To train the model to use <don't know> outputs judiciously and to calibrate its uncertainty, we frame the selection of each output token as a sequential-decision problem with a time cost. We refer to the class of methods as $\textit{Catch Your Breath}$ losses and we study three methods in this class: CYB-AP frames the model's task as anytime prediction, where an output may be required at any step and accuracy is discounted over time; CYB-VA is a variational approach that aims to maximize prediction accuracy subject to a specified distribution over stopping times; and CYB-DP imposes a penalty based on a computational budget. Through fine-tuning experiments, we identify the best performing loss variant. The CYB model needs only one third as much training data as the baseline (no pause) model needs to achieve the same performance, and half as much data as a model with pauses and a cross-entropy loss. We find that the CYB model requests additional steps when doing so improves accuracy, and the model adapts its processing time to token-level complexity and context. For example, it often pauses after plural nouns like $\textit{patients}$ and $\textit{challenges}$ but never pauses after the first token of contracted words like $\textit{wasn}$ and $\textit{didn}$, and it shows high variability for ambiguous tokens like $\textit{won}$, which could function as either a verb or part of a contraction.
- Abstract(参考訳): 我々は,言語モデルが入力トークン毎に使用する計算ステップの数を動的かつ自律的に拡張できるような,教師付きトレーニング目標のクラスを探索する。
任意のトークンに対して、モデルは<Don't know>出力を出力することで、追加の計算ステップを要求できる。
モデルに遅延が与えられると、次の入力ステップで特別な<pause>トークンが挿入され、出力を生成するための追加の計算リソースが提供される。
モデルは複数の一時停止を要求できる。
モデルに<Don't know>出力を訓練し、その不確実性を校正するために、各出力トークンの選択を時間的コストでシーケンシャルな決定問題として設定する。
CYB-APは任意のステップでアウトプットを要求され、精度は時間の経過とともに割引される場合があり、CYB-VAは特定の分布の予測精度を停止時間を超えて最大化することを目的とした変分アプローチであり、CYB-DPは計算予算に基づいてペナルティを課す。
微調整実験により、最も優れた損失変種を特定する。
CYBモデルは、ベースライン(一時停止なし)モデルと同じパフォーマンスを達成するために必要なトレーニングデータの3分の1しか必要としない。
CYBモデルでは精度が向上し,トークンレベルの複雑性とコンテキストに処理時間を適用することができる。
例えば、$\textit{ patients}$や$\textit{challenges}$のような複数の名詞の後に停止するが、$\textit{wasn}$や$\textit{didn}$のような契約された単語の最初のトークンの後に停止することはない。
関連論文リスト
- Multi-Token Prediction via Self-Distillation [73.81494481537636]
我々は,事前訓練された自己回帰言語モデルを,スローシングルの次のトークン予測モデルから高速なスタンドアロンマルチトークン予測モデルに変換するための新しいアプローチを検討する。
GSM8Kでは,単一トークン復号性能と比較して平均3倍以上の高速な復号化が可能なモデルを生成する。
論文 参考訳(メタデータ) (2026-02-05T18:54:48Z) - Learning Shrinks the Hard Tail: Training-Dependent Inference Scaling in a Solvable Linear Model [2.7074235008521246]
ニューラルネットワークのスケーリング法則を最終層微細チューニングの解法モデルで解析する。
学習がエラー分布の「ハードテール」を小さくすることを示す。
論文 参考訳(メタデータ) (2026-01-07T10:00:17Z) - Linear-Time Demonstration Selection for In-Context Learning via Gradient Estimation [19.158395403281734]
例えば$n$の例があれば、$n$から$k$を素早く選択して、ダウンストリーム推論の条件付けとして役立てるにはどうすればよいでしょうか?
この問題は、迅速なチューニングとチェーン・オブ・ソート推論に幅広い応用がある。
勾配推定法は6つのデータセットに対して$mathbf1%$誤差の完全な推論の近似を導出することを示す。
論文 参考訳(メタデータ) (2025-08-27T15:59:47Z) - Intention-Conditioned Flow Occupancy Models [80.42634994902858]
大規模な事前学習は、今日の機械学習研究のやり方を根本的に変えた。
同じフレームワークを強化学習に適用することは、RLの中核的な課題に対処するための魅力的な方法を提供するので、魅力的です。
生成AIの最近の進歩は、高度に複雑な分布をモデリングするための新しいツールを提供している。
論文 参考訳(メタデータ) (2025-06-10T15:27:46Z) - Language Models Can Predict Their Own Behavior [29.566208688211876]
言語モデル(LM)は、アライメントトレーニングに従わないなど、特定の振る舞いを示すことができます。
入力トークンの内部表現だけで訓練されたプローブは、出力シーケンス全体にわたって幅広い結果の挙動を予測することができることを示す。
プローブ上に構築された早期警報システムは、脱獄を91%削減する。
論文 参考訳(メタデータ) (2025-02-18T23:13:16Z) - s1: Simple test-time scaling [148.4204982041058]
テスト時間スケーリングは、パフォーマンスを改善するために余分なテスト時間計算を使用する言語モデリングに対する、有望な新しいアプローチである。
テストタイムのスケーリングと強力な推論性能を実現するための最もシンプルなアプローチを探します。
論文 参考訳(メタデータ) (2025-01-31T18:48:08Z) - Language models scale reliably with over-training and on downstream tasks [121.69867718185125]
スケーリング法則は、高価なトレーニング実行を引き出すための有用なガイドである。
しかし、現在の研究と言語モデルがどのように訓練されているかには差がある。
対照的に、スケーリング法則は主に推論における損失を予測するが、モデルは通常下流のタスクのパフォーマンスで比較される。
論文 参考訳(メタデータ) (2024-03-13T13:54:00Z) - Think before you speak: Training Language Models With Pause Tokens [73.61375226378712]
言語モデルは、即座に連続して一連のトークンを生成して応答を生成する。
代わりに、$(K+1)th$トークンを出力する前に、モデルに$K+10$隠れベクターを操作させるとしたらどうでしょう?
私たちは、(学習可能な)$textitpause$トークンを使って、言語モデルでトレーニングと推論を行うことで、このアイデアを運用します。
論文 参考訳(メタデータ) (2023-10-03T17:32:41Z) - The Right Tool for the Job: Matching Model and Instance Complexities [62.95183777679024]
NLPモデルが大きくなればなるほど、訓練されたモデルを実行するには、金銭的・環境的なコストを発生させる重要な計算資源が必要である。
我々は、推論中、早期(かつ高速)の"exit"を可能にする文脈表現微調整の修正を提案する。
3つのテキスト分類データセットと2つの自然言語推論ベンチマークの2つのタスクで、5つの異なるデータセットに対して提案した修正を検証した。
論文 参考訳(メタデータ) (2020-04-16T04:28:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。