論文の概要: Sleep-time Compute: Beyond Inference Scaling at Test-time
- arxiv url: http://arxiv.org/abs/2504.13171v1
- Date: Thu, 17 Apr 2025 17:59:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-18 14:38:50.557392
- Title: Sleep-time Compute: Beyond Inference Scaling at Test-time
- Title(参考訳): Sleep-time Compute: テスト時の推論スケーリングを超えて
- Authors: Kevin Lin, Charlie Snell, Yu Wang, Charles Packer, Sarah Wooders, Ion Stoica, Joseph E. Gonzalez,
- Abstract要約: テスト時間計算のスケーリングは、大規模言語モデルが困難な問題を解決するための重要な要素として現れている。
私たちは、クエリが提示される前に、モデルがコンテキストについて"オフライン"できるスリープタイム計算を導入しました。
- 参考スコア(独自算出の注目度): 52.87976180878445
- License:
- Abstract: Scaling test-time compute has emerged as a key ingredient for enabling large language models (LLMs) to solve difficult problems, but comes with high latency and inference cost. We introduce sleep-time compute, which allows models to "think" offline about contexts before queries are presented: by anticipating what queries users might ask and pre-computing useful quantities, we can significantly reduce the compute requirements at test-time. To demonstrate the efficacy of our method, we create modified versions of two reasoning tasks - Stateful GSM-Symbolic and Stateful AIME. We find that sleep-time compute can reduce the amount of test-time compute needed to achieve the same accuracy by ~ 5x on Stateful GSM-Symbolic and Stateful AIME and that by scaling sleep-time compute we can further increase accuracy by up to 13% on Stateful GSM-Symbolic and 18% on Stateful AIME. Furthermore, we introduce Multi-Query GSM-Symbolic, which extends GSM-Symbolic by including multiple related queries per context. By amortizing sleep-time compute across related queries about the same context using Multi-Query GSM-Symbolic, we can decrease the average cost per query by 2.5x. We then conduct additional analysis to understand when sleep-time compute is most effective, finding the predictability of the user query to be well correlated with the efficacy of sleep-time compute. Finally, we conduct a case-study of applying sleep-time compute to a realistic agentic SWE task.
- Abstract(参考訳): 大規模な言語モデル(LLM)が難しい問題を解決する上で重要な要素としてテスト時間計算のスケーリングが登場したが、レイテンシと推論コストが高い。
私たちはスリープ時間計算を導入し、クエリが提示される前に、モデルがコンテキストについてオフラインで考えることができるようにしました。
提案手法の有効性を示すため,ステートフル GSM-Symbolic と Stateful AIME の2つの推論タスクの修正版を作成する。
睡眠時間計算は、同じ精度を達成するのに必要なテスト時間計算量を、ステートフル GSM-Symbolic と Stateful AIME で約5倍削減でき、睡眠時間計算をスケールすることで、ステートフル GSM-Symbolic で最大13%、ステートフル AIME で最大18%まで精度を向上できることがわかった。
さらに,複数の関連クエリをコンテキスト毎に含むことで,GSM-Symbolicを拡張したマルチクエリGSM-Symbolicを導入する。
また、Multi-Query GSM-Symbolicを用いて、関連するクエリのスリープ時間計算を同じコンテキストで記憶することで、クエリ毎の平均コストを2.5倍に削減できる。
次に、睡眠時間計算がいつ最も効果的かを理解するために、追加分析を行い、睡眠時間計算の有効性とよく相関するユーザクエリの予測可能性を見出す。
最後に、現実的なエージェントSWEタスクに睡眠時間計算を適用するケーススタディを行う。
関連論文リスト
- s1: Simple test-time scaling [148.4204982041058]
テスト時間スケーリングは、パフォーマンスを改善するために余分なテスト時間計算を使用する言語モデリングに対する、有望な新しいアプローチである。
テストタイムのスケーリングと強力な推論性能を実現するための最もシンプルなアプローチを探します。
論文 参考訳(メタデータ) (2025-01-31T18:48:08Z) - Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters [27.656263126925815]
LLMにおける推論時間計算のスケーリングについて検討する。
どちらの場合も、テスト時間計算のスケーリングに対する異なるアプローチの有効性は、プロンプトの難しさによって大きく異なることがわかった。
論文 参考訳(メタデータ) (2024-08-06T17:35:05Z) - DASA: Delay-Adaptive Multi-Agent Stochastic Approximation [64.32538247395627]
我々は,N$エージェントが並列に動作し,中央サーバと通信することで,一般的な近似問題を高速化することを目的とした設定を考える。
遅延とストラグラーの効果を軽減するために,マルチエージェント近似のための遅延適応アルゴリズムである textttDASA を提案する。
論文 参考訳(メタデータ) (2024-03-25T22:49:56Z) - MorpheusNet: Resource efficient sleep stage classifier for embedded
on-line systems [0.0]
睡眠段階分類(SSC)は労働集約的な作業であり、専門家は手動の分類のために数時間の電気生理学的記録を調べる必要がある。
ウェアラブルデバイスの普及と拡張により、SSCは睡眠ベースの治療法を大規模に展開することができる。
ディープラーニングはこのプロセスを自動化するための潜在的な方法として注目を集めている。
論文 参考訳(メタデータ) (2024-01-14T17:52:08Z) - Annotating sleep states in children from wrist-worn accelerometer data
using Machine Learning [4.506099292980221]
本稿では,サポートベクトル,ブースティング,アンサンブル手法,LSTMやリージョンベースのCNNなど,さまざまな機械学習(ML)技術を用いて加速度センサデータをモデル化することを提案する。
その後,イベント検出平均精度(EDAP)スコア(IOU測定値と類似)を用いてこれらの手法を評価し,最終的に予測能力とモデル性能を比較することを目的とする。
論文 参考訳(メタデータ) (2023-12-09T09:10:39Z) - Decoder Tuning: Efficient Language Understanding as Decoding [84.68266271483022]
本稿では,タスク固有のデコーダネットワークを出力側で最適化するデコーダチューニング(DecT)を提案する。
勾配ベースの最適化により、DecTは数秒以内にトレーニングでき、サンプル毎に1つのPクエリしか必要としない。
我々は、広範囲にわたる自然言語理解実験を行い、DecTが200ドル以上のスピードアップで最先端のアルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-12-16T11:15:39Z) - SleepMore: Sleep Prediction at Scale via Multi-Device WiFi Sensing [0.0]
本研究では,ユーザのWiFiネットワーク上での機械学習に基づく,正確な睡眠追跡手法であるSleepMoreを提案する。
46人の大学生を対象とした1ヶ月にわたるユーザー調査データを用いて、SleepMoreを検証し、Oura Ringウェアラブルと比較した。
以上の結果から,SleepMoreは,5%の不確かさ率以内の予測のために,Ouraリングベースラインから統計的に識別不能な睡眠統計を発生させることが示された。
論文 参考訳(メタデータ) (2022-10-24T16:42:56Z) - SOMTimeS: Self Organizing Maps for Time Series Clustering and its
Application to Serious Illness Conversations [3.2689702143620147]
我々はSOMTimeS(TIMEシリーズの自己組織化マップ)と呼ばれるDTWに基づく新しいクラスタリング手法を提案する。
他のDTWベースのクラスタリングアルゴリズムよりも高速で、パフォーマンスも同等です。
我々は,大規模医療コホート研究の一環として収集した自然言語会話データにSOMtimeSを適用した。
論文 参考訳(メタデータ) (2021-08-26T00:18:25Z) - MSED: a multi-modal sleep event detection model for clinical sleep
analysis [62.997667081978825]
ポリソムノグラムで睡眠イベントを共同検出する,単一のディープニューラルネットワークアーキテクチャを設計した。
モデルの性能は,F1,精度,リコールスコア,および指標値と臨床値との相関で定量化した。
論文 参考訳(メタデータ) (2021-01-07T13:08:44Z) - Automatic detection of microsleep episodes with deep learning [55.41644538483948]
15秒未満の睡眠の短い断片は、マイクロスリープエピソード(MSEs)として定義される
覚醒検査(MWT)の維持は、警戒を評価するために臨床現場でしばしば用いられる。
MSEは、MSEを定義する確立された評価基準が欠如しているため、ほとんど考慮されていない。
入力として生の脳波とEOGデータに基づいて機械学習を用いてMSEを自動的に検出することを目的とした。
論文 参考訳(メタデータ) (2020-09-07T11:38:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。