論文の概要: Sleep-time Compute: Beyond Inference Scaling at Test-time
- arxiv url: http://arxiv.org/abs/2504.13171v1
- Date: Thu, 17 Apr 2025 17:59:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-25 16:50:20.054498
- Title: Sleep-time Compute: Beyond Inference Scaling at Test-time
- Title(参考訳): Sleep-time Compute: テスト時の推論スケーリングを超えて
- Authors: Kevin Lin, Charlie Snell, Yu Wang, Charles Packer, Sarah Wooders, Ion Stoica, Joseph E. Gonzalez,
- Abstract要約: テスト時間計算のスケーリングは、大規模言語モデルが困難な問題を解決するための重要な要素として現れている。
私たちは、クエリが提示される前に、モデルがコンテキストについて"オフライン"できるスリープタイム計算を導入しました。
- 参考スコア(独自算出の注目度): 52.87976180878445
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scaling test-time compute has emerged as a key ingredient for enabling large language models (LLMs) to solve difficult problems, but comes with high latency and inference cost. We introduce sleep-time compute, which allows models to "think" offline about contexts before queries are presented: by anticipating what queries users might ask and pre-computing useful quantities, we can significantly reduce the compute requirements at test-time. To demonstrate the efficacy of our method, we create modified versions of two reasoning tasks - Stateful GSM-Symbolic and Stateful AIME. We find that sleep-time compute can reduce the amount of test-time compute needed to achieve the same accuracy by ~ 5x on Stateful GSM-Symbolic and Stateful AIME and that by scaling sleep-time compute we can further increase accuracy by up to 13% on Stateful GSM-Symbolic and 18% on Stateful AIME. Furthermore, we introduce Multi-Query GSM-Symbolic, which extends GSM-Symbolic by including multiple related queries per context. By amortizing sleep-time compute across related queries about the same context using Multi-Query GSM-Symbolic, we can decrease the average cost per query by 2.5x. We then conduct additional analysis to understand when sleep-time compute is most effective, finding the predictability of the user query to be well correlated with the efficacy of sleep-time compute. Finally, we conduct a case-study of applying sleep-time compute to a realistic agentic SWE task.
- Abstract(参考訳): 大規模な言語モデル(LLM)が難しい問題を解決する上で重要な要素としてテスト時間計算のスケーリングが登場したが、レイテンシと推論コストが高い。
私たちはスリープ時間計算を導入し、クエリが提示される前に、モデルがコンテキストについてオフラインで考えることができるようにしました。
提案手法の有効性を示すため,ステートフル GSM-Symbolic と Stateful AIME の2つの推論タスクの修正版を作成する。
睡眠時間計算は、同じ精度を達成するのに必要なテスト時間計算量を、ステートフル GSM-Symbolic と Stateful AIME で約5倍削減でき、睡眠時間計算をスケールすることで、ステートフル GSM-Symbolic で最大13%、ステートフル AIME で最大18%まで精度を向上できることがわかった。
さらに,複数の関連クエリをコンテキスト毎に含むことで,GSM-Symbolicを拡張したマルチクエリGSM-Symbolicを導入する。
また、Multi-Query GSM-Symbolicを用いて、関連するクエリのスリープ時間計算を同じコンテキストで記憶することで、クエリ毎の平均コストを2.5倍に削減できる。
次に、睡眠時間計算がいつ最も効果的かを理解するために、追加分析を行い、睡眠時間計算の有効性とよく相関するユーザクエリの予測可能性を見出す。
最後に、現実的なエージェントSWEタスクに睡眠時間計算を適用するケーススタディを行う。
関連論文リスト
- Sample, Don't Search: Rethinking Test-Time Alignment for Language Models [55.2480439325792]
新しいテストタイムアライメントアプローチであるQAlignを紹介します。
テスト時間計算をスケールする際、QAlignは各プロンプトの最適配向分布からのサンプリングに収束する。
マルコフ連鎖モンテカルロのテキスト生成における最近の進歩を取り入れることで、基礎となるモデルを変更したり、ロジットアクセスを必要とせずに、より良い整合出力を可能にする。
論文 参考訳(メタデータ) (2025-04-04T00:41:40Z) - Time-MQA: Time Series Multi-Task Question Answering with Context Enhancement [55.2439260314328]
Time Series Multi-Task Question Answering (Time-MQA)は、複数の時系列タスクにわたる自然言語クエリを可能にする統合フレームワークである。
Time-MQAの中心はTSQAデータセットである。
論文 参考訳(メタデータ) (2025-02-26T13:47:13Z) - On Aggregation Queries over Predicted Nearest Neighbors [33.06696811081107]
指定されたオブジェクトの予測近傍における新しいタイプの集約クエリであるAQNNを紹介する。
AQNNは、例えば、医療専門家が「特定の不眠症患者に類似した予測された患者の平均的な収縮血圧」を計算したいという現代の応用で一般的である。
予測は通常、高価なディープラーニングモデルや人間の専門家が関与するため、近似集約を返す問題としてクエリ処理を定式化する。
論文 参考訳(メタデータ) (2025-02-26T04:17:32Z) - s1: Simple test-time scaling [148.4204982041058]
テスト時間スケーリングは、パフォーマンスを改善するために余分なテスト時間計算を使用する言語モデリングに対する、有望な新しいアプローチである。
テストタイムのスケーリングと強力な推論性能を実現するための最もシンプルなアプローチを探します。
論文 参考訳(メタデータ) (2025-01-31T18:48:08Z) - Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters [27.656263126925815]
LLMにおける推論時間計算のスケーリングについて検討する。
どちらの場合も、テスト時間計算のスケーリングに対する異なるアプローチの有効性は、プロンプトの難しさによって大きく異なることがわかった。
論文 参考訳(メタデータ) (2024-08-06T17:35:05Z) - MorpheusNet: Resource efficient sleep stage classifier for embedded
on-line systems [0.0]
睡眠段階分類(SSC)は労働集約的な作業であり、専門家は手動の分類のために数時間の電気生理学的記録を調べる必要がある。
ウェアラブルデバイスの普及と拡張により、SSCは睡眠ベースの治療法を大規模に展開することができる。
ディープラーニングはこのプロセスを自動化するための潜在的な方法として注目を集めている。
論文 参考訳(メタデータ) (2024-01-14T17:52:08Z) - Annotating sleep states in children from wrist-worn accelerometer data
using Machine Learning [4.506099292980221]
本稿では,サポートベクトル,ブースティング,アンサンブル手法,LSTMやリージョンベースのCNNなど,さまざまな機械学習(ML)技術を用いて加速度センサデータをモデル化することを提案する。
その後,イベント検出平均精度(EDAP)スコア(IOU測定値と類似)を用いてこれらの手法を評価し,最終的に予測能力とモデル性能を比較することを目的とする。
論文 参考訳(メタデータ) (2023-12-09T09:10:39Z) - Decoder Tuning: Efficient Language Understanding as Decoding [84.68266271483022]
本稿では,タスク固有のデコーダネットワークを出力側で最適化するデコーダチューニング(DecT)を提案する。
勾配ベースの最適化により、DecTは数秒以内にトレーニングでき、サンプル毎に1つのPクエリしか必要としない。
我々は、広範囲にわたる自然言語理解実験を行い、DecTが200ドル以上のスピードアップで最先端のアルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-12-16T11:15:39Z) - SOMTimeS: Self Organizing Maps for Time Series Clustering and its
Application to Serious Illness Conversations [3.2689702143620147]
我々はSOMTimeS(TIMEシリーズの自己組織化マップ)と呼ばれるDTWに基づく新しいクラスタリング手法を提案する。
他のDTWベースのクラスタリングアルゴリズムよりも高速で、パフォーマンスも同等です。
我々は,大規模医療コホート研究の一環として収集した自然言語会話データにSOMtimeSを適用した。
論文 参考訳(メタデータ) (2021-08-26T00:18:25Z) - MSED: a multi-modal sleep event detection model for clinical sleep
analysis [62.997667081978825]
ポリソムノグラムで睡眠イベントを共同検出する,単一のディープニューラルネットワークアーキテクチャを設計した。
モデルの性能は,F1,精度,リコールスコア,および指標値と臨床値との相関で定量化した。
論文 参考訳(メタデータ) (2021-01-07T13:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。