論文の概要: Amortized Latent Steering: Low-Cost Alternative to Test-Time Optimization
- arxiv url: http://arxiv.org/abs/2509.18116v1
- Date: Wed, 10 Sep 2025 07:03:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-28 15:30:14.375901
- Title: Amortized Latent Steering: Low-Cost Alternative to Test-Time Optimization
- Title(参考訳): Amortized Latent Steering: テスト時間最適化の代替として低コスト
- Authors: Nathan Egbuna, Saatvik Gaur, Sunishchal Dev, Ashwinee Panda, Maheep Chaudhary,
- Abstract要約: Amortized Latent Steering (ALS) は、反復最適化を1つのオフライン計算ベクトルに分解する。
ALSは反復的手法よりも2-5倍のスピードアップを達成し、強欲なCoT(Chain-of-Thought)と自己一貫性のベースラインをマッチまたは超過する。
これらの結果から,潜伏最適化のメリットの大部分はオフラインで取得可能であることが示され,高度な推論技術が本番デプロイメントに有効であることが確認された。
- 参考スコア(独自算出の注目度): 3.9311957222075935
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Test-time optimization remains impractical at scale due to prohibitive inference costs\textemdash techniques like iterative refinement and multi-step verification can require $10$--$100\times$ more compute per query than standard decoding. Latent space test-time optimization methods like LatentSeek offer a more direct approach by steering hidden representations, but still demand expensive per-query optimization loops with multiple backward passes. We propose Amortized Latent Steering (ALS), which collapses this iterative optimization into a single offline-computed vector applied at constant cost during inference. ALS computes the mean difference between hidden states from successful versus unsuccessful generations, then uses this direction to calibrate the model's hidden representations: when decoding drifts away from the success manifold, ALS nudges activations back toward it. Across GSM8K and MATH-$500$ benchmarks, ALS achieves $2$--$5\times$ speedup over iterative methods while matching or surpassing greedy Chain-of-Thought (CoT) and Self-Consistency baselines, yielding up to 101\% improvement in efficiency--accuracy trade-off. These results show that much of latent optimization's benefit can be captured offline, making sophisticated reasoning techniques viable for production deployment. Code is available at~\href{https://anonymous.4open.science/r/steering-17F2}{https://anonymous.4open.science/r/steering-17F2}
- Abstract(参考訳): 反復的洗練やマルチステップ検証のようなtextemdashのテクニックは、標準的なデコーディングよりもクエリ毎に10ドル~100ドル(約10万円~100ドル)の計算を必要とする可能性がある。
LatentSeekのような遅延スペーステストタイム最適化手法は、隠された表現をステアリングすることでより直接的なアプローチを提供するが、それでも複数の後方パスを持つ高価なクエリごとの最適化ループを必要とする。
本稿では,この繰り返し最適化を一定コストで適用した1つのオフライン計算ベクトルに分解するAmortized Latent Steering (ALS)を提案する。
ALSは、成功した世代と失敗した世代の間の隠れた状態の平均的な差を計算し、この方向を使ってモデルの隠れた表現を校正する。
GSM8KとMATH-500ドルのベンチマークで、ALSは反復的なメソッドよりも2---$5\times$のスピードアップを達成した。
これらの結果から,潜伏最適化のメリットの大部分はオフラインで取得可能であることが示され,高度な推論技術が本番デプロイメントに有効であることが確認された。
コードは~\href{https://anonymous.4open.science/r/steering-17F2}{https://anonymous.4open.science/r/steering-17F2} で入手できる。
関連論文リスト
- $\texttt{SPECS}$: Faster Test-Time Scaling through Speculative Drafts [55.231201692232894]
$textttSPECS$は、投機的デコードにインスパイアされた遅延対応のテスト時間スケーリングメソッドである。
我々の結果は、$textttSPECS$matchはビームサーチの精度を上回り、最大$sim$19.1%のレイテンシを削減していることを示している。
論文 参考訳(メタデータ) (2025-06-15T05:50:05Z) - Stacey: Promoting Stochastic Steepest Descent via Accelerated $\ell_p$-Smooth Nonconvex Optimization [15.179519413549086]
我々は、非ユークリッドスムーズな最適化タスクを処理するために、Staceyと呼ばれる新しい高速化された$ell_p$急降下アルゴリズムを導入する。
アルゴリズムの基礎に関する理論的保証を提供するのに加えて、我々のアプローチと一般的な手法を実証的に比較する。
論文 参考訳(メタデータ) (2025-06-07T00:47:07Z) - Thinking Before Running! Efficient Code Generation with Thorough Exploration and Optimal Refinement [47.89758553708932]
textbfThinkCoderは、徹底的な探索と最適な精錬を組み合わせたフレームワークです。
探索フェーズは、潜在的な解を探すことによって解空間を多様化し、続いて精度を高める精製フェーズが続く。
テスト時間計算のオーバーヘッドを最小化するために、Reinforced Self-Training (ReST) を用いた優先駆動最適化を導入する。
論文 参考訳(メタデータ) (2024-12-30T07:02:15Z) - Online Mirror Descent for Tchebycheff Scalarization in Multi-Objective Optimization [14.970965673760427]
OMD-TCHと呼ばれるチェシュスカラー化のためのオンラインミラー降下アルゴリズムを提案する。
我々は,OMD-TCHが,公正性制約下での合成問題とフェデレーション学習タスクの両方に有効であることを示す。
論文 参考訳(メタデータ) (2024-10-29T05:58:33Z) - Correcting the Mythos of KL-Regularization: Direct Alignment without Overoptimization via Chi-Squared Preference Optimization [78.82586283794886]
$chi2$-Preference Optimization(chi$PO)は、オーバー最適化に対して確実に堅牢なオフラインアライメントアルゴリズムである。
$chi$POは、正規化による不確実性に直面して悲観主義の原理を実装している。
$chi$POの単純さと強力な保証により、オーバー最適化に対して確実に堅牢な、実用的で汎用的なオフラインアライメントアルゴリズムとなった。
論文 参考訳(メタデータ) (2024-07-18T11:08:40Z) - Optimal Stochastic Non-smooth Non-convex Optimization through Online-to-Non-convex Conversion [46.46038357597395]
本稿では,新しい解析手法を用いて,未知の非平滑な目的を最適化するアルゴリズムを提案する。
決定論的二階スムーズな目的のために、先進的な楽観的なオンライン学習技術を適用することで、新しい$O(delta0.5)All$が最適または最もよく知られた結果の回復を可能にする。
論文 参考訳(メタデータ) (2023-02-07T22:09:20Z) - Breaking the Sample Complexity Barrier to Regret-Optimal Model-Free
Reinforcement Learning [52.76230802067506]
漸進的強化学習における後悔を最小限に抑えるために,新しいモデルフリーアルゴリズムを提案する。
提案アルゴリズムは、2つのQ-ラーニングシーケンスの助けを借りて、初期設定された参照更新ルールを用いる。
初期の分散還元法の設計原理は、他のRL設定とは独立した関心を持つかもしれない。
論文 参考訳(メタデータ) (2021-10-09T21:13:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。