論文の概要: ETS: Efficient Tree Search for Inference-Time Scaling
- arxiv url: http://arxiv.org/abs/2502.13575v1
- Date: Wed, 19 Feb 2025 09:30:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-20 13:59:24.555811
- Title: ETS: Efficient Tree Search for Inference-Time Scaling
- Title(参考訳): ETS:推論時間スケーリングのための効率的な木探索
- Authors: Coleman Hooper, Sehoon Kim, Suhong Moon, Kerem Dilmen, Monishwaran Maheswaran, Nicholas Lee, Michael W. Mahoney, Sophia Shao, Kurt Keutzer, Amir Gholami,
- Abstract要約: テストタイムの計算スケーリングにおいて有望なアプローチのひとつは、プロセス報酬モデルに対する検索である。
木探索過程における軌跡の多様性は、多様性の増大がさらなる探索を促進するため、探索の精度に影響を与える。
本稿では,冗長なトラジェクトリを抽出し,必要な多様なトラジェクトリを維持しながら,KVの共有を促進する効率的なツリー探索(ETS)を提案する。
- 参考スコア(独自算出の注目度): 61.553681244572914
- License:
- Abstract: Test-time compute scaling has emerged as a new axis along which to improve model accuracy, where additional computation is used at inference time to allow the model to think longer for more challenging problems. One promising approach for test-time compute scaling is search against a process reward model, where a model generates multiple potential candidates at each step of the search, and these partial trajectories are then scored by a separate reward model in order to guide the search process. The diversity of trajectories in the tree search process affects the accuracy of the search, since increasing diversity promotes more exploration. However, this diversity comes at a cost, as divergent trajectories have less KV sharing, which means they consume more memory and slow down the search process. Previous search methods either do not perform sufficient exploration, or else explore diverse trajectories but have high latency. We address this challenge by proposing Efficient Tree Search (ETS), which promotes KV sharing by pruning redundant trajectories while maintaining necessary diverse trajectories. ETS incorporates a linear programming cost model to promote KV cache sharing by penalizing the number of nodes retained, while incorporating a semantic coverage term into the cost model to ensure that we retain trajectories which are semantically different. We demonstrate how ETS can achieve 1.8$\times$ reduction in average KV cache size during the search process, leading to 1.4$\times$ increased throughput relative to prior state-of-the-art methods, with minimal accuracy degradation and without requiring any custom kernel implementation. Code is available at: https://github.com/SqueezeAILab/ETS.
- Abstract(参考訳): テストタイムの計算スケーリングは、モデル精度を改善するために新しい軸として現れており、推論時にさらなる計算を使用して、より困難な問題に対してモデルをより長く考えることができる。
テストタイムの計算スケーリングにおいて有望なアプローチの1つは、プロセス報酬モデルに対する探索であり、モデルが探索の各ステップで複数の潜在的候補を生成し、これらの部分的軌道は探索プロセスを導くために別の報酬モデルによってスコアされる。
木探索過程におけるトラジェクトリーの多様性は、多様性の増大がさらなる探索を促進するため、探索の精度に影響を与える。
しかし、この多様性はKV共有が少ないためコストがかかるため、より多くのメモリを消費し、検索プロセスを遅くすることを意味する。
従来の探索手法では十分な探索ができないか、多種多様な軌道を探索するが、レイテンシが高い。
本稿では,効率的な木探索(ETS)を提案することで,冗長な軌跡を抽出し,必要な多様な軌跡を維持しながらKVの共有を促進する。
ETSは線形プログラミングコストモデルを導入してKVキャッシュの共有を促進するとともに、意味的カバレッジ項をコストモデルに組み込んで、意味的に異なるトラジェクトリを保持することを保証する。
我々は,ETSが検索処理中に平均KVキャッシュサイズを1.8$\times$削減し,従来の最先端手法と比較して1.4$\times$スループットを向上できることを示す。
コードは、https://github.com/SqueezeAILab/ETS.comで入手できる。
関連論文リスト
- Q-VLM: Post-training Quantization for Large Vision-Language Models [73.19871905102545]
本稿では,大規模視覚言語モデル(LVLM)の学習後量子化フレームワークを提案する。
視覚言語モデル全体の離散化誤差に大きな影響を及ぼす層間依存関係を抽出し、この依存関係を最適な量子化戦略に組み込む。
実験の結果,提案手法はメモリを2.78倍圧縮し,出力速度を約13B LLaVAモデルで1.44倍向上させることができた。
論文 参考訳(メタデータ) (2024-10-10T17:02:48Z) - Multimodal Learned Sparse Retrieval with Probabilistic Expansion Control [66.78146440275093]
学習検索(LSR)は、クエリとドキュメントを疎語彙ベクトルにエンコードするニューラルネットワークのファミリーである。
テキスト画像検索に焦点をあて,マルチモーダル領域へのLSRの適用について検討する。
LexLIPやSTAIRのような現在のアプローチでは、大規模なデータセットで複雑なマルチステップのトレーニングが必要です。
提案手法は, 密度ベクトルを凍結密度モデルからスパース語彙ベクトルへ効率的に変換する。
論文 参考訳(メタデータ) (2024-02-27T14:21:56Z) - MGAS: Multi-Granularity Architecture Search for Trade-Off Between Model
Effectiveness and Efficiency [10.641875933652647]
我々は,多粒度アーキテクチャサーチ(MGAS)を導入し,効率的かつ効率的なニューラルネットワークを探索する。
各粒度レベル固有の離散化関数を学習し、進化したアーキテクチャに従って単位残率を適応的に決定する。
CIFAR-10、CIFAR-100、ImageNetの大規模な実験により、MGASはモデル性能とモデルサイズとのトレードオフを改善するために、他の最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-10-23T16:32:18Z) - Single-Stage Visual Relationship Learning using Conditional Queries [60.90880759475021]
TraCQは、マルチタスク学習問題とエンティティペアの分布を回避する、シーングラフ生成の新しい定式化である。
我々は,DETRをベースとしたエンコーダ-デコーダ条件付きクエリを用いて,エンティティラベル空間を大幅に削減する。
実験結果から、TraCQは既存のシングルステージシーングラフ生成法よりも優れており、Visual Genomeデータセットの最先端の2段階メソッドを多く上回っていることがわかった。
論文 参考訳(メタデータ) (2023-06-09T06:02:01Z) - Provable and Practical: Efficient Exploration in Reinforcement Learning via Langevin Monte Carlo [104.9535542833054]
我々は、強化学習のためのトンプソンサンプリングに基づくスケーラブルで効果的な探索戦略を提案する。
代わりに、Langevin Monte Carlo を用いて、Q 関数をその後部分布から直接サンプリングする。
提案手法は,Atari57スイートからのいくつかの挑戦的な探索課題において,最先端の深部RLアルゴリズムと比較して,より優れた,あるいは類似した結果が得られる。
論文 参考訳(メタデータ) (2023-05-29T17:11:28Z) - Deep Forest with Hashing Screening and Window Screening [25.745779145969053]
我々はgcForestの多粒度走査のためのハッシュスクリーニング機構を導入する。
我々は,HW-Forestと呼ばれる,ハッシュスクリーニングとウィンドウスクリーニングという2つの戦略を採用するモデルを提案する。
実験の結果,HW-Forestは他のモデルよりも精度が高く,時間コストも低減された。
論文 参考訳(メタデータ) (2022-07-25T07:39:55Z) - Fast Line Search for Multi-Task Learning [0.0]
マルチタスク学習における行探索アルゴリズムの新しいアイデアを提案する。
この考え方は、ステップサイズを見つけるためにパラメータ空間の代わりに潜在表現空間を使用することである。
本稿では,MNIST,CIFAR-10,Cityscapesタスクの学習速度を一定とする古典的バックトラック法と勾配法を比較した。
論文 参考訳(メタデータ) (2021-10-02T21:02:29Z) - Effective Model Sparsification by Scheduled Grow-and-Prune Methods [73.03533268740605]
本稿では,高密度モデルの事前学習を伴わない新規なGrow-and-prune(GaP)手法を提案する。
実験により、そのようなモデルは様々なタスクにおいて80%の間隔で高度に最適化された高密度モデルの品質に適合または打ち勝つことができることが示された。
論文 参考訳(メタデータ) (2021-06-18T01:03:13Z) - Stagnation Detection in Highly Multimodal Fitness Landscapes [0.0]
局所最適化から逃れるためのランダム化探索のメカニズムとして,定常検出法が提案されている。
本稿では,探索半径をより注意深く制御するために,静止検出に付加できる半径メモリと呼ばれる新しい機構について検討する。
このアイデアはSD-RLS$textm$と呼ばれるアルゴリズムで実装され、それまでのステージング検出の変種と比較して高速化された。
論文 参考訳(メタデータ) (2021-04-09T14:33:52Z) - Effective and Fast: A Novel Sequential Single Path Search for
Mixed-Precision Quantization [45.22093693422085]
混合精度量子化モデルは、異なる層の感度に応じて異なる量子化ビット精度にマッチし、優れた性能を達成できます。
いくつかの制約に従ってディープニューラルネットワークにおける各層の量子化ビット精度を迅速に決定することは難しい問題である。
混合精度量子化のための新規なシーケンシャルシングルパス探索(SSPS)法を提案する。
論文 参考訳(メタデータ) (2021-03-04T09:15:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。