論文の概要: Learning How Hard to Think: Input-Adaptive Allocation of LM Computation
- arxiv url: http://arxiv.org/abs/2410.04707v1
- Date: Mon, 7 Oct 2024 02:52:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 02:27:38.550472
- Title: Learning How Hard to Think: Input-Adaptive Allocation of LM Computation
- Title(参考訳): LM計算の入力適応アロケーションについて考えるのがいかに難しいか
- Authors: Mehul Damani, Idan Shenfeld, Andi Peng, Andreea Bobu, Jacob Andreas,
- Abstract要約: 計算集約的な復号処理は、コード生成、数値推論、ダイアログにまたがる問題において、言語モデル(LM)出力の品質を向上させることができる。
精度の高い計算割当手順を学習でき、応答品質を犠牲にすることなく最大50%の計算を減らしたり、固定された計算予算で最大10%品質を向上できることを示す。
- 参考スコア(独自算出の注目度): 41.40870191201561
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Computationally intensive decoding procedures--including search, reranking, and self-critique--can improve the quality of language model (LM) outputs in problems spanning code generation, numerical reasoning, and dialog. Existing work typically applies the same decoding procedure for every input to an LM. But not all inputs require the same amount of computation to process. Can we allocate decoding computation adaptively, using more resources to answer questions whose answers will be harder to compute? We present an approach that predicts the distribution of rewards given an input and computation budget, then allocates additional computation to inputs for which it is predicted to be most useful. We apply this approach in two decoding procedures: first, an adaptive best-of-k procedure that dynamically selects the number of samples to generate as input to a reranker; second, a routing procedure that dynamically responds to a query using a decoding procedure that is expensive but accurate, or one that is cheaper but less capable. Across a suite of programming, mathematics, and dialog tasks, we show that accurate computation-allocation procedures can be learned, and reduce computation by up to 50% at no cost to response quality, or improve quality by up to 10% at a fixed computational budget.
- Abstract(参考訳): コード生成、数値推論、ダイアログにまたがる問題における言語モデル(LM)出力の品質を改善する。
既存の作業は通常、LMに全ての入力に対して同じ復号手順を適用する。
しかし、全ての入力が処理に同じ量の計算を必要とするわけではない。
デコード計算を適応的に割り当てて、より多くのリソースを使って、答えが計算しづらい質問に答えることができるか?
本稿では,入力と計算予算が与えられた報酬の分配を予測し,次に最も有用であると予測される入力に余分な計算を割り当てる手法を提案する。
本稿では,提案手法を2つのデコード手順に適用する。第1に,リランカへの入力として生成するサンプル数を動的に選択する適応的ベスト・オブ・kプロシージャ,第2に,高価で精度の低いデコードプロシージャを用いてクエリに動的に応答するルーティングプロシージャ,第2に,安価で低機能なデコードプロシージャである。
プログラム,数学,ダイアログの一連のタスクを通して,正確な計算割当手順を学習し,応答品質を犠牲にすることなく計算を最大50%削減したり,固定された計算予算で最大10%品質を向上することができることを示す。
関連論文リスト
- Predicting Probabilities of Error to Combine Quantization and Early Exiting: QuEE [68.6018458996143]
本稿では,量子化と早期出口動的ネットワークを組み合わせたより一般的な動的ネットワークQuEEを提案する。
我々のアルゴリズムは、ソフトアーリーエグジットや入力依存圧縮の一形態と見なすことができる。
提案手法の重要な要素は、さらなる計算によって実現可能な潜在的な精度向上の正確な予測である。
論文 参考訳(メタデータ) (2024-06-20T15:25:13Z) - Recursive Visual Programming [53.76415744371285]
本稿では、生成ルーチンを単純化し、より効率的な問題解決を提供し、より複雑なデータ構造を管理するRecursive Visual Programming (RVP)を提案する。
本稿では,VSR,COVR,GQA,NextQAなどのベンチマークにおいて,RVPの有効性を示す。
論文 参考訳(メタデータ) (2023-12-04T17:27:24Z) - Exploring Equation as a Better Intermediate Meaning Representation for
Numerical Reasoning [53.2491163874712]
我々は数値推論の問題を解くために方程式をIMRとして利用する。
本稿では、方程式(ブリッジ)の生成を分解したブースティング数値推論法を提案する。
本手法では,GSM8K,SVAMP,Algebraデータセットの2.2%,0.9%,1.7%の性能向上を実現している。
論文 参考訳(メタデータ) (2023-08-21T09:35:33Z) - Towards Model-Size Agnostic, Compute-Free, Memorization-based Inference
of Deep Learning [5.41530201129053]
本稿では,新しい暗記ベース推論(MBI)を提案する。
具体的には、リカレント・アテンション・モデル(RAM)の推論機構に着目します。
低次元のスリープ性を活用することで、我々の推論手順は、スリープ位置、パッチベクトルなどからなるキー値対をテーブルに格納する。
計算は、テーブルを利用してキーと値のペアを読み出し、暗記による計算自由推論を実行することにより、推論中に妨げられる。
論文 参考訳(メタデータ) (2023-07-14T21:01:59Z) - Parallel Scheduling Self-attention Mechanism: Generalization and
Optimization [0.76146285961466]
本稿では,SAT(Satisfiability check)ソルバによって解決された小インスタンスの最適スケジューリングから導いた一般スケジューリングアルゴリズムを提案する。
余剰計算をスキップする際のさらなる最適化戦略も推進され、元の計算の約25%と50%の削減が達成される。
提案アルゴリズムは、入力ベクトルの数がアーキテクチャで利用可能な演算ユニットの数に割り切れる限り、問題のサイズにかかわらず適用可能である。
論文 参考訳(メタデータ) (2020-12-02T12:04:16Z) - Don't Read Too Much into It: Adaptive Computation for Open-Domain
Question Answering [38.866606343807]
Open-Domain Question Answeringへのほとんどのアプローチは、候補パスのセットを選択する軽量な検索器と、正しい回答を特定するためにパスを調べる計算コストの高い読者で構成されている。
これまでの研究では、検索されたパスの数が増加するにつれて、読み手のパフォーマンスも向上することが示されている。
そこで本稿では,読み込むパスに割り当てられる計算予算を制御するために,適応計算を用いることを提案する。
SQuAD-Openで行った結果から,グローバルな優先順位付けによる適応計算は,複数の強い静的および適応的手法よりも向上し,全モデルの95%性能を維持しつつ,計算の4.3倍の削減が達成された。
論文 参考訳(メタデータ) (2020-11-10T22:37:56Z) - Learning to Actively Learn: A Robust Approach [22.75298609290053]
本研究では,アクティブラーニングや純粋探索型マルチアームバンディットといった適応データ収集タスクのアルゴリズム設計手法を提案する。
我々の適応アルゴリズムは、情報理論の下界から導かれる問題の同値クラスに対する逆学習によって学習される。
我々は,訓練手順の安定性と有効性を正当化するための合成実験を行い,実データから導出される課題について評価する。
論文 参考訳(メタデータ) (2020-10-29T06:48:22Z) - Strong Generalization and Efficiency in Neural Programs [69.18742158883869]
本稿では,ニューラルプログラム誘導の枠組みを強く一般化する効率的なアルゴリズムを学習する問題について検討する。
ニューラルネットワークの入力/出力インターフェースを慎重に設計し、模倣することで、任意の入力サイズに対して正しい結果を生成するモデルを学ぶことができる。
論文 参考訳(メタデータ) (2020-07-07T17:03:02Z) - Coded Distributed Computing with Partial Recovery [56.08535873173518]
部分回復型符号化計算(CCPR)と呼ばれる新しい符号化行列ベクトル乗法を導入する。
CCPRは計算時間と復号化の複雑さを減らし、精度と計算速度のトレードオフを可能にする。
次に、この手法をより一般的な計算タスクの分散実装に拡張し、部分的回復を伴う符号化通信方式を提案する。
論文 参考訳(メタデータ) (2020-07-04T21:34:49Z) - Controlling Computation versus Quality for Neural Sequence Models [42.525463454120256]
条件付き計算は、推論中にニューラルシーケンスモデル(トランスフォーマー)をより効率的かつ計算に適応させる。
i)WMT英仏訳と(ii)教師なし表現学習(BERT)の2つの課題に対するアプローチを評価する。
論文 参考訳(メタデータ) (2020-02-17T17:54:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。