論文の概要: Recursive Inference Scaling: A Winning Path to Scalable Inference in Language and Multimodal Systems
- arxiv url: http://arxiv.org/abs/2502.07503v2
- Date: Wed, 19 Feb 2025 09:24:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-20 13:57:01.193716
- Title: Recursive Inference Scaling: A Winning Path to Scalable Inference in Language and Multimodal Systems
- Title(参考訳): Recursive Inference Scaling: 言語およびマルチモーダルシステムにおけるスケーラブル推論への勝利パス
- Authors: Ibrahim Alabdulmohsin, Xiaohua Zhai,
- Abstract要約: 本稿では,Recursive Inference Scaling (RINS) を,推論時間をスケーリングするための補完的なプラグインレシピとして紹介する。
与えられた固定モデルアーキテクチャとトレーニング計算予算のために、RINSは言語モデリングのパフォーマンスを大幅に改善する。
RINSは、SigLIP-B/16の0ショット画像Net精度を+2%改善するなど、マルチモーダルシステムでゲインを提供する。
- 参考スコア(独自算出の注目度): 21.01887711305712
- License:
- Abstract: Recent research in language modeling reveals two scaling effects: the well-known improvement from increased training compute, and a lesser-known boost from applying more sophisticated or computationally intensive inference methods. Inspired by recent findings on the fractal geometry of language, we introduce Recursive INference Scaling (RINS) as a complementary, plug-in recipe for scaling inference time. For a given fixed model architecture and training compute budget, RINS substantially improves language modeling performance. It also generalizes beyond pure language tasks, delivering gains in multimodal systems, including a +2% improvement in 0-shot ImageNet accuracy for SigLIP-B/16. Additionally, by deriving data scaling laws, we show that RINS improves both the asymptotic performance limits and the scaling exponents. These advantages are maintained even when compared to state-of-the-art recursive techniques like the "repeat-all-over" (RAO) strategy in Mobile LLM. Finally, stochastic RINS not only can enhance performance further but also provides the flexibility to optionally forgo increased inference computation at test time with minimal performance degradation.
- Abstract(参考訳): 言語モデリングにおける最近の研究は、トレーニング計算の増加によるよく知られた改善と、より洗練された、あるいは計算集約的な推論手法の適用によるあまり知られていない向上の2つのスケーリング効果を明らかにしている。
言語のフラクタル幾何に関する最近の知見に触発されて、推論時間をスケーリングするための補完的なプラグインレシピとしてRecursive Inference Scaling (RINS)を紹介した。
与えられた固定モデルアーキテクチャとトレーニング計算予算のために、RINSは言語モデリングのパフォーマンスを大幅に改善する。
また、純粋な言語タスクを超えて、SigLIP-B/16の0ショットイメージネット精度を+2%改善するなど、マルチモーダルシステムでのゲインを提供する。
さらに、データスケーリング法則を導出することにより、RINSは漸近的な性能限界とスケーリング指数の両方を改善していることを示す。
これらの利点は、Mobile LLM の "repeat-all-over" (RAO) 戦略のような最先端の再帰的手法と比較しても維持される。
最後に、確率的RINSはパフォーマンスをさらに向上するだけでなく、パフォーマンスの低下を最小限に抑えながら、テスト時に増大する推論計算を任意に禁ずる柔軟性を提供する。
関連論文リスト
- LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。
モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。
深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:58:48Z) - DRPruning: Efficient Large Language Model Pruning through Distributionally Robust Optimization [61.492590008258986]
大きな言語モデル(LLM)は素晴らしい結果をもたらすが、モデルのサイズと計算コストの増加による課題に直面している。
本稿では,分散的にロバストな最適化を取り入れたDRPruningを提案する。
論文 参考訳(メタデータ) (2024-11-21T12:02:39Z) - Inference Scaling for Long-Context Retrieval Augmented Generation [37.15479223789199]
本研究では,検索拡張生成(RAG)のための推論スケーリングについて検討する。
インコンテキスト学習と反復的プロンプトという,2つの推論スケーリング戦略に注目します。
我々は、長期コンテキストの大規模言語モデル上での推論計算のスケーリングが、ベンチマークデータセットで最大58.9%のゲインを達成することを実証した。
論文 参考訳(メタデータ) (2024-10-06T03:42:15Z) - Efficient and Flexible Neural Network Training through Layer-wise Feedback Propagation [49.44309457870649]
ニューラルネットワークのような予測器のための新しいトレーニング原理であるLFP(Layer-wise Feedback Propagation)を提案する。
LFPは、与えられたタスクの解決へのそれぞれの貢献に基づいて、個々のニューロンに報酬を分解する。
提案手法は,ネットワークの有用な部分を補強し,有害な部分を弱めるという欲求的アプローチを実現する。
論文 参考訳(メタデータ) (2023-08-23T10:48:28Z) - Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。
本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文 参考訳(メタデータ) (2022-10-02T05:03:38Z) - Revisiting Neural Scaling Laws in Language and Vision [43.57394336742374]
我々は、最適なパラメータを報告するのではなく、外挿損失に基づくより厳密な方法論を論じる。
本稿では,学習曲線から法則パラメータのスケーリングを確実に推定する手法を提案する。
複数のドメインにまたがる幅広いアーキテクチャファミリにおいて,従来手法よりも高精度に外挿できることを実証した。
論文 参考訳(メタデータ) (2022-09-13T09:41:51Z) - Stabilizing Q-learning with Linear Architectures for Provably Efficient
Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。
このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文 参考訳(メタデータ) (2022-06-01T23:26:51Z) - Dual Optimization for Kolmogorov Model Learning Using Enhanced Gradient
Descent [8.714458129632158]
コルモゴロフモデル(コルモゴロフモデル、英: Kolmogorov model、KM)は、確率変数の集合の基本的な確率構造を学ぶための解釈可能で予測可能な表現手法である。
正規化双対最適化と拡張勾配降下法(GD)を併用した計算スケーラブルなKM学習アルゴリズムを提案する。
提案したKM学習アルゴリズムを用いた論理的関係マイニングの精度は80%以上である。
論文 参考訳(メタデータ) (2021-07-11T10:33:02Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z) - Generalized Reinforcement Meta Learning for Few-Shot Optimization [3.7675996866306845]
本稿では, 汎用的かつ柔軟な強化学習(RL)に基づくメタラーニングフレームワークを提案する。
我々のフレームワークは簡単にネットワークアーキテクチャ検索に拡張できる。
論文 参考訳(メタデータ) (2020-05-04T03:21:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。