論文の概要: Recursive Inference Scaling: A Winning Path to Scalable Inference in Language and Multimodal Systems
- arxiv url: http://arxiv.org/abs/2502.07503v4
- Date: Thu, 08 May 2025 11:40:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 13:13:47.738052
- Title: Recursive Inference Scaling: A Winning Path to Scalable Inference in Language and Multimodal Systems
- Title(参考訳): Recursive Inference Scaling: 言語およびマルチモーダルシステムにおけるスケーラブル推論への勝利パス
- Authors: Ibrahim Alabdulmohsin, Xiaohua Zhai,
- Abstract要約: 本稿では,言語およびマルチモーダルシステムにおける推論時間をスケールするための補完的なプラグインレシピとして,Recursive Inference Scaling (RINS)を紹介した。
RINS はモバイル LLM の最近の "repeat-all-over" (RAO) 戦略など、他の55種類よりも大幅に優れている。
軽量アダプタでは、RINSは非レグレット戦略を提供するため、RINS対応プレトレーニングにより言語モデリングのパフォーマンスが向上する。
- 参考スコア(独自算出の注目度): 21.01887711305712
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inspired by recent findings on the fractal geometry of language, we introduce Recursive INference Scaling (RINS) as a complementary, plug-in recipe for scaling inference time in language and multimodal systems. RINS is a particular form of recursive depth that significantly outperforms +55 other variants, including the recent "repeat-all-over" (RAO) strategy in Mobile LLM (Liu et al., 2024) and latent recurrent thinking (Geiping et al., 2025). Unlike prior works, we carry out our comparisons on a compute-matched regime, and demonstrate that for a fixed model size and training compute budget, RINS substantially improves language modeling performance. It also generalizes beyond pure language tasks, delivering gains in multimodal systems, including a +2% improvement in 0-shot ImageNet accuracy for SigLIP-B/16. Additionally, by deriving data scaling laws, we show that RINS improves both the asymptotic performance limits and the scaling exponents. More importantly, with light-weight (linear) adapters (comprising <1% of model parameters) and stochastic dropout, RINS offers a no-regret strategy, meaning that RINS-enabled pretraining improves performance in language modeling even when recursive depth is not applied at inference time. This corresponds to improving performance on a training compute-, parameter-, and inference-matched regime, suggesting its potential as a viable component of LLM pretraining!
- Abstract(参考訳): 言語のフラクタル幾何に関する最近の知見に触発されて、言語およびマルチモーダルシステムにおける推論時間をスケールするための補完的なプラグインレシピとして、Recursive Inference Scaling (RINS)を紹介した。
RINS は、モバイル LLM (Liu et al , 2024) における最近の "repeat-all-over" (RAO) 戦略や、潜時的反復思考 (Geiping et al , 2025) など、55以上の変種を著しく上回る、特別な帰納的深さの形式である。
従来の研究と異なり、我々は計算マッチング方式で比較を行い、固定されたモデルサイズと計算予算の訓練のために、RINSは言語モデリング性能を大幅に改善することを示した。
また、純粋な言語タスクを超えて、SigLIP-B/16の0ショットイメージネット精度を+2%改善するなど、マルチモーダルシステムでのゲインを提供する。
さらに、データスケーリング法則を導出することにより、RINSは漸近的な性能限界とスケーリング指数の両方を改善していることを示す。
さらに、軽量(線形)アダプタ(モデルパラメータの1%以上を占める)と確率的なドロップアウトにより、RINSは、推論時に再帰的な深さが適用されない場合でも、RINS対応の事前学習により言語モデリングのパフォーマンスが向上する。
これは、LLM事前学習の実行可能なコンポーネントとしての可能性を示唆する、トレーニング計算、パラメータ、推論整合型システムの性能向上に対応している。
関連論文リスト
- Exploring Training and Inference Scaling Laws in Generative Retrieval [50.82554729023865]
モデルサイズ,トレーニングデータスケール,推論時間計算が生成的検索性能にどのように影響するかを検討する。
実験の結果,n-gram-based method はトレーニング法と推論法の両方と強く一致していることがわかった。
LLaMAモデルはT5モデルより一貫して優れており、生成検索におけるデコーダのみの大きなモデルに対して特に有利であることが示唆された。
論文 参考訳(メタデータ) (2025-03-24T17:59:03Z) - C2D-ISR: Optimizing Attention-based Image Super-resolution from Continuous to Discrete Scales [6.700548615812325]
我々は、注目に基づく画像超解像モデルの最適化のための新しいフレームワーク、textbfC2D-ISRを提案する。
このアプローチは、2段階のトレーニング手法と階層的なエンコーディング機構に基づいている。
さらに,既存のアテンションベースネットワーク構造を用いて階層符号化機構を一般化する。
論文 参考訳(メタデータ) (2025-03-17T21:52:18Z) - LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。
モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。
深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:58:48Z) - Numerical Pruning for Efficient Autoregressive Models [87.56342118369123]
本稿では,デコーダのみを用いた変圧器を用いた自己回帰モデルの圧縮に着目する。
具体的には,ニュートン法とモジュールの数値スコアをそれぞれ計算する学習自由プルーニング法を提案する。
提案手法の有効性を検証するため,理論的支援と広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-12-17T01:09:23Z) - Inference Scaling for Long-Context Retrieval Augmented Generation [37.15479223789199]
本研究では,検索拡張生成(RAG)のための推論スケーリングについて検討する。
インコンテキスト学習と反復的プロンプトという,2つの推論スケーリング戦略に注目します。
我々は、長期コンテキストの大規模言語モデル上での推論計算のスケーリングが、ベンチマークデータセットで最大58.9%のゲインを達成することを実証した。
論文 参考訳(メタデータ) (2024-10-06T03:42:15Z) - Efficient and Flexible Neural Network Training through Layer-wise Feedback Propagation [49.44309457870649]
ニューラルネットワークのような予測器のための新しいトレーニング原理であるLFP(Layer-wise Feedback Propagation)を提案する。
LFPは、与えられたタスクの解決へのそれぞれの貢献に基づいて、個々のニューロンに報酬を分解する。
提案手法は,ネットワークの有用な部分を補強し,有害な部分を弱めるという欲求的アプローチを実現する。
論文 参考訳(メタデータ) (2023-08-23T10:48:28Z) - Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。
本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文 参考訳(メタデータ) (2022-10-02T05:03:38Z) - Revisiting Neural Scaling Laws in Language and Vision [43.57394336742374]
我々は、最適なパラメータを報告するのではなく、外挿損失に基づくより厳密な方法論を論じる。
本稿では,学習曲線から法則パラメータのスケーリングを確実に推定する手法を提案する。
複数のドメインにまたがる幅広いアーキテクチャファミリにおいて,従来手法よりも高精度に外挿できることを実証した。
論文 参考訳(メタデータ) (2022-09-13T09:41:51Z) - Rényi Divergence Deep Mutual Learning [3.682680183777648]
本稿では,Deep Learning Mutual (DML) を,単純かつ効果的な計算パラダイムとして再考する。
より柔軟で限定的なKL発散の代わりにR'enyi発散を提案する。
我々の経験的結果は、DMLとR'enyiの発散を併用した利点を示し、モデル一般化のさらなる改善につながった。
論文 参考訳(メタデータ) (2022-09-13T04:58:35Z) - Stabilizing Q-learning with Linear Architectures for Provably Efficient
Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。
このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文 参考訳(メタデータ) (2022-06-01T23:26:51Z) - Dual Optimization for Kolmogorov Model Learning Using Enhanced Gradient
Descent [8.714458129632158]
コルモゴロフモデル(コルモゴロフモデル、英: Kolmogorov model、KM)は、確率変数の集合の基本的な確率構造を学ぶための解釈可能で予測可能な表現手法である。
正規化双対最適化と拡張勾配降下法(GD)を併用した計算スケーラブルなKM学習アルゴリズムを提案する。
提案したKM学習アルゴリズムを用いた論理的関係マイニングの精度は80%以上である。
論文 参考訳(メタデータ) (2021-07-11T10:33:02Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z) - Generalized Reinforcement Meta Learning for Few-Shot Optimization [3.7675996866306845]
本稿では, 汎用的かつ柔軟な強化学習(RL)に基づくメタラーニングフレームワークを提案する。
我々のフレームワークは簡単にネットワークアーキテクチャ検索に拡張できる。
論文 参考訳(メタデータ) (2020-05-04T03:21:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。