Fugu-MT 論文翻訳(概要): RAEE: A Training-Free Retrieval-Augmented Early Exiting Framework for Efficient Inference

論文の概要: RAEE: A Training-Free Retrieval-Augmented Early Exiting Framework for Efficient Inference

arxiv url: http://arxiv.org/abs/2405.15198v1
Date: Fri, 24 May 2024 04:01:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-27 18:09:00.238546
Title: RAEE: A Training-Free Retrieval-Augmented Early Exiting Framework for Efficient Inference
Title（参考訳）: RAEE: 効率的な推論のためのトレーニング不要検索拡張早期実行フレームワーク
Authors: Lianming Huang, Shangyu Wu, Yufei Cui, Ying Xiong, Xue Liu, Tei-Wei Kuo, Nan Guan, Chun Jason Xue,
Abstract要約: 本稿では、効率的な推論のためのトレーニング不要な検索拡張早期実行フレームワークであるRAEEを提案する。実験の結果,提案したRAEEは推論を著しく加速できることが示された。 RAEEは8つの分類タスクで最先端のゼロショットのパフォーマンスも達成している。
参考スコア（独自算出の注目度）: 20.250550771195726
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Deploying large language model inference remains challenging due to their high computational overhead. Early exiting accelerates model inference by adaptively reducing the number of inference layers. Existing methods require training internal classifiers to determine whether to exit at each intermediate layer. However, such classifier-based early exiting frameworks require significant effort to design and train the classifiers. To address these limitations, this paper proposes RAEE, a training-free Retrieval-Augmented Early Exiting framework for efficient inference. First, this paper demonstrates that the early exiting problem can be modeled as a distribution prediction problem, where the distribution is approximated using similar data's existing information. Next, the paper details the process of collecting existing information to build the retrieval database. Finally, based on the pre-built retrieval database, RAEE leverages the retrieved similar data's exiting information to guide the backbone model to exit at the layer, which is predicted by the approximated distribution. Experimental results demonstrate that the proposed RAEE can significantly accelerate inference. RAEE also achieves state-of-the-art zero-shot performance on 8 classification tasks.
Abstract（参考訳）: 大きな言語モデルの推論の展開は、高い計算オーバーヘッドのため、依然として困難である。早期終了は、推論層の数を適応的に減少させることで、モデル推論を加速する。既存の手法では、各中間層で出口を決定するために内部分類器を訓練する必要がある。しかし、そのような分類器ベースの早期終了フレームワークは、分類器の設計と訓練に多大な努力を必要とする。これらの制約に対処するため,本論文では,効率的な推論のためのトレーニング不要なRetrieval-Augmented Early ExitingフレームワークであるRAEEを提案する。まず, 早期退避問題を分布予測問題としてモデル化し, 類似データの既存情報を用いて分布を近似することを示した。次に,既存の情報を集めて検索データベースを構築する方法について述べる。最後に、予め構築された検索データベースに基づいて、RAEEは、取得した類似データの出口情報を利用して、近似分布によって予測されるバックボーンモデルから層への出口を誘導する。実験の結果,提案したRAEEは推論を著しく加速できることが示された。 RAEEは8つの分類タスクで最先端のゼロショットのパフォーマンスも達成している。

関連論文リスト

Maximally-Informative Retrieval for State Space Model Generation [59.954191072042526]
テスト時に特定のクエリに対するモデル不確実性を最小化するために、Retrieval In-Context Optimization (RICO)を導入する。文書検索に外部に依存した従来の検索強化生成(RAG)とは異なり,本手法はモデルから直接のフィードバックを利用する。モデル勾配を用いた標準のトップ$kの検索は、最適化手順を近似し、残余損失への接続を提供することを示す。
論文参考訳（メタデータ） (2025-06-13T18:08:54Z)
Exploring $\ell_0$ Sparsification for Inference-free Sparse Retrievers [4.682757367266358]
既存のスパース検索モデルは、スパース化のためのFLOPS正規化に依存している。 FLOPSを推論のないシナリオに適用しようとする以前の試みは、ルールベースの手法に限られていた。提案手法は推論不要なスパース検索モデル間の最先端性能を実現する。
論文参考訳（メタデータ） (2025-04-21T03:40:43Z)
Exploring Training and Inference Scaling Laws in Generative Retrieval [50.82554729023865]
生成検索は、検索を自己回帰生成タスクとして再構成し、大きな言語モデルがクエリから直接ターゲット文書を生成する。生成的検索におけるトレーニングと推論のスケーリング法則を体系的に検討し,モデルのサイズ,トレーニングデータスケール,推論時間計算が協調的に性能に与える影響について検討した。
論文参考訳（メタデータ） (2025-03-24T17:59:03Z)
The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。 UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文参考訳（メタデータ） (2025-03-04T18:56:03Z)
Data Shapley in One Training Run [88.59484417202454]
Data Shapleyは、機械学習コンテキストにおけるデータのコントリビューションに寄与するための、原則化されたフレームワークを提供する。既存のアプローチでは、計算集約的な異なるデータサブセット上の再学習モデルが必要である。本稿では、対象とするデータモデルに対するスケーラブルなデータ属性を提供することにより、これらの制限に対処するIn-Run Data Shapleyを紹介する。
論文参考訳（メタデータ） (2024-06-16T17:09:24Z)
DAISY: Data Adaptive Self-Supervised Early Exit for Speech Representation Models [55.608981341747246]
本稿では,データ適応型自己監督早期退避(DAISY)を導入する。 DAISYの適応性に関する分析では、ノイズの多いデータ上で(より多くのレイヤを使用して)遅い時間に、クリーンデータ上で(より少ないレイヤを使用して)モデルが早期に(より少ないレイヤを使用して)終了することを示しています。
論文参考訳（メタデータ） (2024-06-08T12:58:13Z)
Rejection via Learning Density Ratios [50.91522897152437]
拒絶による分類は、モデルを予測しないことを許容する学習パラダイムとして現れます。そこで我々は,事前学習したモデルの性能を最大化する理想的なデータ分布を求める。私たちのフレームワークは、クリーンでノイズの多いデータセットで実証的にテストされます。
論文参考訳（メタデータ） (2024-05-29T01:32:17Z)
DRoP: Distributionally Robust Pruning [11.930434318557156]
我々は、訓練されたモデルの分類バイアスにデータプルーニングが与える影響について、最初の系統的研究を行う。そこで我々はDRoPを提案する。DRoPは,標準的なコンピュータビジョンベンチマークにおいて,その性能を実証的に実証し,分散的に頑健な手法である。
論文参考訳（メタデータ） (2024-04-08T14:55:35Z)
DE$^3$-BERT: Distance-Enhanced Early Exiting for BERT based on Prototypical Networks [43.967626080432275]
BERT(DE$3$-BERT)のための新しい遠隔拡張早期実行フレームワークを提案する。我々は,古典的エントロピーに基づく地域情報と距離に基づくグローバル情報とを補完するハイブリッドエグジット戦略を実装した。 GLUEベンチマークの実験では、De$3$-BERTが最先端モデルより一貫して優れていることが示されている。
論文参考訳（メタデータ） (2024-02-03T15:51:17Z)
Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文参考訳（メタデータ） (2023-11-29T05:33:28Z)
Training dynamic models using early exits for automatic speech recognition on resource-constrained devices [15.879328412777008]
初期のアーキテクチャは、そのサイズとアーキテクチャを様々なレベルの計算リソースとASRパフォーマンス要求に適応できる動的モデルの開発を可能にする。また,スクラッチからトレーニングした早期退避モデルは,エンコーダ層が少ない場合に性能を保ちつつ,単一退避モデルや事前学習モデルと比較してタスク精度が向上することを示した。結果は、ASRモデルの早期アーキテクチャのトレーニングダイナミクスに関する洞察を与える。
論文参考訳（メタデータ） (2023-09-18T07:45:16Z)
Sequential Learning Of Neural Networks for Prequential MDL [18.475866691786695]
ニューラルネットワークを用いた画像分類データセットの事前記述長の計算手法を評価する。計算コストを考慮すると、リハーサルによるオンライン学習は好成績であることがわかった。本稿では,画像分類データセットの集合に対する記述長について述べる。
論文参考訳（メタデータ） (2022-10-14T16:30:23Z)
Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文参考訳（メタデータ） (2022-04-13T12:43:12Z)
Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文参考訳（メタデータ） (2021-07-05T12:44:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。