論文の概要: FiDO: Fusion-in-Decoder optimized for stronger performance and faster
inference
- arxiv url: http://arxiv.org/abs/2212.08153v1
- Date: Thu, 15 Dec 2022 21:35:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-19 14:10:58.380357
- Title: FiDO: Fusion-in-Decoder optimized for stronger performance and faster
inference
- Title(参考訳): FiDO:Fusion-in-Decoderによるパフォーマンス向上と推論高速化
- Authors: Michiel de Jong, Yury Zemlyanskiy, Joshua Ainslie, Nicholas
FitzGerald, Sumit Sanghai, Fei Sha, William Cohen
- Abstract要約: 推定時間の大部分がデコーダのメモリ帯域幅の制約によるものであることを示す。
推論速度を7倍に向上させるため,FiDアーキテクチャの2つの簡単な変更を提案する。
- 参考スコア(独自算出の注目度): 23.85786594315147
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fusion-in-Decoder (FiD) is a powerful retrieval-augmented language model that
sets the state-of-the-art on many knowledge-intensive NLP tasks. However, FiD
suffers from very expensive inference. We show that the majority of inference
time results from memory bandwidth constraints in the decoder, and propose two
simple changes to the FiD architecture to speed up inference by 7x. The faster
decoder inference then allows for a much larger decoder. We denote FiD with the
above modifications as FiDO, and show that it strongly improves performance
over existing FiD models for a wide range of inference budgets. For example,
FiDO-Large-XXL performs faster inference than FiD-Base and achieves better
performance than FiD-Large.
- Abstract(参考訳): Fusion-in-Decoder (FiD)は、多くの知識集約型NLPタスクに最先端を設定できる強力な検索拡張言語モデルである。
しかし、FiDは非常に高価な推測に悩まされている。
推論時間の大部分はデコーダのメモリ帯域幅の制約によるものであり、fidアーキテクチャの7倍の高速化のために2つの単純な変更を提案する。
高速なデコーダ推論により、はるかに大きなデコーダが可能になる。
上述した修正をFiDOと表現し、既存のFiDモデルよりも広範囲の推論予算において性能を強く向上させることを示す。
例えば、FiDO-Large-XXLはFiD-Baseよりも高速な推論を行い、FiD-Largeよりも優れたパフォーマンスを実現する。
関連論文リスト
- LADDER: An Efficient Framework for Video Frame Interpolation [12.039193291203492]
ビデオフレーム補間(VFI)は、スローモーション生成、フレームレート変換、ビデオフレーム復元など、様々な応用において重要な技術である。
本稿では,効率と品質のバランスをとることを目的とした,効率的なビデオフレームフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-17T06:47:17Z) - Extreme Encoder Output Frame Rate Reduction: Improving Computational
Latencies of Large End-to-End Models [59.57732929473519]
エンコーダに複数のフレーム削減層を適用し,少数の出力フレームにエンコーダ出力を圧縮する。
入力音声の2.56秒毎に1つのエンコーダ出力フレームを生成できることを示す。
論文 参考訳(メタデータ) (2024-02-27T03:40:44Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - Practical Conformer: Optimizing size, speed and flops of Conformer for
on-Device and cloud ASR [67.63332492134332]
我々は、デバイス上の制約を満たすのに十分小さく、TPUを高速に推論できる最適化されたコンバータを設計する。
提案するエンコーダは、デバイス上では強力なスタンドアロンエンコーダとして、また高性能なASRパイプラインの第1部として利用することができる。
論文 参考訳(メタデータ) (2023-03-31T23:30:48Z) - Pre-computed memory or on-the-fly encoding? A hybrid approach to
retrieval augmentation makes the most of your compute [23.85786594315147]
フュージョン・イン・デコーダ(Fusion-in-Decoder)は強力な技術であり、様々な知識集約的なタスクにアートの状態を設定する。
テキストコーパスをメモリにプリエンコードし、密度の高い表現を直接取得することで、このコストを回避する作業もある。
両極間のハイブリッドであるLUMENを提案し,検索表現の大部分を事前計算し,符号化をオンザフライで完了させる。
LUMENは、FiDよりもはるかに安価で、複数の質問応答タスクにおいて純粋メモリを著しく上回り、任意の計算予算において両者を上回ります。
論文 参考訳(メタデータ) (2023-01-25T07:55:45Z) - Efficiently Scaling Transformer Inference [8.196193683641582]
本稿では,トランスフォーマーモデルにおける効率的な生成推論の問題について,最も困難な設定の1つとして検討する。
我々は,TPU v4スライスに最適化された最適多次元分割手法を選択するための,推論効率の簡易な解析モデルを開発した。
我々は,入力トークンの大規模処理において,発生時に1トークンあたり29msの低バッチレイテンシを実現する(Int8重み量子化)。
論文 参考訳(メタデータ) (2022-11-09T18:50:38Z) - FiBiNet++: Reducing Model Size by Low Rank Feature Interaction Layer for
CTR Prediction [2.2147449992337904]
本稿では,FiBiNetのモデル構造に対する新しいFiBiNet++モデルを提案する。
3つの公開データセットの実験によると、FiBiNet++は、3つのデータセットに対して、FiBiNetの非埋め込みモデルパラメータを12倍から16倍に効果的に削減する。
論文 参考訳(メタデータ) (2022-09-12T04:13:49Z) - ED2LM: Encoder-Decoder to Language Model for Faster Document Re-ranking
Inference [70.36083572306839]
本稿では,再ランク付けのための新しいトレーニングおよび推論パラダイムを提案する。
文書形式を用いて事前訓練したエンコーダ・デコーダモデルを精査し,クエリ生成を行う。
このエンコーダ-デコーダアーキテクチャは,推論中にデコーダのみの言語モデルに分解可能であることを示す。
論文 参考訳(メタデータ) (2022-04-25T06:26:29Z) - KG-FiD: Infusing Knowledge Graph in Fusion-in-Decoder for Open-Domain
Question Answering [68.00631278030627]
検索した通路間の構造的関係を知識グラフで利用することにより,ノイズのある通路をフィルタする新しい手法KG-FiDを提案する。
我々は,KG-FiDが解答一致スコアの最大1.5%向上し,計算コストの40%程度でFiDに匹敵する性能が得られることを示した。
論文 参考訳(メタデータ) (2021-10-08T18:39:59Z) - Enhancing sensor resolution improves CNN accuracy given the same number
of parameters or FLOPS [53.10151901863263]
パラメータ数やFLOPSが同じで、高い入力解像度で高い精度が得られるように、ネットワークを変更することは、ほぼ常に可能であることを示す。
MNIST、Fashion MNIST、CIFAR10データセットに関する予備的研究は、提案手法の効率性を実証している。
論文 参考訳(メタデータ) (2021-03-09T06:47:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。