Fugu-MT 論文翻訳(概要): Pre-computed memory or on-the-fly encoding? A hybrid approach to retrieval augmentation makes the most of your compute

論文の概要: Pre-computed memory or on-the-fly encoding? A hybrid approach to retrieval augmentation makes the most of your compute

arxiv url: http://arxiv.org/abs/2301.10448v1
Date: Wed, 25 Jan 2023 07:55:45 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-26 15:49:03.629540
Title: Pre-computed memory or on-the-fly encoding? A hybrid approach to retrieval augmentation makes the most of your compute
Title（参考訳）: プリ計算メモリかオンザフライエンコーディングか? 検索拡張のハイブリッドアプローチは、あなたの計算を最大限に活用する
Authors: Michiel de Jong, Yury Zemlyanskiy, Nicholas FitzGerald, Joshua Ainslie, Sumit Sanghai, Fei Sha, William Cohen
Abstract要約: フュージョン・イン・デコーダ(Fusion-in-Decoder)は強力な技術であり、様々な知識集約的なタスクにアートの状態を設定する。テキストコーパスをメモリにプリエンコードし、密度の高い表現を直接取得することで、このコストを回避する作業もある。両極間のハイブリッドであるLUMENを提案し,検索表現の大部分を事前計算し,符号化をオンザフライで完了させる。 LUMENは、FiDよりもはるかに安価で、複数の質問応答タスクにおいて純粋メモリを著しく上回り、任意の計算予算において両者を上回ります。
参考スコア（独自算出の注目度）: 23.85786594315147
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Retrieval-augmented language models such as Fusion-in-Decoder are powerful, setting the state of the art on a variety of knowledge-intensive tasks. However, they are also expensive, due to the need to encode a large number of retrieved passages. Some work avoids this cost by pre-encoding a text corpus into a memory and retrieving dense representations directly. However, pre-encoding memory incurs a severe quality penalty as the memory representations are not conditioned on the current input. We propose LUMEN, a hybrid between these two extremes, pre-computing the majority of the retrieval representation and completing the encoding on the fly using a live encoder that is conditioned on the question and fine-tuned for the task. We show that LUMEN significantly outperforms pure memory on multiple question-answering tasks while being much cheaper than FiD, and outperforms both for any given compute budget. Moreover, the advantage of LUMEN over FiD increases with model size.
Abstract（参考訳）: fusion-in-decoderのような検索型言語モデルは強力であり、様々な知識集約的なタスクで技術の現状を設定する。しかし、検索された大量のパスをエンコードする必要があるため、コストも高い。テキストコーパスをメモリにプリエンコードし、密表現を直接検索することで、コストを回避する作業もある。しかし、メモリ表現が現在の入力で条件付けされていないため、プリエンコーディングメモリは厳しい品質上のペナルティを負う。提案するLUMENは,検索表現の大部分をプリコンプリートし,質問に対して条件付きかつタスクの微調整を行うライブエンコーダを用いて,ハエの符号化を完了させる。 LUMENは、FiDよりもはるかに安価で、複数の質問応答タスクにおいて純粋メモリを著しく上回り、任意の計算予算において両者を上回ります。さらに、LUMENのFiDに対する優位性はモデルサイズとともに増大する。

関連論文リスト

SecoustiCodec: Cross-Modal Aligned Streaming Single-Codecbook Speech Codec [83.61175662066364]
音声コーデックは、音声とテキスト言語モデルを統一するための重要なブリッジとして機能する。既存の手法はセマンティックエンコーディングにおいていくつかの課題に直面している。本稿では,クロスモーダルな低ビットレートストリーミング音声コーデックSecoustiCodecを提案する。
論文参考訳（メタデータ） (2025-08-04T19:22:14Z)
Efficiently Serving Large Multimodal Models Using EPD Disaggregation [24.05805398635414]
Encode-Prefill-Decode Disaggregation(エンコード・プリフィル・デコード・デコード・デアグリゲーション)という,エンコード・プリフィル・デコード・デコード・デアグリゲーション(Encode-Prefill-Decode Disaggregation)というフレームワークを紹介した。エンコーディングとプリフィルをバンドルする現在のシステムとは異なり、私たちのアプローチはこれらのステップを分離し、新たな機会と最適化を解放します。一般的なLMMを用いた実験では、メモリ効率(ピークメモリ使用率の最大15倍)、バッチサイズ(最大22倍)、リクエストあたり10倍のイメージ、および2.2倍のKVキャッシュが大幅に向上した。
論文参考訳（メタデータ） (2024-12-25T10:11:31Z)
FastFiD: Improve Inference Efficiency of Open Domain Question Answering via Sentence Selection [61.9638234358049]
FastFiDは、エンコードされたパスで文の選択を実行する新しいアプローチである。これにより、価値ある文を保持するのに役立ち、回答を生成するのに必要な文脈長を減らすことができる。
論文参考訳（メタデータ） (2024-08-12T17:50:02Z)
Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [19.167604927651073]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文参考訳（メタデータ） (2024-05-28T22:19:30Z)
Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文参考訳（メタデータ） (2024-04-18T09:17:06Z)
Triple-Encoders: Representations That Fire Together, Wire Together [51.15206713482718]
コントラスト学習(Contrastive Learning)は、バイエンコーダを介して発話間の相対距離を埋め込み空間に符号化する表現学習法である。本研究では,これら独立に符号化された発話から分散発話混合物を効率よく計算する三重エンコーダを提案する。トリプルエンコーダはバイエンコーダよりも大幅に改善され、シングルベクトル表現モデルよりもゼロショットの一般化が向上することがわかった。
論文参考訳（メタデータ） (2024-02-19T18:06:02Z)
MEMORY-VQ: Compression for Tractable Internet-Scale Memory [45.7528997281282]
LUMENのようなメモリベースのメソッドは、検索されたパスのトークン表現を事前に計算し、推論を大幅に高速化する。本稿では,メモリ拡張モデルのストレージ要求を,性能を犠牲にすることなく低減する新しい方法であるMEMORY-VQを提案する。
論文参考訳（メタデータ） (2023-08-28T21:11:18Z)
Encode-Store-Retrieve: Augmenting Human Memory through Language-Encoded Egocentric Perception [19.627636189321393]
メモリ拡張のための有望な道は、エゴセントリックなビデオをキャプチャして保存するために、拡張現実のヘッドマウントディスプレイを使用することである。現在の技術では、大量のデータを効率的にエンコードして保存する能力が欠けている。本稿では,ビデオデータの自然言語エンコーディングを活用し,ベクトルデータベースに格納するメモリ拡張エージェントを提案する。
論文参考訳（メタデータ） (2023-08-10T18:43:44Z)
In-context Autoencoder for Context Compression in a Large Language Model [70.7621953091318]
In-context Autoencoder (ICAE) を提案し、長いコンテキストを短いメモリスロットに圧縮する。 ICAEは、大量のテキストデータに基づく自動符号化と言語モデリングの両方の目的を用いて、まず事前訓練を行う。
論文参考訳（メタデータ） (2023-07-13T17:59:21Z)
GLIMMER: generalized late-interaction memory reranker [29.434777627686692]
メモリ拡張は、外部情報を言語モデルに組み込むための強力なアプローチである。 LUMENはメモリを部分的にプリコンプリートし、より小さなライブエンコーダでメモリ表現を更新する。 GLIMMERは,1) メモリ上に浅い再ランカを適用して,高速で検索品質を劇的に向上させることにより,強力なメモリ表現への自由アクセスを活用できる。
論文参考訳（メタデータ） (2023-06-17T01:54:25Z)
Towards Accurate Image Coding: Improved Autoregressive Image Generation with Dynamic Vector Quantization [73.52943587514386]
既存のベクトル量子化(VQ)ベースの自己回帰モデルは、2段階生成パラダイムに従う。画像領域を可変長符号に符号化する動的量子化VAE(DQ-VAE)を提案する。
論文参考訳（メタデータ） (2023-05-19T14:56:05Z)
REVEAL: Retrieval-Augmented Visual-Language Pre-Training with Multi-Source Multimodal Knowledge Memory [119.98011559193574]
エンドツーエンドの検索型ビジュアル言語モデル(REVEAL)を提案する。世界の知識を大規模なメモリにエンコードし、そこから取り出して知識集約的なクエリに答えることを学ぶ。このアプローチの重要な特徴は、メモリ、エンコーダ、レトリバー、ジェネレータはすべて、大量のデータに対して、エンドツーエンドで事前訓練されていることです。
論文参考訳（メタデータ） (2022-12-10T06:17:56Z)
Recurrent Relational Memory Network for Unsupervised Image Captioning [26.802700428311745]
アノテーションのない教師なしのイメージキャプションは、コンピュータビジョンの課題である。本稿では,新しいGANモデルではなく,新しいメモリベースネットワークを提案する。我々の解は、GANベースの手法よりも学習可能なパラメータが少なく、計算効率も高い。
論文参考訳（メタデータ） (2020-06-24T10:44:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。