論文の概要: NAIL: Lexical Retrieval Indices with Efficient Non-Autoregressive
Decoders
- arxiv url: http://arxiv.org/abs/2305.14499v2
- Date: Mon, 23 Oct 2023 14:46:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 11:43:51.954690
- Title: NAIL: Lexical Retrieval Indices with Efficient Non-Autoregressive
Decoders
- Title(参考訳): NAIL: 効率的な非自己回帰デコーダを用いた語彙検索指標
- Authors: Livio Baldini Soares, Daniel Gillick, Jeremy R. Cole, Tom Kwiatkowski
- Abstract要約: 語彙化スコアリング機能を持つTransformerクロスアテンションモデルのゲインを最大86%取得する方法を提案する。
本稿では,最近のエンコーダデコーダやデコーダのみの大規模言語モデルと互換性のあるモデルアーキテクチャとしてNAILを導入する。
- 参考スコア(独自算出の注目度): 9.400555345874988
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural document rerankers are extremely effective in terms of accuracy.
However, the best models require dedicated hardware for serving, which is
costly and often not feasible. To avoid this serving-time requirement, we
present a method of capturing up to 86% of the gains of a Transformer
cross-attention model with a lexicalized scoring function that only requires
10-6% of the Transformer's FLOPs per document and can be served using commodity
CPUs. When combined with a BM25 retriever, this approach matches the quality of
a state-of-the art dual encoder retriever, that still requires an accelerator
for query encoding. We introduce NAIL (Non-Autoregressive Indexing with
Language models) as a model architecture that is compatible with recent
encoder-decoder and decoder-only large language models, such as T5, GPT-3 and
PaLM. This model architecture can leverage existing pre-trained checkpoints and
can be fine-tuned for efficiently constructing document representations that do
not require neural processing of queries.
- Abstract(参考訳): ニューラル文書再帰は精度の点で極めて効果的である。
しかし、最良のモデルには専用のハードウェアが必要であり、コストがかかり、しばしば実現不可能である。
そこで本研究では,トランスフォーマーのFLOPを1文書あたり10~6%しか必要とせず,コモディティCPUを用いて提供可能な語彙付きスコアリング機能を備えたトランスフォーマークロスアテンションモデルのゲインを最大86%取得する手法を提案する。
bm25レトリバーと組み合わせると、このアプローチは、クエリエンコーディングの加速器を必要とする最先端のデュアルエンコーダレトリバーの品質に適合する。
NAIL(Non-Autoregressive Indexing with Language Model)は,最近のエンコーダデコーダや,T5,GPT-3,PaLMなどのデコーダのみの大規模言語モデルと互換性のあるモデルアーキテクチャである。
このモデルアーキテクチャは、既存の事前学習済みチェックポイントを活用でき、クエリの神経処理を必要としないドキュメント表現を効率的に構築するために微調整することができる。
関連論文リスト
- Adaptable Embeddings Network (AEN) [49.1574468325115]
我々はカーネル密度推定(KDE)を用いた新しいデュアルエンコーダアーキテクチャであるAdaptable Embeddings Networks (AEN)を紹介する。
AENは、再トレーニングせずに分類基準のランタイム適応を可能にし、非自己回帰的である。
アーキテクチャのプリプロセスとキャッシュ条件の埋め込み能力は、エッジコンピューティングアプリケーションやリアルタイム監視システムに最適である。
論文 参考訳(メタデータ) (2024-11-21T02:15:52Z) - Are Decoder-Only Large Language Models the Silver Bullet for Code Search? [32.338318300589776]
本研究では,コード検索のためのデコーダのみの大規模言語モデルについて,初めて体系的な検討を行った。
2つの微調整法、2つのデータセット、3つのモデルサイズを用いて、最先端デコーダのみの9つのモデルを評価する。
この結果,微調整のCodeGemmaはUniXcoderのようなエンコーダのみのモデルよりも大幅に優れていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T17:05:25Z) - Shallow Cross-Encoders for Low-Latency Retrieval [69.06104373460597]
BERTやT5のような大きなトランスフォーマーモデルに基づくクロスエンコーダは計算コストが高く、非常に小さな遅延ウィンドウ内で少数の文書しかスコアできない。
より弱い浅層変圧器モデル(すなわち、層数が限られている変圧器)は、これらの実用的な低レイテンシ設定に制約された場合、実際にフルスケールモデルよりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2024-03-29T15:07:21Z) - LOCOST: State-Space Models for Long Document Abstractive Summarization [76.31514220737272]
長いコンテキスト入力を持つ条件付きテキスト生成のための状態空間モデルに基づくエンコーダデコーダアーキテクチャであるLOCOSTを提案する。
計算複雑性が$O(L log L)$の場合、このアーキテクチャは疎注意パターンに基づく最先端モデルよりもはるかに長いシーケンスを処理できる。
論文 参考訳(メタデータ) (2024-01-31T15:33:37Z) - Legal-HNet: Mixing Legal Long-Context Tokens with Hartley Transform [0.0]
本稿では,注意に基づくデコーダに接続された非注意型エンコーダであるSeq2Seqアーキテクチャを提案する。
これにより、スクラッチからトレーニングモデルをより多くの人に利用できるようになるだけでなく、トレーニング中の炭素フットプリントの削減にも寄与する。
論文 参考訳(メタデータ) (2023-11-09T01:27:54Z) - Speculative Decoding with Big Little Decoder [108.95187338417541]
Big Little Decoder (BiLD) は、幅広いテキスト生成アプリケーションの推論効率と遅延を改善するフレームワークである。
NVIDIA T4 GPUでは、当社のフレームワークは最大2.12倍の高速化を実現し、生成品質の最小化を実現している。
私たちのフレームワークは完全にプラグアンドプレイで、トレーニングプロセスやモデルアーキテクチャの変更なしに適用できます。
論文 参考訳(メタデータ) (2023-02-15T18:55:29Z) - ED2LM: Encoder-Decoder to Language Model for Faster Document Re-ranking
Inference [70.36083572306839]
本稿では,再ランク付けのための新しいトレーニングおよび推論パラダイムを提案する。
文書形式を用いて事前訓練したエンコーダ・デコーダモデルを精査し,クエリ生成を行う。
このエンコーダ-デコーダアーキテクチャは,推論中にデコーダのみの言語モデルに分解可能であることを示す。
論文 参考訳(メタデータ) (2022-04-25T06:26:29Z) - E-LANG: Energy-Based Joint Inferencing of Super and Swift Language
Models [9.36591003178585]
本稿では,大規模高精度スーパーモデルと軽量スウィフトモデルの間での推論を分散するE-Langと呼ばれる効果的な動的推論手法を提案する。
E-Langは簡単に採用でき、アーキテクチャに依存しない。
エンコーダのみのバックボーンや分類タスクにのみ適用可能な既存の手法とは異なり,本手法はエンコーダ・デコーダ構造や,翻訳などのシーケンス・ツー・シーケンスタスクにも有効である。
論文 参考訳(メタデータ) (2022-03-01T21:21:27Z) - Tiny Neural Models for Seq2Seq [0.0]
pQRNN-MAttと呼ばれるプロジェクションベースエンコーダデコーダモデルを提案する。
その結果得られた量子化モデルのサイズは3.5MB未満であり、デバイス上のレイテンシクリティカルなアプリケーションに適している。
本稿では,多言語意味解析データセットであるMTOPにおいて,平均モデル性能が,85倍の精度で事前学習した埋め込みを用いたLSTMベースのSeq2seqモデルを上回ることを示す。
論文 参考訳(メタデータ) (2021-08-07T00:39:42Z) - Learning to Encode Position for Transformer with Continuous Dynamical
Model [88.69870971415591]
本研究では,トランスフォーマーモデルなどの非リカレントモデルの位置情報をエンコードする新しい学習方法を提案する。
このような力学系による位置指数に沿った符号化結果の進化をモデル化する。
論文 参考訳(メタデータ) (2020-03-13T00:41:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。