論文の概要: Decoupled Transformer for Scalable Inference in Open-domain Question
Answering
- arxiv url: http://arxiv.org/abs/2108.02765v1
- Date: Thu, 5 Aug 2021 17:53:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-06 14:44:01.387217
- Title: Decoupled Transformer for Scalable Inference in Open-domain Question
Answering
- Title(参考訳): オープンドメイン質問応答におけるスケーラブルな推論のための分離トランスフォーマー
- Authors: Haytham ElFadeel and Stan Peshterliev
- Abstract要約: BERTのような大規模変圧器モデルは、オープンドメイン質問応答(QA)のための機械読解(MRC)の最先端結果が得られる。
SQUAD 2.0データセットの実験では、切り離された変換器は、標準変換器に比べて1.2ポイント悪いF1スコアで、オープンドメインMCCの計算コストとレイテンシを30-40%削減する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large transformer models, such as BERT, achieve state-of-the-art results in
machine reading comprehension (MRC) for open-domain question answering (QA).
However, transformers have a high computational cost for inference which makes
them hard to apply to online QA systems for applications like voice assistants.
To reduce computational cost and latency, we propose decoupling the transformer
MRC model into input-component and cross-component. The decoupling allows for
part of the representation computation to be performed offline and cached for
online use. To retain the decoupled transformer accuracy, we devised a
knowledge distillation objective from a standard transformer model. Moreover,
we introduce learned representation compression layers which help reduce by
four times the storage requirement for the cache. In experiments on the SQUAD
2.0 dataset, a decoupled transformer reduces the computational cost and latency
of open-domain MRC by 30-40% with only 1.2 points worse F1-score compared to a
standard transformer.
- Abstract(参考訳): BERTのような大きなトランスフォーマーモデルは、オープンドメイン質問応答(QA)のための機械読解(MRC)の最先端の結果を得る。
しかし、トランスフォーマーは推論の計算コストが高いため、音声アシスタントのようなアプリケーションにオンラインQAシステムを適用するのが難しくなる。
計算コストと待ち時間を削減するため、トランスフォーマーmrcモデルを入出力成分とクロス成分に分離する。
このデカップリングにより、表現計算の一部をオフラインで実行し、オンライン使用のためにキャッシュすることができる。
脱カップリングトランスの精度を維持するため,標準変圧器モデルから知識蒸留目的を考案した。
さらに、キャッシュの4倍のストレージ要求を削減できる、学習された表現圧縮層を導入する。
SQUAD 2.0データセットの実験では、切り離された変換器は、標準変換器に比べて1.2ポイント悪いF1スコアで、オープンドメインMCCの計算コストとレイテンシを30-40%削減する。
関連論文リスト
- Shrinking the Giant : Quasi-Weightless Transformers for Low Energy Inference [0.30104001512119216]
高速でエネルギー効率のよい推論モデルの構築は、様々なトランスフォーマーベースのアプリケーションを実現するために不可欠である。
拡張有限差分法によりLUTネットワークを直接学習する手法を構築した。
これにより、トランスベースのモデルに対する計算的でエネルギー効率の良い推論ソリューションが実現される。
論文 参考訳(メタデータ) (2024-11-04T05:38:56Z) - ENACT: Entropy-based Clustering of Attention Input for Improving the Computational Performance of Object Detection Transformers [0.0]
トランスフォーマーは、視覚に基づく物体検出の問題において、精度で競合性能を示す。
本稿では,そのエントロピーに基づいて変換器の入力をクラスタリングする。
クラスタリングは、トランスへの入力として与えられるデータのサイズを削減し、トレーニング時間とGPUメモリ使用量を削減する。
論文 参考訳(メタデータ) (2024-09-11T18:03:59Z) - Learning-to-Cache: Accelerating Diffusion Transformer via Layer Caching [56.286064975443026]
拡散変圧器内の多数の層をキャッシュ機構で計算することで、モデルパラメータを更新しなくても容易に除去できる。
本稿では,拡散変圧器の動的手法でキャッシングを学習するL2C(Learningto-Cache)を提案する。
実験の結果,L2C は DDIM や DPM-r など,キャッシュベースの従来の手法と同等の推論速度で性能を向上することがわかった。
論文 参考訳(メタデータ) (2024-06-03T18:49:57Z) - MoEUT: Mixture-of-Experts Universal Transformers [75.96744719516813]
ユニバーサルトランスフォーマー(UT)は、合成一般化の学習において標準トランスフォーマーよりも有利である。
層共有は、同じ次元を持つ非共有モデルと比較してパラメータ数を大幅に削減する。
従来の作業では、言語モデリングのようなパラメータ数の支配的なタスクと競合する共有層トランスフォーマー設計の提案に成功しなかった。
論文 参考訳(メタデータ) (2024-05-25T03:24:32Z) - Cost Aggregation with 4D Convolutional Swin Transformer for Few-Shot
Segmentation [58.4650849317274]
Volumetric Aggregation with Transformers (VAT)は、数ショットセグメンテーションのためのコスト集約ネットワークである。
VATは、コスト集約が中心的な役割を果たすセマンティック対応のための最先端のパフォーマンスも達成する。
論文 参考訳(メタデータ) (2022-07-22T04:10:30Z) - Resource-Efficient Separation Transformer [14.666016177212837]
本稿では,トランスフォーマーを用いた音声分離手法について,計算コストの削減による検討を行う。
私たちの主な貢献は、自己注意に基づくアーキテクチャであるResource-Efficient separation Transformer (RE-SepFormer)の開発です。
RE-SepFormerは、一般的なWSJ0-2MixとWHAM!データセットにおいて、因果設定と非因果設定の両方で競合するパフォーマンスに達する。
論文 参考訳(メタデータ) (2022-06-19T23:37:24Z) - Efficient Decoder-free Object Detection with Transformers [75.00499377197475]
視覚変換器(ViT)は、物体検出アプローチのランドスケープを変化させている。
本稿では,デコーダフリー完全トランス(DFFT)オブジェクト検出器を提案する。
DFFT_SMALLは、トレーニングおよび推論段階で高い効率を達成する。
論文 参考訳(メタデータ) (2022-06-14T13:22:19Z) - Dual-Flattening Transformers through Decomposed Row and Column Queries
for Semantic Segmentation [50.321277476317974]
本稿では,高解像度出力を実現するためにDual-Flattening Transformer (DFlatFormer)を提案する。
ADE20KおよびCityscapesデータセットの実験は、提案された2重平坦トランスアーキテクチャの優位性を実証している。
論文 参考訳(メタデータ) (2022-01-22T22:38:15Z) - Quality and Cost Trade-offs in Passage Re-ranking Task [0.0]
本稿では,情報検索パイプラインのランキングステップにおいて,適切なアーキテクチャを選択するかという問題に焦点をあてる。
コルベルトアーキテクチャやポリエンコーダアーキテクチャなどの遅延相互作用モデルとその修正について検討した。
また,検索インデックスのメモリフットプリントの処理を行い,変換器エンコーダから出力ベクトルを二項化するためにラーニング・ツー・ハッシュ法を適用しようとした。
論文 参考訳(メタデータ) (2021-11-18T19:47:45Z) - TCCT: Tightly-Coupled Convolutional Transformer on Time Series
Forecasting [6.393659160890665]
本稿では, 密結合型畳み込み変換器(TCCT)と3つのTCCTアーキテクチャを提案する。
実世界のデータセットに対する我々の実験は、我々のTCCTアーキテクチャが既存の最先端トランスフォーマーモデルの性能を大幅に改善できることを示している。
論文 参考訳(メタデータ) (2021-08-29T08:49:31Z) - The Cascade Transformer: an Application for Efficient Answer Sentence
Selection [116.09532365093659]
本稿では,変圧器をベースとしたモデルのカスケード化手法であるカスケード変換器について紹介する。
現状の変圧器モデルと比較すると,提案手法は精度にほとんど影響を与えずに計算量を37%削減する。
論文 参考訳(メタデータ) (2020-05-05T23:32:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。