論文の概要: ReadOnce Transformers: Reusable Representations of Text for Transformers
- arxiv url: http://arxiv.org/abs/2010.12854v2
- Date: Tue, 3 Aug 2021 18:33:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 12:00:35.246900
- Title: ReadOnce Transformers: Reusable Representations of Text for Transformers
- Title(参考訳): ReadOnce Transformers: トランスフォーマー用テキストの再利用可能な表現
- Authors: Shih-Ting Lin and Ashish Sabharwal and Tushar Khot
- Abstract要約: ReadOnce Transformersは、トランスフォーマーベースのモデルを、テキストのインフォメーションキャプチャー表現を構築するためのアプローチである。
我々のワンタイム計算表現は、標準的なテキスト・テキスト・モデルと比較して2倍5倍のスピードアップとなる。
- 参考スコア(独自算出の注目度): 42.613430152353146
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present ReadOnce Transformers, an approach to convert a transformer-based
model into one that can build an information-capturing, task-independent, and
compressed representation of text. The resulting representation is reusable
across different examples and tasks, thereby requiring a document shared across
many examples or tasks to only be \emph{read once}. This leads to faster
training and evaluation of models. Additionally, we extend standard
text-to-text transformer models to Representation+Text-to-text models, and
evaluate on multiple downstream tasks: multi-hop QA, abstractive QA, and
long-document summarization. Our one-time computed representation results in a
2x-5x speedup compared to standard text-to-text models, while the compression
also allows existing language models to handle longer documents without the
need for designing new pre-trained models.
- Abstract(参考訳): 本稿では, 情報キャプチャ, タスク非依存, 圧縮されたテキスト表現を構築可能な, トランスフォーマーベースのモデルを変換するアプローチであるReadOnce Transformersを提案する。
結果の表現は、さまざまな例やタスクで再利用可能であるため、多くの例やタスク間で共有されるドキュメントは、一度だけ \emph{read} となる必要がある。
これにより、モデルのトレーニングと評価が高速になる。
さらに、標準的なテキスト・テキスト変換モデルをRepresentation+Text-to-textモデルに拡張し、マルチホップQA、抽象QA、長期文書要約といった複数のダウンストリームタスクを評価する。
我々のワンタイム計算表現は、標準のテキスト・テキストモデルと比較して2倍5倍のスピードアップを達成し、一方、圧縮により既存の言語モデルでは、新しい事前訓練されたモデルを設計することなく、より長いドキュメントを処理できる。
関連論文リスト
- Neural Decompiling of Tracr Transformers [0.5974973640115973]
RASP (Tracr) 用の textitTransformer Compiler を用いて, トランスフォーマー重みと対応する RASP プログラムの大規模なデータセットを生成する。
次に、コンパイルされたモデルからRASPコードを復元することを目的として、モデルを構築してトレーニングします。
論文 参考訳(メタデータ) (2024-09-29T13:12:39Z) - Long-Range Transformer Architectures for Document Understanding [1.9331361036118608]
Document Understanding (DU)は、2019年後半のDUの最初のTransformerベースのモデルで残されたものではなかった。
本稿では,2つの新しいマルチモーダル(テキスト+レイアウト)長範囲モデルを提案する。
相対的な2次元の注意は、正規および長距離の両方のモデルにおいて高密度テキストに有効であることが判明した。
論文 参考訳(メタデータ) (2023-09-11T14:45:24Z) - MSdocTr-Lite: A Lite Transformer for Full Page Multi-script Handwriting
Recognition [3.0682439731292592]
フルページマルチスクリプト手書き文字認識のためのライトトランスアーキテクチャを提案する。
提案されたモデルには3つの利点がある。
カリキュラム学習戦略により,ページレベルの読み順を学習することができる。
簡単なトランスファー学習プロセスを適用することで、他のスクリプトに容易に適応できる。
論文 参考訳(メタデータ) (2023-03-24T11:40:50Z) - Transformer-based Models for Long-Form Document Matching: Challenges and
Empirical Analysis [12.269318291685753]
単純なニューラルネットワークは、より複雑なBERTベースのモデルよりも優れていることを示す。
単純なモデルは、文書の長さやテキストの摂動のバリエーションに対して、より堅牢である。
論文 参考訳(メタデータ) (2023-02-07T21:51:05Z) - XDoc: Unified Pre-training for Cross-Format Document Understanding [84.63416346227176]
XDocは、単一のモデルで異なるドキュメントフォーマットを扱う、統合された事前訓練されたモデルである。
XDocは、トレーニング済みの個々のモデルと比較して、さまざまなダウンストリームタスクで同等またはそれ以上のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-10-06T12:07:18Z) - Text Generation with Text-Editing Models [78.03750739936956]
このチュートリアルは、テキスト編集モデルと最先端のアプローチの概要を提供する。
生産化に関わる課題と、これらのモデルが幻覚や偏見を軽減するためにどのように使用できるかについて議論する。
論文 参考訳(メタデータ) (2022-06-14T17:58:17Z) - HETFORMER: Heterogeneous Transformer with Sparse Attention for Long-Text
Extractive Summarization [57.798070356553936]
HETFORMERはトランスフォーマーをベースとした事前学習モデルであり、抽出要約のための多粒度スパースアテンションを持つ。
単一文書と複数文書の要約タスクの実験から,HETFORMERがルージュF1の最先端性能を達成することが示された。
論文 参考訳(メタデータ) (2021-10-12T22:42:31Z) - Sentence Bottleneck Autoencoders from Transformer Language Models [53.350633961266375]
我々は、事前訓練されたフリーズトランスフォーマー言語モデルから文レベルのオートエンコーダを構築する。
我々は、文ボトルネックと1層修飾トランスフォーマーデコーダのみを訓練しながら、マスク付き言語モデリングの目的を生成的・認知的言語として適応する。
本研究では,テキスト類似性タスク,スタイル転送,単一文分類タスクにおける事前学習されたトランスフォーマーからの表現をGLUEベンチマークで抽出する手法よりも,大規模な事前学習モデルよりも少ないパラメータを用いて,より高品質な文表現を実現することを示す。
論文 参考訳(メタデータ) (2021-08-31T19:39:55Z) - Hi-Transformer: Hierarchical Interactive Transformer for Efficient and
Effective Long Document Modeling [51.79399904527525]
高速かつ効率的な長文モデリングのための階層型対話型変換器(Hi-Transformer)を提案する。
Hi-Transformerは文書を階層的にモデル化し、まず文表現を学び、次に文書表現を学ぶ。
3つのベンチマークデータセットの実験は、長期文書モデリングにおけるHi-Transformerの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2021-06-02T09:30:29Z) - Beyond 512 Tokens: Siamese Multi-depth Transformer-based Hierarchical
Encoder for Long-Form Document Matching [28.190001111358438]
長文文書マッチングのためのシームズ多層変換器を用いたSMITHを提案する。
我々のモデルには、より長いテキスト入力に自己注意モデルを適用するためのいくつかの革新が含まれている。
われわれはウィキペディアベースのベンチマークデータセット、コード、トレーニング済みのチェックポイントをオープンソース化し、長文文書マッチングの今後の研究を加速する。
論文 参考訳(メタデータ) (2020-04-26T07:04:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。