論文の概要: Global memory transformer for processing long documents
- arxiv url: http://arxiv.org/abs/2212.01650v1
- Date: Sat, 3 Dec 2022 16:40:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-06 15:28:25.827456
- Title: Global memory transformer for processing long documents
- Title(参考訳): 長期文書処理のためのグローバルメモリ変換器
- Authors: Arij Al Adel
- Abstract要約: 従来の研究で提案したモデルの入力に一般的なメモリスロットルールが加えられた。
本研究の目的は,提案モデルがチャンクを,ベースモデルと比較したチャンクであるかのように扱う能力を検証することである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Transformer variants dominate the state-of-the-art in different natural
language processing tasks such as translation, reading comprehension and
summarization. Our paper is more directed to use general memory slots added to
the inputs and studying the results of adding these slots. This paper is a go
on study of general memory slots rule that were added to the input of the
proposed model in previous work. We have two main tasks;1) pretraining task
using masked language modeling and b) fine tuning task using HotpotQA . This
study aims to verify the ability of the proposed model to handle chunks as if
they were one chunk comparing with the base model. As baseline we used T5
transformer. We studied the rule of memory slots augmented to each input chunk
and studied the model performance without selector. We found that adding memory
to input chunks helped the proposed model to overcome the baseline on Masked
language modeling task with specific training parameters. Ablation study
reveals the ability of using the compressed input chunks with a degradation in
performance.
- Abstract(参考訳): トランスフォーマーの変種は、翻訳、読解、要約といった様々な自然言語処理タスクにおいて最先端である。
本論文は,入力に汎用メモリスロットを付加し,これらのスロットを付加した結果について検討する方向にある。
本稿では,従来の研究で提案したモデルの入力に追加された一般的なメモリスロットルールについて検討する。
1)マスク言語モデリングを用いた事前学習タスクと,(b)HotpotQAを用いた微調整タスクの2つがある。
本研究の目的は,提案モデルのチャンクを,ベースモデルと比較したチャンクのように処理する能力を検証することである。
ベースラインとしてT5トランスを使用しました。
各入力チャンクに拡張されたメモリスロットのルールを調査し,セレクタを使わずにモデル性能を調べた。
入力チャンクにメモリを追加することで、特定のトレーニングパラメータを持つマスキング言語モデリングタスクのベースラインを克服できることがわかった。
アブレーション実験により,圧縮された入力チャンクを性能劣化で使用できることが明らかになった。
関連論文リスト
- Generalization v.s. Memorization: Tracing Language Models' Capabilities Back to Pretraining Data [76.90128359866462]
本稿では,出力確率と事前学習データ頻度の相関を計測する,記憶化,分布記憶化という拡張概念を導入する。
本研究は, より単純で知識集約的なタスクにおいて, 記憶がより大きな役割を担い, 一般化が, より困難で推論に基づくタスクの鍵であることを示す。
論文 参考訳(メタデータ) (2024-07-20T21:24:40Z) - Layer-Condensed KV Cache for Efficient Inference of Large Language Models [44.24593677113768]
少数の層のKVのみを計算・キャッシュする新しい手法を提案する。
提案手法は標準変圧器よりも最大26$times$高いスループットを実現する。
論文 参考訳(メタデータ) (2024-05-17T08:59:46Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - A Memory Transformer Network for Incremental Learning [64.0410375349852]
本研究では,モデルが学習する時間とともに,新しいデータクラスが観察される学習環境であるクラスインクリメンタルラーニングについて検討する。
素直な問題定式化にもかかわらず、クラス増分学習への分類モデルの素直な適用は、これまで見られたクラスの「破滅的な忘れ込み」をもたらす。
これは、過去のデータのサブセットをメモリバンクに保存し、将来のタスクをトレーニングする際の忘れの防止にそれを活用することで、破滅的な忘れの問題を克服するものだ。
論文 参考訳(メタデータ) (2022-10-10T08:27:28Z) - A Model or 603 Exemplars: Towards Memory-Efficient Class-Incremental
Learning [56.450090618578]
CIL(Class-Incremental Learning)は、この要件を満たすために、限られたメモリサイズでモデルをトレーニングすることを目的としている。
モデルサイズを総予算にカウントし,メモリサイズに整合する手法を比較すると,保存モデルは常に機能しないことを示す。
本稿では,メモリ効率のよい拡張可能なMOdelのための MEMO という,シンプルで効果的なベースラインを提案する。
論文 参考訳(メタデータ) (2022-05-26T08:24:01Z) - Memorizing Transformers [20.99393776139059]
我々は、推論時に新しいデータを読み書きできる言語モデルを考え、その結果、すぐに新しい知識を得る。
我々は、最近の(キー、値)ペアの非微分可能なメモリへの近似kNNのルックアップが、様々なベンチマークやタスクにおける言語モデリングを改善することを実証した。
論文 参考訳(メタデータ) (2022-03-16T19:54:35Z) - Composable Sparse Fine-Tuning for Cross-Lingual Transfer [56.86192078426372]
事前学習されたモデルのパラメータを微調整することが、伝達学習の主流のアプローチとなっている。
本稿では,これら2つの望ましい特性を持つファインチューニング手法を提案する。
これは、ゼロショットのクロスランガル転送において、大きなマージンでアダプタを上回ります。
論文 参考訳(メタデータ) (2021-10-14T17:27:29Z) - Mention Memory: incorporating textual knowledge into Transformers
through entity mention attention [21.361822569279003]
本稿では,大規模テキストコーパスの半パラメトリック表現を,事実知識の源泉としてトランスフォーマーモデルに統合することを提案する。
提案するモデル - TOME は内部メモリ層を通じて情報にアクセスするトランスフォーマーであり、入力通路に記述された各エンティティが参照メモリに付随する。
ウィキペディアが言及した1億5000万のメモリを使った実験では、TOMEはいくつかのオープンドメインの知識集約タスクで高いパフォーマンスを達成している。
論文 参考訳(メタデータ) (2021-10-12T17:19:05Z) - Memory-efficient Transformers via Top-$k$ Attention [23.672065688109395]
本研究では,バニラ注意のための簡易かつ高精度な近似法を提案する。
クェリをチャンクで処理し、各クェリに対してキーに関するトップ$kのスコアを計算します。
我々のアプローチは、スクラッチからのトレーニング、微調整、ゼロショット推論を含む複数のセットアップにおいて、バニラの注意にほぼ同一の精度をもたらすことを示す。
論文 参考訳(メタデータ) (2021-06-13T02:30:23Z) - Memory Transformer [0.31406146587437894]
トランスフォーマーベースのモデルは、多くの自然言語処理タスクにおいて最先端の結果を得た。
メモリ拡張ニューラルネットワーク(MANN)は、従来のニューラルネットワークを拡張し、汎用メモリで表現する。
我々は,これらのメモリ拡張トランスフォーマーを評価し,メモリの存在がモデル性能と正の相関関係があることを実証した。
論文 参考訳(メタデータ) (2020-06-20T09:06:27Z) - Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks [133.93803565077337]
検索強化生成モデルは、事前訓練されたパラメトリックメモリと非パラメトリックメモリを組み合わせて言語生成を行う。
我々は、RAGモデルが、最先端パラメトリックのみのセク2セックベースラインよりも、より具体的で、多様で、現実的な言語を生成することを示す。
論文 参考訳(メタデータ) (2020-05-22T21:34:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。