論文の概要: End-to-End Long Document Summarization using Gradient Caching
- arxiv url: http://arxiv.org/abs/2501.01805v1
- Date: Fri, 03 Jan 2025 13:32:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-06 15:12:30.608025
- Title: End-to-End Long Document Summarization using Gradient Caching
- Title(参考訳): グラディエントキャッシングを用いた文書要約のエンドツーエンド化
- Authors: Rohit Saxena, Hao Tang, Frank Keller,
- Abstract要約: 長い文書要約のためのトランスフォーマーベースのエンコーダデコーダモデルを訓練することは大きな課題である。
CachED(Gradient $textbfCach$ing for $textbfE$ncoder-$textbfD$ecoder model)を提案する。
- 参考スコア(独自算出の注目度): 16.52198368672941
- License:
- Abstract: Training transformer-based encoder-decoder models for long document summarization poses a significant challenge due to the quadratic memory consumption during training. Several approaches have been proposed to extend the input length at test time, but training with these approaches is still difficult, requiring truncation of input documents and causing a mismatch between training and test conditions. In this work, we propose CachED (Gradient $\textbf{Cach}$ing for $\textbf{E}$ncoder-$\textbf{D}$ecoder models), an approach that enables end-to-end training of existing transformer-based encoder-decoder models, using the entire document without truncation. Specifically, we apply non-overlapping sliding windows to input documents, followed by fusion in decoder. During backpropagation, the gradients are cached at the decoder and are passed through the encoder in chunks by re-computing the hidden vectors, similar to gradient checkpointing. In the experiments on long document summarization, we extend BART to CachED BART, processing more than 500K tokens during training and achieving superior performance without using any additional parameters.
- Abstract(参考訳): 長い文書要約のためのトランスフォーマーベースのエンコーダデコーダモデルのトレーニングは、トレーニング中の2次メモリ消費のために大きな課題となる。
テスト時に入力長を延長するいくつかの手法が提案されているが、これらの手法によるトレーニングは依然として困難であり、入力文書の切り離しが必要であり、トレーニング条件とテスト条件のミスマッチを引き起こす。
本研究では,CachED(Gradient $\textbf{Cach}$ing for $\textbf{E}$ncoder-$\textbf{D}$ecoder model)を提案する。
具体的には、オーバーラップしないスライディングウィンドウを入力文書に適用し、次いでデコーダで融合する。
バックプロパゲーションの間、勾配はデコーダでキャッシュされ、勾配チェックポイントのように隠れたベクトルを再計算することでエンコーダをチャンクで通過する。
長期文書要約実験において、BARTをCachED BARTに拡張し、トレーニング中に500K以上のトークンを処理し、追加パラメータを使わずに優れたパフォーマンスを達成する。
関連論文リスト
- Explicit and data-Efficient Encoding via Gradient Flow [13.424502866278822]
遅延空間にデータを直接エンコードするために勾配流を用いたデコーダのみの手法を提案する。
共役法を用いてデコーダを訓練し、コストのかかる積分を最小限の精度で回避できることを示す。
この研究は、正確で効率的なエンコーディングが不可欠である科学への機械学習の統合の道を開いた。
論文 参考訳(メタデータ) (2024-12-01T15:54:50Z) - Equipping Transformer with Random-Access Reading for Long-Context Understanding [9.433800833564279]
長文モデリングはトランスフォーマーに基づく大規模言語モデルにとって重要な課題である。
本稿では,全てのトークンを検査することなく,変換器が効率よく長い文書を処理できる新しい読解戦略を提案する。
論文 参考訳(メタデータ) (2024-05-21T21:41:07Z) - Drop your Decoder: Pre-training with Bag-of-Word Prediction for Dense Passage Retrieval [26.00149743478937]
マスケードオートエンコーダの事前学習は,高密度検索システムの初期化・拡張技術として広く普及している。
マスク付きオートエンコーダのデコーダを、完全に単純化されたBag-of-Word予測タスクに置き換えることで、従来のMAEの修正を提案する。
提案手法は,新たなパラメータを必要とせずに,大規模検索ベンチマークにおける最先端の検索性能を実現する。
論文 参考訳(メタデータ) (2024-01-20T15:02:33Z) - Unlimiformer: Long-Range Transformers with Unlimited Length Input [67.04942180004805]
Unlimiformerは、既存のトレーニング済みエンコーダ-デコーダ変換器をラップする一般的なアプローチである。
クロスアテンション計算をkNN(k-nearest-neighbor)インデックスにオフロードする。
Unlimiformerは、BookSumデータセットから500kのトークン長の入力を、テスト時に入力トランケーションなしで処理できることを示す。
論文 参考訳(メタデータ) (2023-05-02T17:35:08Z) - Noise-Robust Dense Retrieval via Contrastive Alignment Post Training [89.29256833403167]
Contrastive Alignment POst Training (CAPOT) は、指数再生を必要とせず、モデルロバスト性を改善する高効率な微調整法である。
CAPOTはドキュメントエンコーダを凍結することで堅牢な検索を可能にし、クエリエンコーダはノイズの多いクエリを修正されていないルートに整列させる。
MSMARCO、Natural Questions、Trivia QAパス検索のCAPOTノイズ変動を評価し、CAPOTがオーバーヘッドを伴わないデータ増大に類似した影響があることを発見した。
論文 参考訳(メタデータ) (2023-04-06T22:16:53Z) - Decoder Tuning: Efficient Language Understanding as Decoding [84.68266271483022]
本稿では,タスク固有のデコーダネットワークを出力側で最適化するデコーダチューニング(DecT)を提案する。
勾配ベースの最適化により、DecTは数秒以内にトレーニングでき、サンプル毎に1つのPクエリしか必要としない。
我々は、広範囲にわたる自然言語理解実験を行い、DecTが200ドル以上のスピードアップで最先端のアルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-12-16T11:15:39Z) - KRNet: Towards Efficient Knowledge Replay [50.315451023983805]
知識再生技術は、継続的な学習や連続的なドメイン適応といった多くのタスクで広く使われている。
本稿では,任意のサンプル識別番号を直接対応するダタムにマッピングする,新規で効率的な知識記録ネットワーク(KRNet)を提案する。
我々のKRNetは、潜在コードに対するストレージコストを著しく削減し、エンコーダのサブネットワークを使わずにトレーニングできる。
論文 参考訳(メタデータ) (2022-05-23T08:34:17Z) - ED2LM: Encoder-Decoder to Language Model for Faster Document Re-ranking
Inference [70.36083572306839]
本稿では,再ランク付けのための新しいトレーニングおよび推論パラダイムを提案する。
文書形式を用いて事前訓練したエンコーダ・デコーダモデルを精査し,クエリ生成を行う。
このエンコーダ-デコーダアーキテクチャは,推論中にデコーダのみの言語モデルに分解可能であることを示す。
論文 参考訳(メタデータ) (2022-04-25T06:26:29Z) - Low-Fidelity End-to-End Video Encoder Pre-training for Temporal Action
Localization [96.73647162960842]
TALはビデオ理解の基本的な課題だが、難しい課題だ。
既存のtalメソッドは、アクション分類の監督を通じてビデオエンコーダを事前トレーニングする。
本稿では,ローファイダリティ・エンド・ツー・エンド(LoFi)ビデオエンコーダの事前学習手法を提案する。
論文 参考訳(メタデータ) (2021-03-28T22:18:14Z) - Plug and Play Autoencoders for Conditional Text Generation [0.0]
本稿では,事前に訓練したオートエンコーダを用いて埋め込み学習を行う手法を提案する。
これにより、タスクのラベル付きトレーニングデータの必要性を低減し、トレーニング手順をより効率的にする。
提案手法は,最大4倍高速でありながら,強いベースラインに匹敵する性能を示す。
論文 参考訳(メタデータ) (2020-10-06T19:18:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。