論文の概要: Transformer-based Models for Long-Form Document Matching: Challenges and
Empirical Analysis
- arxiv url: http://arxiv.org/abs/2302.03765v1
- Date: Tue, 7 Feb 2023 21:51:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-09 17:58:17.545622
- Title: Transformer-based Models for Long-Form Document Matching: Challenges and
Empirical Analysis
- Title(参考訳): 長期文書マッチングのためのトランスフォーマーモデル:課題と実証分析
- Authors: Akshita Jha, Adithya Samavedhi, Vineeth Rakesh, Jaideep Chandrashekar,
Chandan K. Reddy
- Abstract要約: 単純なニューラルネットワークは、より複雑なBERTベースのモデルよりも優れていることを示す。
単純なモデルは、文書の長さやテキストの摂動のバリエーションに対して、より堅牢である。
- 参考スコア(独自算出の注目度): 12.269318291685753
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in the area of long document matching have primarily focused
on using transformer-based models for long document encoding and matching.
There are two primary challenges associated with these models. Firstly, the
performance gain provided by transformer-based models comes at a steep cost -
both in terms of the required training time and the resource (memory and
energy) consumption. The second major limitation is their inability to handle
more than a pre-defined input token length at a time. In this work, we
empirically demonstrate the effectiveness of simple neural models (such as
feed-forward networks, and CNNs) and simple embeddings (like GloVe, and
Paragraph Vector) over transformer-based models on the task of document
matching. We show that simple models outperform the more complex BERT-based
models while taking significantly less training time, energy, and memory. The
simple models are also more robust to variations in document length and text
perturbations.
- Abstract(参考訳): 長い文書マッチングの分野における最近の進歩は、主に、長い文書の符号化とマッチングにトランスフォーマーベースのモデルを使うことに焦点が当てられている。
これらのモデルには2つの主要な課題がある。
第一に、トランスフォーマーモデルによるパフォーマンス向上は、必要なトレーニング時間とリソース(メモリとエネルギー)消費の両方において、大きなコストで達成される。
2つ目の大きな制限は、事前に定義された入力トークン長を一度に扱えないことである。
本研究では、文書マッチングタスクにおけるトランスフォーマーモデルに対する単純なニューラルネットワーク(フィードフォワードネットワークやCNNなど)と単純な埋め込み(GloVeやParagraph Vectorなど)の有効性を実証的に実証する。
単純なモデルは、トレーニング時間、エネルギー、メモリを大幅に削減しながら、bertベースのより複雑なモデルよりも優れています。
単純なモデルは、文書の長さやテキストの摂動の変化に対してより堅牢である。
関連論文リスト
- The Bigger the Better? Rethinking the Effective Model Scale in Long-term
Time Series Forecasting [57.00348861248051]
時系列予測は時系列分析において重要なフロンティアである。
階層的な分解で拡張された軽量トランスフォーマーであるHDformerを紹介する。
HDformerは既存のLTSFモデルよりも優れており、パラメータは99%以上少ない。
論文 参考訳(メタデータ) (2024-01-22T13:15:40Z) - Long-Range Transformer Architectures for Document Understanding [1.9331361036118608]
Document Understanding (DU)は、2019年後半のDUの最初のTransformerベースのモデルで残されたものではなかった。
本稿では,2つの新しいマルチモーダル(テキスト+レイアウト)長範囲モデルを提案する。
相対的な2次元の注意は、正規および長距離の両方のモデルにおいて高密度テキストに有効であることが判明した。
論文 参考訳(メタデータ) (2023-09-11T14:45:24Z) - Fourier Transformer: Fast Long Range Modeling by Removing Sequence
Redundancy with FFT Operator [24.690247474891958]
フーリエ変換器は、様々な大きな事前訓練されたモデルから継承する能力を維持しながら、計算コストを大幅に削減することができる。
本モデルは,長距離モデリングベンチマークLRAにおいて,トランスフォーマーベースモデル間の最先端性能を実現する。
CNN/DailyMailやELI5などのシークエンシャルなシークエンスタスクでは、BARTを継承することで、私たちのモデルは標準のBARTよりも優れています。
論文 参考訳(メタデータ) (2023-05-24T12:33:06Z) - An Exploration of Hierarchical Attention Transformers for Efficient Long
Document Classification [37.069127262896764]
ロングフォーマーやビッグバードのようなトランスフォーマーベースのモデルは、長いドキュメントを扱うための一般的なアプローチである。
セグメントワイドおよびクロスセグメントエンコーダを用いた完全事前学習型HATモデルの開発とリリースを行う。
最高のHATモデルは、GPUメモリを10~20%削減し、文書処理を40~45%高速化しながら、同等の大きさのLongformerモデルより優れています。
論文 参考訳(メタデータ) (2022-10-11T15:17:56Z) - HETFORMER: Heterogeneous Transformer with Sparse Attention for Long-Text
Extractive Summarization [57.798070356553936]
HETFORMERはトランスフォーマーをベースとした事前学習モデルであり、抽出要約のための多粒度スパースアテンションを持つ。
単一文書と複数文書の要約タスクの実験から,HETFORMERがルージュF1の最先端性能を達成することが示された。
論文 参考訳(メタデータ) (2021-10-12T22:42:31Z) - Long-Span Dependencies in Transformer-based Summarization Systems [38.672160430296536]
トランスフォーマティブベースのモデルは、文書要約を含む幅広い自然言語処理(nlp)タスクで最先端の結果を達成している。
これらのトランスベースのモデルの1つの問題は、入力長が増加するにつれてメモリと計算要件の点でうまくスケールしないことである。
本研究では,事前学習された大規模トランスフォーマーモデルを用いて,抽象的要約における長大な依存関係に対処する。
論文 参考訳(メタデータ) (2021-05-08T23:53:03Z) - Visformer: The Vision-friendly Transformer [105.52122194322592]
我々は視覚に優しいトランスフォーマーから短縮したvisformerという新しいアーキテクチャを提案する。
同じ計算の複雑さにより、VisformerはTransformerベースのモデルとConvolutionベースのモデルの両方をImageNet分類精度で上回る。
論文 参考訳(メタデータ) (2021-04-26T13:13:03Z) - ViViT: A Video Vision Transformer [75.74690759089529]
ビデオ分類にpure-transformerベースのモデルを提案する。
本モデルでは,入力ビデオから時間トークンを抽出し,一連のトランスフォーマー層で符号化する。
トレーニング中にモデルを効果的に正規化し、トレーニング済みの画像モデルを利用して比較的小さなデータセットでトレーニングできることを示します。
論文 参考訳(メタデータ) (2021-03-29T15:27:17Z) - Coreference Resolution without Span Representations [20.84150608402576]
我々は,スパン表現や手作り機能,NLPへの依存を取り除く軽量なコア参照モデルを導入する。
我々のモデルは現行のエンドツーエンドモデルと競合するが、よりシンプルで効率的である。
論文 参考訳(メタデータ) (2021-01-02T11:46:51Z) - Train Large, Then Compress: Rethinking Model Size for Efficient Training
and Inference of Transformers [94.43313684188819]
本研究では,計算によって制限されたNLPタスクのトランスフォーマーモデルに着目し,モデルサイズの影響について検討する。
まず最初に、より小さなTransformerモデルがイテレーション毎に高速に実行されているにもかかわらず、より広いモデルとより深いモデルがはるかに少ないステップで収束していることを示します。
これは、大きなTransformerモデルのトレーニング効率と小さなTransformerモデルの推論効率との間に明らかなトレードオフをもたらす。
論文 参考訳(メタデータ) (2020-02-26T21:17:13Z) - Pre-training Tasks for Embedding-based Large-scale Retrieval [68.01167604281578]
本稿では,大規模クエリ文書検索問題について考察する。
クエリ(例えば質問)が与えられたら、関連するドキュメントのセットを大きなドキュメントコーパスから返します。
本稿では, 組込み型トランスフォーマーモデルの学習の鍵となる要素が, 事前学習作業のセットであることを示す。
論文 参考訳(メタデータ) (2020-02-10T16:44:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。