Fugu-MT 論文翻訳(概要): Transformer-based Models for Long-Form Document Matching: Challenges and Empirical Analysis

論文の概要: Transformer-based Models for Long-Form Document Matching: Challenges and Empirical Analysis

arxiv url: http://arxiv.org/abs/2302.03765v1
Date: Tue, 7 Feb 2023 21:51:05 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-09 17:58:17.545622
Title: Transformer-based Models for Long-Form Document Matching: Challenges and Empirical Analysis
Title（参考訳）: 長期文書マッチングのためのトランスフォーマーモデル:課題と実証分析
Authors: Akshita Jha, Adithya Samavedhi, Vineeth Rakesh, Jaideep Chandrashekar, Chandan K. Reddy
Abstract要約: 単純なニューラルネットワークは、より複雑なBERTベースのモデルよりも優れていることを示す。単純なモデルは、文書の長さやテキストの摂動のバリエーションに対して、より堅牢である。
参考スコア（独自算出の注目度）: 12.269318291685753
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advances in the area of long document matching have primarily focused on using transformer-based models for long document encoding and matching. There are two primary challenges associated with these models. Firstly, the performance gain provided by transformer-based models comes at a steep cost - both in terms of the required training time and the resource (memory and energy) consumption. The second major limitation is their inability to handle more than a pre-defined input token length at a time. In this work, we empirically demonstrate the effectiveness of simple neural models (such as feed-forward networks, and CNNs) and simple embeddings (like GloVe, and Paragraph Vector) over transformer-based models on the task of document matching. We show that simple models outperform the more complex BERT-based models while taking significantly less training time, energy, and memory. The simple models are also more robust to variations in document length and text perturbations.
Abstract（参考訳）: 長い文書マッチングの分野における最近の進歩は、主に、長い文書の符号化とマッチングにトランスフォーマーベースのモデルを使うことに焦点が当てられている。これらのモデルには2つの主要な課題がある。第一に、トランスフォーマーモデルによるパフォーマンス向上は、必要なトレーニング時間とリソース(メモリとエネルギー)消費の両方において、大きなコストで達成される。 2つ目の大きな制限は、事前に定義された入力トークン長を一度に扱えないことである。本研究では、文書マッチングタスクにおけるトランスフォーマーモデルに対する単純なニューラルネットワーク(フィードフォワードネットワークやCNNなど)と単純な埋め込み(GloVeやParagraph Vectorなど)の有効性を実証的に実証する。単純なモデルは、トレーニング時間、エネルギー、メモリを大幅に削減しながら、bertベースのより複雑なモデルよりも優れています。単純なモデルは、文書の長さやテキストの摂動の変化に対してより堅牢である。

関連論文リスト

sTransformer: A Modular Approach for Extracting Inter-Sequential and Temporal Information for Time-Series Forecasting [6.434378359932152]
既存のTransformerベースのモデルを,(1)モデル構造の変更,(2)入力データの変更の2つのタイプに分類する。我々は、シーケンシャル情報と時間情報の両方をフルにキャプチャするSequence and Temporal Convolutional Network(STCN)を導入する$textbfsTransformer$を提案する。我々は,線形モデルと既存予測モデルとを長期時系列予測で比較し,新たな成果を得た。
論文参考訳（メタデータ） (2024-08-19T06:23:41Z)
Long-Range Transformer Architectures for Document Understanding [1.9331361036118608]
Document Understanding (DU)は、2019年後半のDUの最初のTransformerベースのモデルで残されたものではなかった。本稿では,2つの新しいマルチモーダル(テキスト+レイアウト)長範囲モデルを提案する。相対的な2次元の注意は、正規および長距離の両方のモデルにおいて高密度テキストに有効であることが判明した。
論文参考訳（メタデータ） (2023-09-11T14:45:24Z)
Fourier Transformer: Fast Long Range Modeling by Removing Sequence Redundancy with FFT Operator [24.690247474891958]
フーリエ変換器は、様々な大きな事前訓練されたモデルから継承する能力を維持しながら、計算コストを大幅に削減することができる。本モデルは,長距離モデリングベンチマークLRAにおいて,トランスフォーマーベースモデル間の最先端性能を実現する。 CNN/DailyMailやELI5などのシークエンシャルなシークエンスタスクでは、BARTを継承することで、私たちのモデルは標準のBARTよりも優れています。
論文参考訳（メタデータ） (2023-05-24T12:33:06Z)
An Exploration of Hierarchical Attention Transformers for Efficient Long Document Classification [37.069127262896764]
ロングフォーマーやビッグバードのようなトランスフォーマーベースのモデルは、長いドキュメントを扱うための一般的なアプローチである。セグメントワイドおよびクロスセグメントエンコーダを用いた完全事前学習型HATモデルの開発とリリースを行う。最高のHATモデルは、GPUメモリを10～20%削減し、文書処理を40～45%高速化しながら、同等の大きさのLongformerモデルより優れています。
論文参考訳（メタデータ） (2022-10-11T15:17:56Z)
Long Document Summarization with Top-down and Bottom-up Inference [113.29319668246407]
本稿では、2つの側面の要約モデルを改善するための原則的推論フレームワークを提案する。我々のフレームワークは、トップレベルが長距離依存性をキャプチャするドキュメントの階層的な潜在構造を前提としています。本稿では,様々な要約データセットに対して提案手法の有効性を示す。
論文参考訳（メタデータ） (2022-03-15T01:24:51Z)
HETFORMER: Heterogeneous Transformer with Sparse Attention for Long-Text Extractive Summarization [57.798070356553936]
HETFORMERはトランスフォーマーをベースとした事前学習モデルであり、抽出要約のための多粒度スパースアテンションを持つ。単一文書と複数文書の要約タスクの実験から,HETFORMERがルージュF1の最先端性能を達成することが示された。
論文参考訳（メタデータ） (2021-10-12T22:42:31Z)
Visformer: The Vision-friendly Transformer [105.52122194322592]
我々は視覚に優しいトランスフォーマーから短縮したvisformerという新しいアーキテクチャを提案する。同じ計算の複雑さにより、VisformerはTransformerベースのモデルとConvolutionベースのモデルの両方をImageNet分類精度で上回る。
論文参考訳（メタデータ） (2021-04-26T13:13:03Z)
ViViT: A Video Vision Transformer [75.74690759089529]
ビデオ分類にpure-transformerベースのモデルを提案する。本モデルでは,入力ビデオから時間トークンを抽出し,一連のトランスフォーマー層で符号化する。トレーニング中にモデルを効果的に正規化し、トレーニング済みの画像モデルを利用して比較的小さなデータセットでトレーニングできることを示します。
論文参考訳（メタデータ） (2021-03-29T15:27:17Z)
Coreference Resolution without Span Representations [20.84150608402576]
我々は,スパン表現や手作り機能,NLPへの依存を取り除く軽量なコア参照モデルを導入する。我々のモデルは現行のエンドツーエンドモデルと競合するが、よりシンプルで効率的である。
論文参考訳（メタデータ） (2021-01-02T11:46:51Z)
Train Large, Then Compress: Rethinking Model Size for Efficient Training and Inference of Transformers [94.43313684188819]
本研究では,計算によって制限されたNLPタスクのトランスフォーマーモデルに着目し,モデルサイズの影響について検討する。まず最初に、より小さなTransformerモデルがイテレーション毎に高速に実行されているにもかかわらず、より広いモデルとより深いモデルがはるかに少ないステップで収束していることを示します。これは、大きなTransformerモデルのトレーニング効率と小さなTransformerモデルの推論効率との間に明らかなトレードオフをもたらす。
論文参考訳（メタデータ） (2020-02-26T21:17:13Z)
Pre-training Tasks for Embedding-based Large-scale Retrieval [68.01167604281578]
本稿では,大規模クエリ文書検索問題について考察する。クエリ(例えば質問)が与えられたら、関連するドキュメントのセットを大きなドキュメントコーパスから返します。本稿では, 組込み型トランスフォーマーモデルの学習の鍵となる要素が, 事前学習作業のセットであることを示す。
論文参考訳（メタデータ） (2020-02-10T16:44:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。