論文の概要: Attention over pre-trained Sentence Embeddings for Long Document
Classification
- arxiv url: http://arxiv.org/abs/2307.09084v1
- Date: Tue, 18 Jul 2023 09:06:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-19 15:32:44.992998
- Title: Attention over pre-trained Sentence Embeddings for Long Document
Classification
- Title(参考訳): 長期文書分類のための事前学習文埋め込みの注意
- Authors: Amine Abdaoui and Sourav Dutta
- Abstract要約: 変圧器はトークンの数に2次注意の複雑さがあるため、短いシーケンスに制限されることが多い。
文を意味的に意味のある埋め込みから始めるために,事前学習した文変換器を活用することを提案する。
本稿では,3つの標準文書分類データセットに対して,この簡単なアーキテクチャを用いて得られた結果について報告する。
- 参考スコア(独自算出の注目度): 4.38566347001872
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite being the current de-facto models in most NLP tasks, transformers are
often limited to short sequences due to their quadratic attention complexity on
the number of tokens. Several attempts to address this issue were studied,
either by reducing the cost of the self-attention computation or by modeling
smaller sequences and combining them through a recurrence mechanism or using a
new transformer model. In this paper, we suggest to take advantage of
pre-trained sentence transformers to start from semantically meaningful
embeddings of the individual sentences, and then combine them through a small
attention layer that scales linearly with the document length. We report the
results obtained by this simple architecture on three standard document
classification datasets. When compared with the current state-of-the-art models
using standard fine-tuning, the studied method obtains competitive results
(even if there is no clear best model in this configuration). We also showcase
that the studied architecture obtains better results when freezing the
underlying transformers. A configuration that is useful when we need to avoid
complete fine-tuning (e.g. when the same frozen transformer is shared by
different applications). Finally, two additional experiments are provided to
further evaluate the relevancy of the studied architecture over simpler
baselines.
- Abstract(参考訳): ほとんどのnlpタスクにおける現在のデファクトモデルであるにもかかわらず、トランスフォーマーはしばしばトークン数に対する2次注意の複雑さのために短いシーケンスに制限される。
この問題に対処するいくつかの試みは、自己着脱計算のコストを削減したり、より小さなシーケンスをモデル化したり、再帰機構や新しいトランスフォーマーモデルを使ってそれらを組み合わせたりすることで研究された。
本稿では,各文の意味的に意味のある埋め込みから,事前学習された文トランスフォーマーを活用し,文書長に線形にスケールする小さな注意層を組み合わせることを提案する。
本稿では,3つの標準文書分類データセットについて,この単純なアーキテクチャにより得られた結果を報告する。
標準の微調整を用いた現在の最先端モデルと比較すると、(この構成に明確なモデルがないとしても)競合結果が得られる。
また, 基礎となる変圧器を凍結した場合に, 検討したアーキテクチャがよりよい結果を得ることを示す。
完全な微調整を避ける必要がある場合(例えば、同じ凍結トランスフォーマーが異なるアプリケーションで共有されている場合)に便利である構成。
最後に、より単純なベースラインよりも研究されたアーキテクチャの関連性を評価するために、2つの追加実験が提供される。
関連論文リスト
- Transformer-based Models for Long-Form Document Matching: Challenges and
Empirical Analysis [12.269318291685753]
単純なニューラルネットワークは、より複雑なBERTベースのモデルよりも優れていることを示す。
単純なモデルは、文書の長さやテキストの摂動のバリエーションに対して、より堅牢である。
論文 参考訳(メタデータ) (2023-02-07T21:51:05Z) - Mutual Exclusivity Training and Primitive Augmentation to Induce
Compositionality [84.94877848357896]
最近のデータセットは、標準的なシーケンス・ツー・シーケンスモデルにおける体系的な一般化能力の欠如を露呈している。
本稿では,セq2seqモデルの振る舞いを分析し,相互排他バイアスの欠如と全例を記憶する傾向の2つの要因を同定する。
広範に使用されている2つの構成性データセット上で、標準的なシーケンス・ツー・シーケンスモデルを用いて、経験的改善を示す。
論文 参考訳(メタデータ) (2022-11-28T17:36:41Z) - Mixed-effects transformers for hierarchical adaptation [1.9105318290910576]
本稿では,階層的に構造化されたプレフィックスを学習するための新しいアプローチであるMulti-Efects Transformer(MET)を紹介する。
一般的な混合効果モデルのクラスがトランスフォーマーベースのアーキテクチャにどのように拡張されるかを示す。
論文 参考訳(メタデータ) (2022-05-03T19:34:15Z) - Paragraph-based Transformer Pre-training for Multi-Sentence Inference [99.59693674455582]
マルチ候補推論タスクの微調整に使用する場合,一般的な事前学習型トランスフォーマーは性能が良くないことを示す。
次に、複数の入力文にまたがる段落レベルの意味をモデル化する新しい事前学習目標を提案する。
論文 参考訳(メタデータ) (2022-05-02T21:41:14Z) - Causal Transformer for Estimating Counterfactual Outcomes [18.640006398066188]
多くのアプリケーションでは、観測データから時間とともに反現実的な結果を予測することが重要となる。
我々は、時間とともに反現実的な結果を予測するための新しい因果変換器を開発した。
私たちのモデルは、時間によって異なる共同設立者間の複雑な長距離依存関係をキャプチャするために特別に設計されています。
論文 参考訳(メタデータ) (2022-04-14T22:40:09Z) - Long Document Summarization with Top-down and Bottom-up Inference [113.29319668246407]
本稿では、2つの側面の要約モデルを改善するための原則的推論フレームワークを提案する。
我々のフレームワークは、トップレベルが長距離依存性をキャプチャするドキュメントの階層的な潜在構造を前提としています。
本稿では,様々な要約データセットに対して提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-03-15T01:24:51Z) - HETFORMER: Heterogeneous Transformer with Sparse Attention for Long-Text
Extractive Summarization [57.798070356553936]
HETFORMERはトランスフォーマーをベースとした事前学習モデルであり、抽出要約のための多粒度スパースアテンションを持つ。
単一文書と複数文書の要約タスクの実験から,HETFORMERがルージュF1の最先端性能を達成することが示された。
論文 参考訳(メタデータ) (2021-10-12T22:42:31Z) - Long Range Arena: A Benchmark for Efficient Transformers [115.1654897514089]
ロングレンジアリーナベンチマーク(Long-rangearena benchmark)は、1Kドルから16Kドルまでの一連のタスクからなるスイートである。
我々は,新たに提案したベンチマークスイートを用いて,よく確立された10種類の長距離トランスフォーマーモデルを体系的に評価した。
論文 参考訳(メタデータ) (2020-11-08T15:53:56Z) - Long-Short Term Masking Transformer: A Simple but Effective Baseline for
Document-level Neural Machine Translation [28.94748226472447]
文書レベルの翻訳における標準変換器の長所と短所について検討する。
本稿では,標準変圧器上での自己注意を隠蔽する,驚くほど単純な長短項マスクを提案する。
BLEUの強い結果が得られ、談話現象を捉えることができる。
論文 参考訳(メタデータ) (2020-09-19T00:29:51Z) - The Cascade Transformer: an Application for Efficient Answer Sentence
Selection [116.09532365093659]
本稿では,変圧器をベースとしたモデルのカスケード化手法であるカスケード変換器について紹介する。
現状の変圧器モデルと比較すると,提案手法は精度にほとんど影響を与えずに計算量を37%削減する。
論文 参考訳(メタデータ) (2020-05-05T23:32:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。