論文の概要: Legal-HNet: Mixing Legal Long-Context Tokens with Hartley Transform
- arxiv url: http://arxiv.org/abs/2311.05089v1
- Date: Thu, 9 Nov 2023 01:27:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-10 16:17:47.512005
- Title: Legal-HNet: Mixing Legal Long-Context Tokens with Hartley Transform
- Title(参考訳): Legal-HNet:Hartley変換とLong-Contextトークンの混合
- Authors: Daniele Giofr\'e and Sneha Ghantasala
- Abstract要約: 本稿では,注意に基づくデコーダに接続された非注意型エンコーダであるSeq2Seqアーキテクチャを提案する。
これにより、スクラッチからトレーニングモデルをより多くの人に利用できるようになるだけでなく、トレーニング中の炭素フットプリントの削減にも寄与する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Since its introduction, the transformers architecture has seen great adoption
in NLP applications, but it also has limitations. Although the self-attention
mechanism allows for generating very rich representations of the input text,
its effectiveness may be limited in specialized domains such as legal, where,
for example, language models often have to process very long texts. In this
paper, we explore alternatives to replace the attention-based layers with
simpler token-mixing mechanisms: Hartley and Fourier transforms. Using these
non-parametric techniques, we train models with long input documents from
scratch in the legal domain setting. We also introduce a new hybrid Seq2Seq
architecture, a no-attention-based encoder connected with an attention-based
decoder, which performs quite well on existing summarization tasks with much
less compute and memory requirements. We believe that similar, if not better
performance, as in the case of long correlations of abstractive text
summarization tasks, can be achieved by adopting these simpler infrastructures.
This not only makes training models from scratch accessible to more people, but
also contributes to the reduction of the carbon footprint during training.
- Abstract(参考訳): 導入以来、トランスフォーマーアーキテクチャはNLPアプリケーションに大きく採用されているが、制限もある。
自己認識機構は入力テキストの非常にリッチな表現を生成することができるが、その有効性は法律のような専門分野に限られており、例えば言語モデルは、非常に長いテキストを処理する必要がある。
本稿では,注目層を単純なトークン混合機構で置き換える代替手段として,ハートレー変換とフーリエ変換を提案する。
これらの非パラメトリック手法を用いて、法域設定において、長い入力文書を持つモデルをゼロから訓練する。
また,注意に基づくデコーダに接続された非アテンションベースのエンコーダであるseq2seqアーキテクチャも新たに導入した。
抽象的なテキスト要約タスクの長い相関の場合のように、性能が良くなくても、これらの単純なインフラを採用することで達成できると考えている。
これにより、スクラッチからトレーニングモデルをより多くの人に利用できるようになるだけでなく、トレーニング中の炭素フットプリントの削減にも寄与する。
関連論文リスト
- KV Cache Compression, But What Must We Give in Return? A Comprehensive Benchmark of Long Context Capable Approaches [52.02764371205856]
長期の文脈能力は、大規模言語モデル(LLM)にとって重要な能力である
この研究は、現在の手法の分類を提供し、長いコンテキストタスクの7つのカテゴリにまたがる10以上の最先端のアプローチを評価する。
論文 参考訳(メタデータ) (2024-07-01T17:59:47Z) - Attention as an RNN [66.5420926480473]
我々は,そのテキストマンディ・ツー・ワンのRNN出力を効率的に計算できる特別なリカレントニューラルネットワーク(RNN)として注目されることを示す。
本稿では,並列プレフィックススキャンアルゴリズムを用いて,注目のテキストマンディ・ツー・マニーRNN出力を効率よく計算する手法を提案する。
Aarensは、一般的な4つのシーケンシャルな問題設定に散らばる38ドルのデータセットで、Transformersに匹敵するパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-05-22T19:45:01Z) - Equipping Transformer with Random-Access Reading for Long-Context Understanding [9.433800833564279]
長文モデリングはトランスフォーマーに基づく大規模言語モデルにとって重要な課題である。
本稿では,全てのトークンを検査することなく,変換器が効率よく長い文書を処理できる新しい読解戦略を提案する。
論文 参考訳(メタデータ) (2024-05-21T21:41:07Z) - LOCOST: State-Space Models for Long Document Abstractive Summarization [76.31514220737272]
長いコンテキスト入力を持つ条件付きテキスト生成のための状態空間モデルに基づくエンコーダデコーダアーキテクチャであるLOCOSTを提案する。
計算複雑性が$O(L log L)$の場合、このアーキテクチャは疎注意パターンに基づく最先端モデルよりもはるかに長いシーケンスを処理できる。
論文 参考訳(メタデータ) (2024-01-31T15:33:37Z) - Incrementally-Computable Neural Networks: Efficient Inference for
Dynamic Inputs [75.40636935415601]
ディープラーニングは、センサーデータやユーザ入力などの動的入力を効率的に処理するという課題に直面していることが多い。
インクリメンタルな計算アプローチを採用し、入力の変化に応じて計算を再利用する。
本稿では,この手法をトランスフォーマーアーキテクチャに適用し,修正入力の分数に比例した複雑性を持つ効率的なインクリメンタル推論アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-07-27T16:30:27Z) - Recurrent Attention Networks for Long-text Modeling [14.710722261441822]
本稿では, 自己注意の繰り返し動作を可能にするために, RAN(Recurrent Attention Network) という長文符号化モデルを提案する。
RANはトークンレベルの表現とドキュメントレベルの表現の両方でグローバルなセマンティクスを抽出することができ、シーケンシャルタスクと分類タスクの両方と本質的に互換性がある。
論文 参考訳(メタデータ) (2023-06-12T03:28:33Z) - Extracting Text Representations for Terms and Phrases in Technical
Domains [9.27244202193623]
そこで本研究では,大容量の事前学習組込み行列を再構築する目的で,小文字モデルを用いたテキスト符号化手法を提案する。
このアプローチでトレーニングされたモデルは、技術領域における文エンコーダの品質に適合するだけでなく、5倍小さく、最大10倍高速である。
論文 参考訳(メタデータ) (2023-05-25T08:59:36Z) - Tram: A Token-level Retrieval-augmented Mechanism for Source Code Summarization [76.57699934689468]
ニューラルモデルの性能を高めるために,デコーダ側で詳細なTokenレベル検索強化機構(Tram)を提案する。
文脈的コードセマンティクスの取得におけるトークンレベルの検索の課題を克服するために,コードセマンティクスを個々の要約トークンに統合することを提案する。
論文 参考訳(メタデータ) (2023-05-18T16:02:04Z) - Long Document Summarization with Top-down and Bottom-up Inference [113.29319668246407]
本稿では、2つの側面の要約モデルを改善するための原則的推論フレームワークを提案する。
我々のフレームワークは、トップレベルが長距離依存性をキャプチャするドキュメントの階層的な潜在構造を前提としています。
本稿では,様々な要約データセットに対して提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-03-15T01:24:51Z) - Sparsity and Sentence Structure in Encoder-Decoder Attention of
Summarization Systems [38.672160430296536]
トランスフォーマーモデルは、要約を含む幅広いNLPタスクにおいて最先端の結果を得た。
これまでの研究は、エンコーダの二次的自己保持機構という、重要なボトルネックに重点を置いてきた。
この研究はトランスのエンコーダ・デコーダのアテンション機構に焦点を当てている。
論文 参考訳(メタデータ) (2021-09-08T19:32:42Z) - Long-Short Term Masking Transformer: A Simple but Effective Baseline for
Document-level Neural Machine Translation [28.94748226472447]
文書レベルの翻訳における標準変換器の長所と短所について検討する。
本稿では,標準変圧器上での自己注意を隠蔽する,驚くほど単純な長短項マスクを提案する。
BLEUの強い結果が得られ、談話現象を捉えることができる。
論文 参考訳(メタデータ) (2020-09-19T00:29:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。