Fugu-MT 論文翻訳(概要): Legal-HNet: Mixing Legal Long-Context Tokens with Hartley Transform

論文の概要: Legal-HNet: Mixing Legal Long-Context Tokens with Hartley Transform

arxiv url: http://arxiv.org/abs/2311.05089v1
Date: Thu, 9 Nov 2023 01:27:54 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-10 16:17:47.512005
Title: Legal-HNet: Mixing Legal Long-Context Tokens with Hartley Transform
Title（参考訳）: Legal-HNet:Hartley変換とLong-Contextトークンの混合
Authors: Daniele Giofr\'e and Sneha Ghantasala
Abstract要約: 本稿では,注意に基づくデコーダに接続された非注意型エンコーダであるSeq2Seqアーキテクチャを提案する。これにより、スクラッチからトレーニングモデルをより多くの人に利用できるようになるだけでなく、トレーニング中の炭素フットプリントの削減にも寄与する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Since its introduction, the transformers architecture has seen great adoption in NLP applications, but it also has limitations. Although the self-attention mechanism allows for generating very rich representations of the input text, its effectiveness may be limited in specialized domains such as legal, where, for example, language models often have to process very long texts. In this paper, we explore alternatives to replace the attention-based layers with simpler token-mixing mechanisms: Hartley and Fourier transforms. Using these non-parametric techniques, we train models with long input documents from scratch in the legal domain setting. We also introduce a new hybrid Seq2Seq architecture, a no-attention-based encoder connected with an attention-based decoder, which performs quite well on existing summarization tasks with much less compute and memory requirements. We believe that similar, if not better performance, as in the case of long correlations of abstractive text summarization tasks, can be achieved by adopting these simpler infrastructures. This not only makes training models from scratch accessible to more people, but also contributes to the reduction of the carbon footprint during training.
Abstract（参考訳）: 導入以来、トランスフォーマーアーキテクチャはNLPアプリケーションに大きく採用されているが、制限もある。自己認識機構は入力テキストの非常にリッチな表現を生成することができるが、その有効性は法律のような専門分野に限られており、例えば言語モデルは、非常に長いテキストを処理する必要がある。本稿では,注目層を単純なトークン混合機構で置き換える代替手段として,ハートレー変換とフーリエ変換を提案する。これらの非パラメトリック手法を用いて、法域設定において、長い入力文書を持つモデルをゼロから訓練する。また,注意に基づくデコーダに接続された非アテンションベースのエンコーダであるseq2seqアーキテクチャも新たに導入した。抽象的なテキスト要約タスクの長い相関の場合のように、性能が良くなくても、これらの単純なインフラを採用することで達成できると考えている。これにより、スクラッチからトレーニングモデルをより多くの人に利用できるようになるだけでなく、トレーニング中の炭素フットプリントの削減にも寄与する。

関連論文リスト

Modality Agnostic Efficient Long Range Encoder [14.705955027331674]
汎用実装を用いた単一デバイス上での長文処理の課題に対処する。これらの制約を克服するために、統一的で効率的なトランスアーキテクチャであるMAELREを提案する。我々は、MAELREが既存の長文モデルと比較して計算コストを低減しつつ、優れた精度を達成できることを実証した。
論文参考訳（メタデータ） (2025-07-25T16:19:47Z)
LoViC: Efficient Long Video Generation with Context Compression [68.22069741704158]
百万単位のオープンドメインビデオに基づいてトレーニングされたDiTベースのフレームワークであるLoViCを紹介する。当社のアプローチの核心はFlexFormerです。ビデオとテキストを統合された潜在表現に共同で圧縮する表現型オートエンコーダです。
論文参考訳（メタデータ） (2025-07-17T09:46:43Z)
KV Cache Compression, But What Must We Give in Return? A Comprehensive Benchmark of Long Context Capable Approaches [52.02764371205856]
長期の文脈能力は、大規模言語モデル(LLM)にとって重要な能力であるこの研究は、現在の手法の分類を提供し、長いコンテキストタスクの7つのカテゴリにまたがる10以上の最先端のアプローチを評価する。
論文参考訳（メタデータ） (2024-07-01T17:59:47Z)
Attention as an RNN [66.5420926480473]
我々は,そのテキストマンディ・ツー・ワンのRNN出力を効率的に計算できる特別なリカレントニューラルネットワーク(RNN)として注目されることを示す。本稿では,並列プレフィックススキャンアルゴリズムを用いて,注目のテキストマンディ・ツー・マニーRNN出力を効率よく計算する手法を提案する。 Aarensは、一般的な4つのシーケンシャルな問題設定に散らばる38ドルのデータセットで、Transformersに匹敵するパフォーマンスを実現している。
論文参考訳（メタデータ） (2024-05-22T19:45:01Z)
Equipping Transformer with Random-Access Reading for Long-Context Understanding [9.433800833564279]
長文モデリングはトランスフォーマーに基づく大規模言語モデルにとって重要な課題である。本稿では,全てのトークンを検査することなく,変換器が効率よく長い文書を処理できる新しい読解戦略を提案する。
論文参考訳（メタデータ） (2024-05-21T21:41:07Z)
LOCOST: State-Space Models for Long Document Abstractive Summarization [76.31514220737272]
長いコンテキスト入力を持つ条件付きテキスト生成のための状態空間モデルに基づくエンコーダデコーダアーキテクチャであるLOCOSTを提案する。計算複雑性が$O(L log L)$の場合、このアーキテクチャは疎注意パターンに基づく最先端モデルよりもはるかに長いシーケンスを処理できる。
論文参考訳（メタデータ） (2024-01-31T15:33:37Z)
Incrementally-Computable Neural Networks: Efficient Inference for Dynamic Inputs [75.40636935415601]
ディープラーニングは、センサーデータやユーザ入力などの動的入力を効率的に処理するという課題に直面していることが多い。インクリメンタルな計算アプローチを採用し、入力の変化に応じて計算を再利用する。本稿では,この手法をトランスフォーマーアーキテクチャに適用し,修正入力の分数に比例した複雑性を持つ効率的なインクリメンタル推論アルゴリズムを提案する。
論文参考訳（メタデータ） (2023-07-27T16:30:27Z)
Recurrent Attention Networks for Long-text Modeling [14.710722261441822]
本稿では, 自己注意の繰り返し動作を可能にするために, RAN(Recurrent Attention Network) という長文符号化モデルを提案する。 RANはトークンレベルの表現とドキュメントレベルの表現の両方でグローバルなセマンティクスを抽出することができ、シーケンシャルタスクと分類タスクの両方と本質的に互換性がある。
論文参考訳（メタデータ） (2023-06-12T03:28:33Z)
Extracting Text Representations for Terms and Phrases in Technical Domains [9.27244202193623]
そこで本研究では,大容量の事前学習組込み行列を再構築する目的で,小文字モデルを用いたテキスト符号化手法を提案する。このアプローチでトレーニングされたモデルは、技術領域における文エンコーダの品質に適合するだけでなく、5倍小さく、最大10倍高速である。
論文参考訳（メタデータ） (2023-05-25T08:59:36Z)
Tram: A Token-level Retrieval-augmented Mechanism for Source Code Summarization [76.57699934689468]
ニューラルモデルの性能を高めるために,デコーダ側で詳細なTokenレベル検索強化機構(Tram)を提案する。文脈的コードセマンティクスの取得におけるトークンレベルの検索の課題を克服するために,コードセマンティクスを個々の要約トークンに統合することを提案する。
論文参考訳（メタデータ） (2023-05-18T16:02:04Z)
Long Document Summarization with Top-down and Bottom-up Inference [113.29319668246407]
本稿では、2つの側面の要約モデルを改善するための原則的推論フレームワークを提案する。我々のフレームワークは、トップレベルが長距離依存性をキャプチャするドキュメントの階層的な潜在構造を前提としています。本稿では,様々な要約データセットに対して提案手法の有効性を示す。
論文参考訳（メタデータ） (2022-03-15T01:24:51Z)
Sparsity and Sentence Structure in Encoder-Decoder Attention of Summarization Systems [38.672160430296536]
トランスフォーマーモデルは、要約を含む幅広いNLPタスクにおいて最先端の結果を得た。これまでの研究は、エンコーダの二次的自己保持機構という、重要なボトルネックに重点を置いてきた。この研究はトランスのエンコーダ・デコーダのアテンション機構に焦点を当てている。
論文参考訳（メタデータ） (2021-09-08T19:32:42Z)
Long-Short Term Masking Transformer: A Simple but Effective Baseline for Document-level Neural Machine Translation [28.94748226472447]
文書レベルの翻訳における標準変換器の長所と短所について検討する。本稿では,標準変圧器上での自己注意を隠蔽する,驚くほど単純な長短項マスクを提案する。 BLEUの強い結果が得られ、談話現象を捉えることができる。
論文参考訳（メタデータ） (2020-09-19T00:29:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。