論文の概要: Recurrent Attention Networks for Long-text Modeling
- arxiv url: http://arxiv.org/abs/2306.06843v1
- Date: Mon, 12 Jun 2023 03:28:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-13 16:20:20.157624
- Title: Recurrent Attention Networks for Long-text Modeling
- Title(参考訳): 長文モデリングのためのリカレントアテンションネットワーク
- Authors: Xianming Li, Zongxi Li, Xiaotian Luo, Haoran Xie, Xing Lee, Yingbin
Zhao, Fu Lee Wang, Qing Li
- Abstract要約: 本稿では, 自己注意の繰り返し動作を可能にするために, RAN(Recurrent Attention Network) という長文符号化モデルを提案する。
RANはトークンレベルの表現とドキュメントレベルの表現の両方でグローバルなセマンティクスを抽出することができ、シーケンシャルタスクと分類タスクの両方と本質的に互換性がある。
- 参考スコア(独自算出の注目度): 14.710722261441822
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-attention-based models have achieved remarkable progress in short-text
mining. However, the quadratic computational complexities restrict their
application in long text processing. Prior works have adopted the chunking
strategy to divide long documents into chunks and stack a self-attention
backbone with the recurrent structure to extract semantic representation. Such
an approach disables parallelization of the attention mechanism, significantly
increasing the training cost and raising hardware requirements. Revisiting the
self-attention mechanism and the recurrent structure, this paper proposes a
novel long-document encoding model, Recurrent Attention Network (RAN), to
enable the recurrent operation of self-attention. Combining the advantages from
both sides, the well-designed RAN is capable of extracting global semantics in
both token-level and document-level representations, making it inherently
compatible with both sequential and classification tasks, respectively.
Furthermore, RAN is computationally scalable as it supports parallelization on
long document processing. Extensive experiments demonstrate the long-text
encoding ability of the proposed RAN model on both classification and
sequential tasks, showing its potential for a wide range of applications.
- Abstract(参考訳): 自己注意に基づくモデルは、短文マイニングにおいて顕著な進歩を遂げた。
しかし、二次計算の複雑さは長文処理におけるそれらの応用を制限する。
以前の作業ではチャンキング戦略を採用しており、長いドキュメントをチャンクに分割し、自己対応バックボーンをリカレント構造に積み重ねて意味表現を抽出する。
このようなアプローチは注意機構の並列化を無効にし、トレーニングコストを大幅に増加させ、ハードウェア要件を増加させる。
本稿では, 自己注意機構と再帰構造を再考し, 自己注意の繰り返し動作を可能にするために, RAN(Recurrent Attention Network) という長文符号化モデルを提案する。
両面の利点を組み合わせることで、よく設計されたRANはトークンレベルの表現とドキュメントレベルの表現の両方でグローバルなセマンティクスを抽出することができ、それぞれシーケンシャルタスクと分類タスクの両方と本質的に互換性がある。
さらにRANは、長いドキュメント処理の並列化をサポートするため、計算にスケーラブルである。
広範にわたる実験では、分類とシーケンシャルタスクの両方において提案したRANモデルの長文符号化能力を示し、幅広い応用の可能性を示している。
関連論文リスト
- Recycled Attention: Efficient inference for long-context language models [54.00118604124301]
本稿では,入力トークンのサブセットに対して,フルコンテキストアテンションとアテンションを交互に切り替える推論時間手法であるRecycled Attentionを提案する。
部分的に注意を払っていると、全注意を払っている前のトークンの注意パターンをリサイクルし、最も出席しているトークンの上位Kにのみ出席する。
提案手法は,局所的な文脈や注目スコアの高いトークンにのみ参加する推論時加速度法と比較して,現在の復号ステップに関連するトークンを柔軟に選択する。
論文 参考訳(メタデータ) (2024-11-08T18:57:07Z) - KV Cache Compression, But What Must We Give in Return? A Comprehensive Benchmark of Long Context Capable Approaches [52.02764371205856]
長期の文脈能力は、大規模言語モデル(LLM)にとって重要な能力である
この研究は、現在の手法の分類を提供し、長いコンテキストタスクの7つのカテゴリにまたがる10以上の最先端のアプローチを評価する。
論文 参考訳(メタデータ) (2024-07-01T17:59:47Z) - Accelerating Inference of Retrieval-Augmented Generation via Sparse Context Selection [28.15184715270483]
大きな言語モデル (LLM) は、検索によって強化され、堅牢な性能と広範な汎用性を示す。
本稿では,スパースRAGという新しいパラダイムを提案する。
Sparse RAGは、検索したドキュメントを並列にエンコードする。
論文 参考訳(メタデータ) (2024-05-25T11:10:04Z) - Spatial Semantic Recurrent Mining for Referring Image Segmentation [63.34997546393106]
高品質なクロスモーダリティ融合を実現するために,Stextsuperscript2RMを提案する。
これは、言語特徴の分散、空間的意味的再帰的分離、パーセマンティック・セマンティック・バランシングという三部作の作業戦略に従う。
提案手法は他の最先端アルゴリズムに対して好適に機能する。
論文 参考訳(メタデータ) (2024-05-15T00:17:48Z) - LOCOST: State-Space Models for Long Document Abstractive Summarization [76.31514220737272]
長いコンテキスト入力を持つ条件付きテキスト生成のための状態空間モデルに基づくエンコーダデコーダアーキテクチャであるLOCOSTを提案する。
計算複雑性が$O(L log L)$の場合、このアーキテクチャは疎注意パターンに基づく最先端モデルよりもはるかに長いシーケンスを処理できる。
論文 参考訳(メタデータ) (2024-01-31T15:33:37Z) - Legal-HNet: Mixing Legal Long-Context Tokens with Hartley Transform [0.0]
本稿では,注意に基づくデコーダに接続された非注意型エンコーダであるSeq2Seqアーキテクチャを提案する。
これにより、スクラッチからトレーニングモデルをより多くの人に利用できるようになるだけでなく、トレーニング中の炭素フットプリントの削減にも寄与する。
論文 参考訳(メタデータ) (2023-11-09T01:27:54Z) - Attention Where It Matters: Rethinking Visual Document Understanding
with Selective Region Concentration [26.408343160223517]
本稿では,SeRumという文書理解モデルを提案する。
SeRumは、画像理解と認識タスクを視覚トークンの局所的な復号プロセスに変換する。
本稿では,SeRumが文書理解タスクの最先端性能とテキストスポッティングタスクの競合結果を達成することを示す。
論文 参考訳(メタデータ) (2023-09-03T10:14:34Z) - Plug-and-Play Regulators for Image-Text Matching [76.28522712930668]
微細な対応と視覚的セマンティックなアライメントの爆発は、画像とテキストのマッチングにおいて大きな可能性を秘めている。
我々は、メッセージ出力を効率的にエンコードして、コンテキストを自動生成し、モーダル表現を集約する、シンプルだが非常に効果的な2つのレギュレータを開発した。
MSCOCOとFlickr30Kデータセットの実験は、複数のモデルで印象的で一貫したR@1ゲインをもたらすことができることを実証している。
論文 参考訳(メタデータ) (2023-03-23T15:42:05Z) - Efficient Long Sequence Encoding via Synchronization [29.075962393432857]
階層符号化のための同期機構を提案する。
我々のアプローチはまずセグメント間でアンカートークンを識別し、元の入力シーケンスでの役割によってグループ化する。
我々のアプローチは、効率を保ちながらセグメント間のグローバル情報交換を改善することができる。
論文 参考訳(メタデータ) (2022-03-15T04:37:02Z) - Long Document Summarization with Top-down and Bottom-up Inference [113.29319668246407]
本稿では、2つの側面の要約モデルを改善するための原則的推論フレームワークを提案する。
我々のフレームワークは、トップレベルが長距離依存性をキャプチャするドキュメントの階層的な潜在構造を前提としています。
本稿では,様々な要約データセットに対して提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-03-15T01:24:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。