論文の概要: Equipping Transformer with Random-Access Reading for Long-Context Understanding
- arxiv url: http://arxiv.org/abs/2405.13216v1
- Date: Tue, 21 May 2024 21:41:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-25 01:53:42.537429
- Title: Equipping Transformer with Random-Access Reading for Long-Context Understanding
- Title(参考訳): 長文理解のためのランダムアクセシブル読解変換器
- Authors: Chenghao Yang, Zi Yang, Nan Hua,
- Abstract要約: 長文モデリングはトランスフォーマーに基づく大規模言語モデルにとって重要な課題である。
本稿では,全てのトークンを検査することなく,変換器が効率よく長い文書を処理できる新しい読解戦略を提案する。
- 参考スコア(独自算出の注目度): 9.433800833564279
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long-context modeling presents a significant challenge for transformer-based large language models (LLMs) due to the quadratic complexity of the self-attention mechanism and issues with length extrapolation caused by pretraining exclusively on short inputs. Existing methods address computational complexity through techniques such as text chunking, the kernel approach, and structured attention, and tackle length extrapolation problems through positional encoding, continued pretraining, and data engineering. These approaches typically require $\textbf{sequential access}$ to the document, necessitating reading from the first to the last token. We contend that for goal-oriented reading of long documents, such sequential access is not necessary, and a proficiently trained model can learn to omit hundreds of less pertinent tokens. Inspired by human reading behaviors and existing empirical observations, we propose $\textbf{random access}$, a novel reading strategy that enables transformers to efficiently process long documents without examining every token. Experimental results from pretraining, fine-tuning, and inference phases validate the efficacy of our method.
- Abstract(参考訳): 長文モデリングは、自己認識機構の2次複雑さと、短い入力にのみ事前学習することによる長さ外挿の問題により、トランスフォーマーベースの大規模言語モデル(LLM)にとって重要な課題である。
既存の手法は、テキストチャンキング、カーネルアプローチ、構造化された注意を通して計算複雑性に対処し、位置エンコーディング、継続的な事前学習、データエンジニアリングを通じて長さ外挿問題に取り組む。
これらのアプローチは通常、ドキュメントに対して$\textbf{sequential access}$を必要とし、最初のトークンから最後のトークンまで読み込む必要がある。
長い文書をゴール指向で読むためには、このようなシーケンシャルなアクセスは不要であり、熟練した訓練を受けたモデルでは、数百の関連するトークンを省略することができる、と我々は主張する。
人間の読影行動や既存の経験的観察から着想を得て,すべてのトークンを検査することなく,トランスフォーマーが効率的に長い文書を処理できる新しい読影戦略である$\textbf{random access}$を提案する。
プレトレーニング,微調整,推論による実験結果から,本手法の有効性が検証された。
関連論文リスト
- ChuLo: Chunk-Level Key Information Representation for Long Document Processing [11.29459225491404]
ChuLoは長い文書分類のための新しいチャンク表現法である。
提案手法は,情報損失を最小限に抑え,トランスフォーマーモデルの有効性を向上させる。
論文 参考訳(メタデータ) (2024-10-14T22:06:54Z) - Dataset Decomposition: Faster LLM Training with Variable Sequence Length Curriculum [30.46329559544246]
本稿では,新しい可変シーケンス長トレーニング手法であるデータセット分解を導入する。
ベースラインアプローチでトレーニングした2kコンテキスト長モデルと同じコストで,8kコンテキスト長1Bモデルをトレーニングする。
ウェブスケールコーパスの実験により,我々の手法は標準言語評価や長文ベンチマークの性能を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-05-21T22:26:01Z) - Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z) - In-context Pretraining: Language Modeling Beyond Document Boundaries [137.53145699439898]
In-Context Pretrainingは、言語モデルが関連するドキュメントのシーケンスで事前トレーニングされる新しいアプローチである。
本稿では, 近接探索を効率的に行うための近似アルゴリズムを提案する。
より複雑なコンテキスト推論を必要とするタスクの顕著な改善が見られます。
論文 参考訳(メタデータ) (2023-10-16T17:57:12Z) - Chunk, Align, Select: A Simple Long-sequence Processing Method for Transformers [24.109312575970456]
そこで本研究では,オフザシェルフ事前学習型トランスフォーマーにおいて,より長いシーケンス処理を実現するための簡単なフレームワークを提案する。
提案手法では,各時系列入力をチャンクのバッチに分割し,エンコーディングステップ中にインターチャンク情報をアライメントする。
我々は,変圧器のデコーダを環境とみなす効果的な隠れ選択ポリシーを学習する。
論文 参考訳(メタデータ) (2023-08-25T05:52:05Z) - Incrementally-Computable Neural Networks: Efficient Inference for
Dynamic Inputs [75.40636935415601]
ディープラーニングは、センサーデータやユーザ入力などの動的入力を効率的に処理するという課題に直面していることが多い。
インクリメンタルな計算アプローチを採用し、入力の変化に応じて計算を再利用する。
本稿では,この手法をトランスフォーマーアーキテクチャに適用し,修正入力の分数に比例した複雑性を持つ効率的なインクリメンタル推論アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-07-27T16:30:27Z) - Tram: A Token-level Retrieval-augmented Mechanism for Source Code Summarization [76.57699934689468]
ニューラルモデルの性能を高めるために,デコーダ側で詳細なTokenレベル検索強化機構(Tram)を提案する。
文脈的コードセマンティクスの取得におけるトークンレベルの検索の課題を克服するために,コードセマンティクスを個々の要約トークンに統合することを提案する。
論文 参考訳(メタデータ) (2023-05-18T16:02:04Z) - Extend and Explain: Interpreting Very Long Language Models [0.0]
本稿では,予測に寄与するテキストブロックを識別するための新しいMasked Smpling procedure (MSP)を提案する。
MSPは、以前の最先端よりも1.7倍の臨床的に有益なテキストブロックを特定し、100倍の速度で走り、重要なフレーズペアを生成することができる。
論文 参考訳(メタデータ) (2022-09-02T17:15:43Z) - Recurrent Chunking Mechanisms for Long-Text Machine Reading
Comprehension [59.80926970481975]
機械読解(MRC)を長文で研究する。
モデルは長い文書と質問を入力として取り、回答として文書からテキストを抽出する。
我々は、モデルに強化学習を通じてより柔軟な方法でチャンクを学習させることを提案する。
論文 参考訳(メタデータ) (2020-05-16T18:08:58Z) - POINTER: Constrained Progressive Text Generation via Insertion-based
Generative Pre-training [93.79766670391618]
ハードコントラストテキスト生成のための新しい挿入ベースアプローチであるPOINTERを提案する。
提案手法は,既存のトークン間で段階的に新しいトークンを並列に挿入することによって動作する。
結果として生じる粗大な階層構造は、生成プロセスを直感的で解釈可能である。
論文 参考訳(メタデータ) (2020-05-01T18:11:54Z) - Beyond 512 Tokens: Siamese Multi-depth Transformer-based Hierarchical
Encoder for Long-Form Document Matching [28.190001111358438]
長文文書マッチングのためのシームズ多層変換器を用いたSMITHを提案する。
我々のモデルには、より長いテキスト入力に自己注意モデルを適用するためのいくつかの革新が含まれている。
われわれはウィキペディアベースのベンチマークデータセット、コード、トレーニング済みのチェックポイントをオープンソース化し、長文文書マッチングの今後の研究を加速する。
論文 参考訳(メタデータ) (2020-04-26T07:04:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。