論文の概要: E2LLM: Encoder Elongated Large Language Models for Long-Context Understanding and Reasoning
- arxiv url: http://arxiv.org/abs/2409.06679v1
- Date: Tue, 10 Sep 2024 17:44:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-11 16:39:07.891693
- Title: E2LLM: Encoder Elongated Large Language Models for Long-Context Understanding and Reasoning
- Title(参考訳): E2LLM: 長期理解と推論のためのエンコーダ拡張大言語モデル
- Authors: Zihan Liao, Jun Wang, Hang Yu, Lingxiao Wei, Jianguo Li, Jun Wang, Wei Zhang,
- Abstract要約: E2LLM (Encodergated Large Language Models) は「不可能な三角形」を効果的にナビゲートする新しい手法である。
この手法では、長いコンテキストをチャンクに分割し、事前訓練されたテキストエンコーダを介してベクターに圧縮し、アダプタを使用してこれらの表現をデコーダのみのLLMで整列させる。
実験により、E2LLMは、事前訓練されたモデルとの効率、性能、互換性のバランスを保ちながら、長期コンテキストシナリオにおいて優れた性能を達成することが示された。
- 参考スコア(独自算出の注目度): 20.660297311025417
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the realm of Large Language Models (LLMs), the ability to process long contexts is increasingly crucial for tasks such as multi-round dialogues, code generation, and document summarization. This paper addresses the challenges of enhancing the long-context performance, reducing computational complexity, and leveraging pretrained models collectively termed the "impossible triangle." We introduce E2LLM (Encoder Elongated Large Language Models), a novel approach that effectively navigates this paradox. The method involves splitting long contexts into chunks, compressing each into embedding vectors via a pretrained text encoder, and utilizing an adapter to align these representations with a decoder-only LLM. Two training objectives, focusing on reconstruction of the encoder output and long-context instruction fine-tuning, are employed to facilitate the understanding of soft prompts by the LLM. Experimental results demonstrate that E2LLM achieves superior performance in long-context scenarios while balancing efficiency, performance, and compatibility with pretrained models. Our framework thus represents a significant advancement in the field, contributing to effective long-text modeling.
- Abstract(参考訳): LLM(Large Language Models)の領域では、多ラウンド対話、コード生成、文書要約といったタスクにおいて、長いコンテキストを処理する能力がますます重要になっている。
本稿では、長文性能の向上、計算複雑性の低減、事前学習したモデルを総合的に「不可能な三角形」と呼ぶことの課題に対処する。
本稿では,このパラドックスを効果的にナビゲートする新しいアプローチであるE2LLM(Encoder Elongated Large Language Models)を紹介する。
この手法では、長いコンテキストをチャンクに分割し、事前訓練されたテキストエンコーダを介してベクターに圧縮し、アダプタを使用してこれらの表現をデコーダのみのLLMで整列させる。
LLMによるソフトプロンプトの理解を容易にするために,エンコーダ出力の再構築と長文命令の微調整に着目した2つのトレーニング目標が採用された。
実験により、E2LLMは、事前訓練されたモデルとの効率、性能、互換性のバランスを保ちながら、長期コンテキストシナリオにおいて優れた性能を達成することが示された。
我々のフレームワークはこの分野において重要な進歩を示し、効果的な長文モデリングに寄与する。
関連論文リスト
- EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。
EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-02T23:00:31Z) - Investigating Decoder-only Large Language Models for Speech-to-text Translation [39.17113782374464]
大規模言語モデル (LLM) は、様々なドメインにまたがる例外的な推論能力、一般化可能性、およびレイテンシで知られている。
我々は,LLMが直接符号化された音声表現を消費し,テキスト翻訳を生成することができるデコーダのみのアーキテクチャを提案する。
本モデルでは,プロプライエタリなデータを必要としないモデル間で,CoVoST 2およびFLEURSの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-07-03T14:42:49Z) - KV Cache Compression, But What Must We Give in Return? A Comprehensive Benchmark of Long Context Capable Approaches [52.02764371205856]
長期の文脈能力は、大規模言語モデル(LLM)にとって重要な能力である
この研究は、現在の手法の分類を提供し、長いコンテキストタスクの7つのカテゴリにまたがる10以上の最先端のアプローチを評価する。
論文 参考訳(メタデータ) (2024-07-01T17:59:47Z) - ELLA: Equip Diffusion Models with LLM for Enhanced Semantic Alignment [20.868216061750402]
LLM(Large Language Models)とテキスト・画像拡散モデルを組み合わせた高能率大言語モデル適応器 ELLA を導入する。
提案手法は, 分割過程の異なる段階における意味的特徴に適応し, サンプリングタイムステップよりも長大かつ複雑なプロンプトを解釈する拡散モデルを支援する。
濃密なプロンプトにおけるテキスト・ツー・イメージのモデルを評価するために、1Kの濃密なプロンプトからなる挑戦的なベンチマークを導入する。
論文 参考訳(メタデータ) (2024-03-08T08:08:10Z) - Long-Context Language Modeling with Parallel Context Encoding [37.64884969997378]
既存のデコーダのみのLLMに適用可能なフレームワークを導入し、コンテキストウィンドウを拡張する。
CEPEは小さなエンコーダを使用して長い入力チャンクをチャンク単位で処理し、冷凍復号器はクロスアテンションを介して追加のコンテキストを利用することができる。
CEPEは、言語モデリングとコンテキスト内学習に強いパフォーマンスをもたらす。
論文 参考訳(メタデータ) (2024-02-26T14:47:35Z) - Chimera: A Lossless Decoding Method for Accelerating Large Language Models Inference by Fusing all Tokens [15.566726645722657]
投機的サンプリングに特化して設計された新しいフレームワークを提案する。
このフレームワーク内では、以前に生成されたトークンを効果的に活用し、後続の単語を予測する軽量なドラフトモデルを導入する。
我々は、バニラ自動回帰復号方式と比較して平均遅延速度比が2.7倍になるという印象的な結果を示した。
論文 参考訳(メタデータ) (2024-02-24T08:10:39Z) - Bidirectional Trained Tree-Structured Decoder for Handwritten
Mathematical Expression Recognition [51.66383337087724]
Handwriting Mathematical Expression Recognition (HMER) タスクは、OCRの分野における重要な分岐である。
近年の研究では、双方向コンテキスト情報の導入により、HMERモデルの性能が大幅に向上することが示されている。
本稿では,MF-SLT と双方向非同期トレーニング (BAT) 構造を提案する。
論文 参考訳(メタデータ) (2023-12-31T09:24:21Z) - RAVEN: In-Context Learning with Retrieval-Augmented Encoder-Decoder Language Models [57.12888828853409]
RAVENは検索強化されたマスク付き言語モデリングとプレフィックス言語モデリングを組み合わせたモデルである。
フュージョン・イン・コンテキスト・ラーニング(Fusion-in-Context Learning)により、追加のトレーニングを必要とせずに、より多くのコンテキスト内サンプルを利用できる。
本研究は,テキスト内学習のためのエンコーダ・デコーダ言語モデルの構築の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2023-08-15T17:59:18Z) - In-context Autoencoder for Context Compression in a Large Language Model [70.7621953091318]
In-context Autoencoder (ICAE) を提案し、長いコンテキストを短いメモリスロットに圧縮する。
ICAEは、大量のテキストデータに基づく自動符号化と言語モデリングの両方の目的を用いて、まず事前訓練を行う。
論文 参考訳(メタデータ) (2023-07-13T17:59:21Z) - Orthros: Non-autoregressive End-to-end Speech Translation with
Dual-decoder [64.55176104620848]
NARと自己回帰(AR)デコーダの両方を共有音声エンコーダで共同で訓練する新しいNAR E2E-STフレームワークOrthrosを提案する。
後者は、前者から生成される様々な長の候補間のより良い翻訳を選択するために使用され、これは、無視できるオーバーヘッドを持つ大きな長のビームの有効性を劇的に向上させる。
4つのベンチマーク実験により、競合翻訳品質を維持しつつ、推論速度を向上させる手法の有効性が示された。
論文 参考訳(メタデータ) (2020-10-25T06:35:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。