論文の概要: Found in the Middle: How Language Models Use Long Contexts Better via
Plug-and-Play Positional Encoding
- arxiv url: http://arxiv.org/abs/2403.04797v1
- Date: Tue, 5 Mar 2024 04:58:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-11 22:18:06.251789
- Title: Found in the Middle: How Language Models Use Long Contexts Better via
Plug-and-Play Positional Encoding
- Title(参考訳): 言語モデルがプラグイン・アンド・プレイの位置エンコーディングによって長いコンテキストをどのように活用するか
- Authors: Zhenyu Zhang, Runjin Chen, Shiwei Liu, Zhewei Yao, Olatunji Ruwase,
Beidi Chen, Xiaoxia Wu, Zhangyang Wang
- Abstract要約: 本稿では,マルチスケール位置決めについて紹介する。
(Ms-PoE)は、シンプルで効果的なプラグアンドプレイ方式で、キャパシティを向上させる。
LLMはコンテキストの中央に位置する関連情報を扱う。
- 参考スコア(独自算出の注目度): 78.36702055076456
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper aims to overcome the "lost-in-the-middle" challenge of large
language models (LLMs). While recent advancements have successfully enabled
LLMs to perform stable language modeling with up to 4 million tokens, the
persistent difficulty faced by most LLMs in identifying relevant information
situated in the middle of the context has not been adequately tackled. To
address this problem, this paper introduces Multi-scale Positional Encoding
(Ms-PoE) which is a simple yet effective plug-and-play approach to enhance the
capacity of LLMs to handle the relevant information located in the middle of
the context, without fine-tuning or introducing any additional overhead. Ms-PoE
leverages the position indice rescaling to relieve the long-term decay effect
introduced by RoPE, while meticulously assigning distinct scaling ratios to
different attention heads to preserve essential knowledge learned during the
pre-training step, forming a multi-scale context fusion from short to long
distance. Extensive experiments with a wide range of LLMs demonstrate the
efficacy of our approach. Notably, Ms-PoE achieves an average accuracy gain of
up to 3.8 on the Zero-SCROLLS benchmark over the original LLMs. Code are
available at https://github.com/VITA-Group/Ms-PoE.
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)の「中途半端な」課題を克服することを目的とする。
近年の進歩により、LLMは最大400万個のトークンで安定な言語モデリングを実現できるようになったが、ほとんどのLLMでは、コンテキストの中央に位置する関連情報を適切に識別することが困難である。
この問題に対処するために,LLMがコンテキストの中央に位置する関連情報を微調整や追加オーバーヘッドを伴わずに処理する能力を高めるための,シンプルかつ効果的なプラグアンドプレイ方式であるマルチスケール位置符号化(Ms-PoE)を提案する。
Ms-PoEは、位置インディエンス再スケーリングを利用して、RoPEが導入した長期的な崩壊効果を緩和し、異なる注意ヘッドに異なるスケーリング比を慎重に割り当てて、事前学習の過程で学習された本質的な知識を保存する。
広範囲のLSMを用いた広範囲な実験により,本手法の有効性が示された。
特に、Ms-PoEはZero-SCROLLSベンチマークの平均精度を3.8まで向上させた。
コードはhttps://github.com/VITA-Group/Ms-PoEで入手できる。
関連論文リスト
- Large Language Models Can Self-Improve in Long-context Reasoning [100.52886241070907]
大規模言語モデル(LLM)は、長いコンテキストの処理においてかなりの進歩を遂げているが、それでも長いコンテキストの推論に苦慮している。
我々はこの目的のために特別に設計されたアプローチである我々の提案する。
人類の専門家や 先進的なモデルによるデータに依存する 従来のアプローチと比べて 優れたパフォーマンスを達成しています
論文 参考訳(メタデータ) (2024-11-12T19:53:00Z) - Think Carefully and Check Again! Meta-Generation Unlocking LLMs for Low-Resource Cross-Lingual Summarization [108.6908427615402]
CLS(Cross-lingual summarization)は、異なるターゲット言語でソーステキストの要約を生成することを目的としている。
現在、インストラクションチューニング付き大規模言語モデル (LLM) は様々な英語タスクで優れている。
近年の研究では、LCSタスクにおけるLCMの性能は、わずかな設定でも満足できないことが示されている。
論文 参考訳(メタデータ) (2024-10-26T00:39:44Z) - FltLM: An Intergrated Long-Context Large Language Model for Effective Context Filtering and Understanding [32.197113821638936]
我々は,新しいLong-Context Large Language Model (FltLM)を提案する。
FltLMはコンテキストフィルタをソフトマスク機構に組み込み、関連する情報に集中するために無関係な内容を特定し、動的に排除する。
実験の結果,複雑なQAシナリオにおいて,FltLMは教師付き微調整法や検索法よりも優れていた。
論文 参考訳(メタデータ) (2024-10-09T13:47:50Z) - Scaling Up Summarization: Leveraging Large Language Models for Long Text Extractive Summarization [0.27624021966289597]
本稿では,Large Language Models (LLM) を利用した抽出要約フレームワークであるEYEGLAXSを紹介する。
EYEGLAXSは、事実的および文法的整合性を保証するために抽出的な要約に焦点を当てている。
このシステムはPubMedやArXivといった有名なデータセットに新しいパフォーマンスベンチマークを設定する。
論文 参考訳(メタデータ) (2024-08-28T13:52:19Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - Small Language Model Is a Good Guide for Large Language Model in Chinese
Entity Relation Extraction [13.344709924683471]
本稿では,モデルコラボレーションフレームワークSLCoLMを提案する。
textit-Training-Guide-Predict' 戦略を用いて,事前学習言語モデル (PLM) と大規模言語モデル (LLM) の強みを組み合わせる。
関係型に富んだREデータセットに対する実験により,本論文のアプローチが長い関係型のREを促進することを示す。
論文 参考訳(メタデータ) (2024-02-22T08:26:56Z) - Extending LLMs' Context Window with 100 Samples [42.52554295241792]
LLM(Large Language Models)は、事前訓練されたコンテキストウィンドウを超えて、外挿能力に制限があることが知られている。
最近の研究は回転位置埋め込み(RoPE)を改良してコンテキストウィンドウを拡張しようとしている。
我々は、RoPEのベース周波数の調整と注意ログのスケーリングを組み合わせて、LLMがより大きなコンテキストウインドウに効率的に適応するのに役立つ新しい拡張をRoPEに導入する。
論文 参考訳(メタデータ) (2024-01-13T07:57:01Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - LM-Polygraph: Uncertainty Estimation for Language Models [71.21409522341482]
不確実性推定(UE)手法は、大規模言語モデル(LLM)の安全性、責任性、効果的な利用のための1つの経路である。
テキスト生成タスクにおけるLLMの最先端UEメソッドのバッテリを実装したフレームワークであるLM-PolygraphをPythonで統一したプログラムインタフェースで導入する。
研究者によるUEテクニックの一貫した評価のための拡張可能なベンチマークと、信頼スコア付き標準チャットダイアログを強化するデモWebアプリケーションを導入している。
論文 参考訳(メタデータ) (2023-11-13T15:08:59Z) - Generative Multimodal Entity Linking [24.322540112710918]
MEL(Multimodal Entity Linking)は、知識ベースからの参照エンティティへの参照をマルチモーダルコンテキストでマッピングするタスクである。
既存のMEL法は主に複雑なマルチモーダル相互作用機構の設計に重点を置いており、すべてのモデルパラメータを微調整する必要がある。
大規模言語モデル(LLM)に基づくジェネレーティブマルチモーダルエンティティリンクフレームワークであるGEMELを提案する。
当社のフレームワークは市販の言語モデルと互換性があり、効率的で汎用的なソリューションへの道を開いたものです。
論文 参考訳(メタデータ) (2023-06-22T07:57:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。