Fugu-MT 論文翻訳(概要): Found in the Middle: How Language Models Use Long Contexts Better via Plug-and-Play Positional Encoding

論文の概要: Found in the Middle: How Language Models Use Long Contexts Better via Plug-and-Play Positional Encoding

arxiv url: http://arxiv.org/abs/2403.04797v1
Date: Tue, 5 Mar 2024 04:58:37 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-11 22:18:06.251789
Title: Found in the Middle: How Language Models Use Long Contexts Better via Plug-and-Play Positional Encoding
Title（参考訳）: 言語モデルがプラグイン・アンド・プレイの位置エンコーディングによって長いコンテキストをどのように活用するか
Authors: Zhenyu Zhang, Runjin Chen, Shiwei Liu, Zhewei Yao, Olatunji Ruwase, Beidi Chen, Xiaoxia Wu, Zhangyang Wang
Abstract要約: 本稿では,マルチスケール位置決めについて紹介する。 (Ms-PoE)は、シンプルで効果的なプラグアンドプレイ方式で、キャパシティを向上させる。 LLMはコンテキストの中央に位置する関連情報を扱う。
参考スコア（独自算出の注目度）: 78.36702055076456
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper aims to overcome the "lost-in-the-middle" challenge of large language models (LLMs). While recent advancements have successfully enabled LLMs to perform stable language modeling with up to 4 million tokens, the persistent difficulty faced by most LLMs in identifying relevant information situated in the middle of the context has not been adequately tackled. To address this problem, this paper introduces Multi-scale Positional Encoding (Ms-PoE) which is a simple yet effective plug-and-play approach to enhance the capacity of LLMs to handle the relevant information located in the middle of the context, without fine-tuning or introducing any additional overhead. Ms-PoE leverages the position indice rescaling to relieve the long-term decay effect introduced by RoPE, while meticulously assigning distinct scaling ratios to different attention heads to preserve essential knowledge learned during the pre-training step, forming a multi-scale context fusion from short to long distance. Extensive experiments with a wide range of LLMs demonstrate the efficacy of our approach. Notably, Ms-PoE achieves an average accuracy gain of up to 3.8 on the Zero-SCROLLS benchmark over the original LLMs. Code are available at https://github.com/VITA-Group/Ms-PoE.
Abstract（参考訳）: 本稿では,大規模言語モデル(LLM)の「中途半端な」課題を克服することを目的とする。近年の進歩により、LLMは最大400万個のトークンで安定な言語モデリングを実現できるようになったが、ほとんどのLLMでは、コンテキストの中央に位置する関連情報を適切に識別することが困難である。この問題に対処するために,LLMがコンテキストの中央に位置する関連情報を微調整や追加オーバーヘッドを伴わずに処理する能力を高めるための,シンプルかつ効果的なプラグアンドプレイ方式であるマルチスケール位置符号化(Ms-PoE)を提案する。 Ms-PoEは、位置インディエンス再スケーリングを利用して、RoPEが導入した長期的な崩壊効果を緩和し、異なる注意ヘッドに異なるスケーリング比を慎重に割り当てて、事前学習の過程で学習された本質的な知識を保存する。広範囲のLSMを用いた広範囲な実験により,本手法の有効性が示された。特に、Ms-PoEはZero-SCROLLSベンチマークの平均精度を3.8まで向上させた。コードはhttps://github.com/VITA-Group/Ms-PoEで入手できる。

関連論文リスト

Protecting multimodal large language models against misleading visualizations [94.71976205962527]
誤解を招くビジュアライゼーションの性能を改善するための最初の推論時間手法を紹介する。 MLLM問合せ精度は, 平均値からランダム基準値まで低下することがわかった。
論文参考訳（メタデータ） (2025-02-27T20:22:34Z)
LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。 LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。 LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文参考訳（メタデータ） (2025-02-15T02:55:22Z)
Large Language Models Can Self-Improve in Long-context Reasoning [100.52886241070907]
大規模言語モデル(LLM)は、長いコンテキストの処理においてかなりの進歩を遂げているが、それでも長いコンテキストの推論に苦慮している。我々はこの目的のために特別に設計されたアプローチである我々の提案する。人類の専門家や先進的なモデルによるデータに依存する従来のアプローチと比べて優れたパフォーマンスを達成しています
論文参考訳（メタデータ） (2024-11-12T19:53:00Z)
Think Carefully and Check Again! Meta-Generation Unlocking LLMs for Low-Resource Cross-Lingual Summarization [108.6908427615402]
CLS(Cross-lingual summarization)は、異なるターゲット言語でソーステキストの要約を生成することを目的としている。現在、インストラクションチューニング付き大規模言語モデル (LLM) は様々な英語タスクで優れている。近年の研究では、LCSタスクにおけるLCMの性能は、わずかな設定でも満足できないことが示されている。
論文参考訳（メタデータ） (2024-10-26T00:39:44Z)
FltLM: An Intergrated Long-Context Large Language Model for Effective Context Filtering and Understanding [32.197113821638936]
我々は,新しいLong-Context Large Language Model (FltLM)を提案する。 FltLMはコンテキストフィルタをソフトマスク機構に組み込み、関連する情報に集中するために無関係な内容を特定し、動的に排除する。実験の結果,複雑なQAシナリオにおいて,FltLMは教師付き微調整法や検索法よりも優れていた。
論文参考訳（メタデータ） (2024-10-09T13:47:50Z)
Scaling Up Summarization: Leveraging Large Language Models for Long Text Extractive Summarization [0.27624021966289597]
本稿では,Large Language Models (LLM) を利用した抽出要約フレームワークであるEYEGLAXSを紹介する。 EYEGLAXSは、事実的および文法的整合性を保証するために抽出的な要約に焦点を当てている。このシステムはPubMedやArXivといった有名なデータセットに新しいパフォーマンスベンチマークを設定する。
論文参考訳（メタデータ） (2024-08-28T13:52:19Z)
SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文参考訳（メタデータ） (2024-07-16T04:41:58Z)
Small Language Model Is a Good Guide for Large Language Model in Chinese Entity Relation Extraction [13.344709924683471]
本稿では,モデルコラボレーションフレームワークSLCoLMを提案する。 textit-Training-Guide-Predict' 戦略を用いて,事前学習言語モデル (PLM) と大規模言語モデル (LLM) の強みを組み合わせる。関係型に富んだREデータセットに対する実験により,本論文のアプローチが長い関係型のREを促進することを示す。
論文参考訳（メタデータ） (2024-02-22T08:26:56Z)
Extending LLMs' Context Window with 100 Samples [42.52554295241792]
LLM(Large Language Models)は、事前訓練されたコンテキストウィンドウを超えて、外挿能力に制限があることが知られている。最近の研究は回転位置埋め込み(RoPE)を改良してコンテキストウィンドウを拡張しようとしている。我々は、RoPEのベース周波数の調整と注意ログのスケーリングを組み合わせて、LLMがより大きなコンテキストウインドウに効率的に適応するのに役立つ新しい拡張をRoPEに導入する。
論文参考訳（メタデータ） (2024-01-13T07:57:01Z)
Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文参考訳（メタデータ） (2023-12-26T07:24:46Z)
LM-Polygraph: Uncertainty Estimation for Language Models [71.21409522341482]
不確実性推定(UE)手法は、大規模言語モデル(LLM)の安全性、責任性、効果的な利用のための1つの経路である。テキスト生成タスクにおけるLLMの最先端UEメソッドのバッテリを実装したフレームワークであるLM-PolygraphをPythonで統一したプログラムインタフェースで導入する。研究者によるUEテクニックの一貫した評価のための拡張可能なベンチマークと、信頼スコア付き標準チャットダイアログを強化するデモWebアプリケーションを導入している。
論文参考訳（メタデータ） (2023-11-13T15:08:59Z)
Generative Multimodal Entity Linking [24.322540112710918]
MEL(Multimodal Entity Linking)は、知識ベースからの参照エンティティへの参照をマルチモーダルコンテキストでマッピングするタスクである。既存のMEL法は主に複雑なマルチモーダル相互作用機構の設計に重点を置いており、すべてのモデルパラメータを微調整する必要がある。大規模言語モデル(LLM)に基づくジェネレーティブマルチモーダルエンティティリンクフレームワークであるGEMELを提案する。当社のフレームワークは市販の言語モデルと互換性があり、効率的で汎用的なソリューションへの道を開いたものです。
論文参考訳（メタデータ） (2023-06-22T07:57:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。