論文の概要: Exploring Context Window of Large Language Models via Decomposed Positional Vectors
- arxiv url: http://arxiv.org/abs/2405.18009v2
- Date: Mon, 18 Nov 2024 11:15:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:30:56.601377
- Title: Exploring Context Window of Large Language Models via Decomposed Positional Vectors
- Title(参考訳): 分解位置ベクトルによる大規模言語モデルのコンテキストウィンドウの探索
- Authors: Zican Dong, Junyi Li, Xin Men, Wayne Xin Zhao, Bingbing Wang, Zhen Tian, Weipeng Chen, Ji-Rong Wen,
- Abstract要約: トランスフォーマーベースの大規模言語モデル(LLM)は通常、限られたコンテキストウィンドウを持つ。
本研究では,コンテキストウィンドウ内外の位置情報について検討する。
- 参考スコア(独自算出の注目度): 107.19556541244654
- License:
- Abstract: Transformer-based large language models (LLMs) typically have a limited context window, resulting in significant performance degradation when processing text beyond the length of the context window. Extensive studies have been proposed to extend the context window and achieve length extrapolation of LLMs, but there is still a lack of in-depth interpretation of these approaches. In this study, we explore the positional information within and beyond the context window for deciphering the underlying mechanism of LLMs. By using a mean-based decomposition method, we disentangle positional vectors from hidden states of LLMs and analyze their formation and effect on attention. Furthermore, when texts exceed the context window, we analyze the change of positional vectors in two settings, i.e., direct extrapolation and context window extension. Based on our findings, we design two training-free context window extension methods, positional vector replacement and attention window extension. Experimental results show that our methods can effectively extend the context window length.
- Abstract(参考訳): Transformer-based large language model (LLM) は通常、コンテキストウィンドウに制限があるため、コンテキストウィンドウの長さを超えてテキストを処理する場合、パフォーマンスが大幅に低下する。
コンテキストウィンドウを拡張し、LLMの長さの外挿を実現するための広範な研究が提案されているが、これらのアプローチの詳細な解釈はいまだに存在しない。
本研究では,LLMの基盤となるメカニズムを解明するためのコンテキストウィンドウ内外の位置情報について検討する。
平均分解法を用いて,LLMの隠れ状態から位置ベクトルを遠ざけ,その形成と注意への影響を解析した。
さらに,テキストがコンテキストウインドウを超えた場合,直接補間とコンテキストウインドウ拡張という2つの設定で位置ベクトルの変化を分析する。
本研究は,2つの学習自由コンテキストウィンドウ拡張法,位置ベクトル置換法,注目ウィンドウ拡張法を設計した。
実験の結果,提案手法はコンテキストウィンドウ長を効果的に拡張できることがわかった。
関連論文リスト
- Rethinking Visual Dependency in Long-Context Reasoning for Large Vision-Language Models [62.698520962933195]
LVLM(Large Vision-Language Models)は、クロスモデルタスクでは優れているが、長文推論ではパフォーマンスが低下する。
そこで本研究では,重要でないテキスト情報を選択的に除去する,学習不要なコンテキストプルーニング手法を提案する。
論文 参考訳(メタデータ) (2024-10-25T17:59:09Z) - Vector-ICL: In-context Learning with Continuous Vector Representations [75.96920867382859]
大規模言語モデル (LLM) はテキストデータに顕著なコンテキスト内学習能力を示す。
ブラックボックス事前学習エンコーダから得られる様々な領域から連続ベクトルに拡張できるかどうかを検討する。
特に,汎用言語モデリング目的のプロジェクタを事前学習することで,Vector-ICLの実現が期待できる。
論文 参考訳(メタデータ) (2024-10-08T02:25:38Z) - Retrieval Meets Reasoning: Dynamic In-Context Editing for Long-Text Understanding [11.5386284281652]
動的インテキスト編集による情報検索を再現する新しい手法を提案する。
長大な文脈を拡張可能な外部知識として扱うことにより,本手法は対話的に関連情報を収集・統合する。
実験結果から,提案手法はコンテキスト限定LLMを効果的に活用し,マルチホップ推論に有効であることを示す。
論文 参考訳(メタデータ) (2024-06-18T06:54:28Z) - Program Decomposition and Translation with Static Analysis [0.0]
大規模言語モデル(LLM)の文脈ウィンドウに対する方法レベルのプログラム分解の効果を評価する。
そこで本研究では,コンテキスト外問題により本来実行できなかった非常に大きなファイルの翻訳を可能にする方法について検討する。
論文 参考訳(メタデータ) (2024-01-22T23:49:32Z) - Extending LLMs' Context Window with 100 Samples [42.52554295241792]
LLM(Large Language Models)は、事前訓練されたコンテキストウィンドウを超えて、外挿能力に制限があることが知られている。
最近の研究は回転位置埋め込み(RoPE)を改良してコンテキストウィンドウを拡張しようとしている。
我々は、RoPEのベース周波数の調整と注意ログのスケーリングを組み合わせて、LLMがより大きなコンテキストウインドウに効率的に適応するのに役立つ新しい拡張をRoPEに導入する。
論文 参考訳(メタデータ) (2024-01-13T07:57:01Z) - Generative Context-aware Fine-tuning of Self-supervised Speech Models [54.389711404209415]
生成型大規模言語モデル(LLM)生成コンテキスト情報の利用について検討する。
自己教師型音声モデルの微調整中に生成した情報を抽出する手法を提案する。
本稿では,SLUE と Libri-light のベンチマークを用いて,自動音声認識,名前付きエンティティ認識,感情分析を行う手法を提案する。
論文 参考訳(メタデータ) (2023-12-15T15:46:02Z) - Retrieval meets Long Context Large Language Models [59.431200671427064]
大規模言語モデル(LLM)のコンテキストウィンドウの拡張が最近人気を集めている。
Retrieval-augmentation対ロングコンテキストウィンドウ。
両方の方法を組み合わせることで、両方の世界を最大限に活用できますか?
我々の最良モデルである32Kコンテキストウィンドウ付きLlama2-70Bは、9つの長いコンテキストタスクの平均スコアにおいて、GPT-3.5-turbo-16kとDavinci003より優れています。
論文 参考訳(メタデータ) (2023-10-04T17:59:41Z) - Parallel Context Windows for Large Language Models [52.965170346907904]
本稿では,PCW(Parallel Context Windows)について述べる。
本研究の主な成果は,7億5000万から1億7800億のパラメータのモデルを用いて,テキスト内学習におけるPCWアプローチを検証した。
長いコンテキストウインドウが有益であるかもしれない他の設定では、マルチホップ質問と検索強化質問が複数の検索された文書で答えられる。
論文 参考訳(メタデータ) (2022-12-21T11:38:51Z) - Revisiting the Context Window for Cross-lingual Word Embeddings [32.27333420000134]
マッピングに基づく言語間単語埋め込みへの既存のアプローチは、ソースとターゲットの埋め込み空間が構造的に類似しているという仮定に基づいている。
この研究は、さまざまな言語、ドメイン、タスクにおいて、異なるコンテキストウィンドウで訓練されたバイリンガル埋め込みの徹底的な評価を提供する。
本研究のハイライトは,ソースサイズとターゲットウィンドウサイズを増大させることで,バイリンガルレキシコンの誘導性能が向上することである。
論文 参考訳(メタデータ) (2020-04-22T19:29:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。