論文の概要: Flexibly Scaling Large Language Models Contexts Through Extensible
Tokenization
- arxiv url: http://arxiv.org/abs/2401.07793v1
- Date: Mon, 15 Jan 2024 16:00:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 16:36:32.692400
- Title: Flexibly Scaling Large Language Models Contexts Through Extensible
Tokenization
- Title(参考訳): 拡張可能なトークン化による大規模言語モデルの柔軟スケーリング
- Authors: Ninglu Shao and Shitao Xiao and Zheng Liu and Peitian Zhang
- Abstract要約: 大規模言語モデル(LLM)は、多くの重要なアプリケーションを扱うのに十分なコンテキストを必要とする。
コンテキストウィンドウのサイズは微調整で拡張できるが、トレーニングと推論の段階ではかなりのコストがかかる。
LLMのコンテキストの柔軟なスケーリングを実現する代替手法として,拡張可能なトークン化を提案する。
- 参考スコア(独自算出の注目度): 6.9004592877749005
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are in need of sufficient contexts to handle
many critical applications, such as retrieval augmented generation and few-shot
learning. However, due to the constrained window size, the LLMs can only access
to the information within a limited context. Although the size of context
window can be extended by fine-tuning, it will result in a substantial cost in
both training and inference stage. In this paper, we present Extensible
Tokenization as an alternative method which realizes the flexible scaling of
LLMs' context. Extensible Tokenization stands as a midware in between of the
tokenized context and the LLM, which transforms the raw token embeddings into
the extensible embeddings. Such embeddings provide a more compact
representation for the long context, on top of which the LLM is able to
perceive more information with the same context window. Extensible Tokenization
is also featured by its flexibility: the scaling factor can be flexibly
determined within a feasible scope, leading to the extension of an arbitrary
context length at the inference time. Besides, Extensible Tokenization is
introduced as a drop-in component, which can be seamlessly plugged into not
only the LLM itself and but also its fine-tuned derivatives, bringing in the
extended contextual information while fully preserving the LLM's existing
capabilities. We perform comprehensive experiments on long-context language
modeling and understanding tasks, which verify Extensible Tokenization as an
effective, efficient, flexible, and compatible method to extend LLM's context.
Our model and source code will be made publicly available.
- Abstract(参考訳): 大規模言語モデル(LLM)は、検索拡張生成や少数ショット学習など、多くの重要なアプリケーションを扱うのに十分なコンテキストを必要とする。
しかし、制限されたウィンドウサイズのため、LLMは限られたコンテキスト内でのみ情報にアクセスすることができる。
コンテキストウィンドウのサイズは微調整によって拡張できるが、トレーニングと推論の両方でかなりのコストがかかる。
本稿では,LLMのコンテキストの柔軟なスケーリングを実現する方法として,拡張可能なトークン化を提案する。
拡張トークン化(Extensible Tokenization)は、トークン化されたコンテキストとLLMの間のミドルウェアとして、生トークンの埋め込みを拡張可能な埋め込みに変換する。
このような埋め込みは、LLMが同じコンテキストウィンドウでより多くの情報を知覚できるような、長いコンテキストに対するよりコンパクトな表現を提供する。
拡張可能なトークン化(extensible tokenization)も柔軟性によって特徴付けられる。 スケーリング係数は実行可能なスコープ内で柔軟に決定でき、推論時に任意のコンテキストの長さが拡張される。
さらに、拡張可能なトークン化(Extensible Tokenization)はドロップインコンポーネントとして導入され、LLM自体だけでなく、その微調整されたデリバティブにもシームレスに接続でき、LLMの既存の機能を完全に保存しながら、拡張されたコンテキスト情報をもたらす。
我々は,LLMのコンテキストを拡張するために,拡張可能なトークン化を効果的で効率よく,柔軟で,互換性のある方法として検証する。
私たちのモデルとソースコードは公開されます。
関連論文リスト
- Extensible Embedding: A Flexible Multipler For LLM's Context Length [6.9004592877749005]
大規模言語モデル(LLM)は、多くの重要なアプリケーションを扱うためにコンテキストの拡張を要求する。
既存のアプローチはコストがかかり、コンテキスト拡張の品質が劣る傾向がある。
高い柔軟性とコスト効率でLLMコンテキストの高品質な拡張を実現するExtensible Embeddingを提案する。
論文 参考訳(メタデータ) (2024-02-18T12:50:19Z) - BGE Landmark Embedding: A Chunking-Free Embedding Method For Retrieval
Augmented Long-Context Large Language Models [13.229325187638432]
大規模言語モデル(LLM)は、多くの重要なアプリケーションを扱うためにコンテキストの拡張を要求する。
既存のアプローチはコストがかかり、コンテキスト拡張の品質が劣る傾向がある。
拡張可能な埋め込みは、典型的なトークン埋め込みの強化である。
論文 参考訳(メタデータ) (2024-02-18T12:41:01Z) - Rethinking Interpretability in the Era of Large Language Models [76.1947554386879]
大規模言語モデル(LLM)は、幅広いタスクにまたがる顕著な機能を示している。
自然言語で説明できる能力により、LLMは人間に与えられるパターンのスケールと複雑さを拡大することができる。
これらの新しい機能は、幻覚的な説明や膨大な計算コストなど、新しい課題を提起する。
論文 参考訳(メタデータ) (2024-01-30T17:38:54Z) - If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code
Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練される
コードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文 参考訳(メタデータ) (2024-01-01T16:51:20Z) - Prompt Highlighter: Interactive Control for Multi-Modal LLMs [54.53324095171722]
本研究では,マルチモーダル LLM (LLMs&VLMs) 推論における重要な側面として,明示的な制御可能なテキスト生成を目標とする。
本稿では,新しい推論手法であるPrompt Highlighterを導入し,ユーザが特定のプロンプトスパンをハイライトし,生成中のフォーカスをインタラクティブに制御できるようにする。
推論中、注意重みを通して強調されたトークンでモデルを導くことで、より望ましい出力が得られます。
論文 参考訳(メタデータ) (2023-12-07T13:53:29Z) - Towards More Unified In-context Visual Understanding [77.03395229184238]
マルチモーダル出力を有効にした視覚理解のための新しいICLフレームワークを提案する。
まず、テキストと視覚的プロンプトの両方を量子化し、統一された表現空間に埋め込む。
次にデコーダのみのスパーストランスアーキテクチャを用いて生成モデリングを行う。
論文 参考訳(メタデータ) (2023-12-05T06:02:21Z) - InfMLLM: A Unified Framework for Visual-Language Tasks [44.29407348046122]
マルチモーダルな大言語モデル (MLLM) が注目されている。
この作業は、LLMがより視覚的な言語に関連したタスクに取り組むことを可能にすることを目的としている。
InfMLLMは、最先端(SOTA)パフォーマンスまたは最近のMLLMに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-11-12T09:58:16Z) - Let Models Speak Ciphers: Multiagent Debate through Embeddings [84.20336971784495]
この問題を解決するためにCIPHER(Communicative Inter-Model Protocol Through Embedding Representation)を導入する。
自然言語から逸脱することで、CIPHERはモデルの重みを変更することなく、より広い範囲の情報を符号化する利点を提供する。
このことは、LLM間の通信における代替の"言語"としての埋め込みの優越性と堅牢性を示している。
論文 参考訳(メタデータ) (2023-10-10T03:06:38Z) - Link-Context Learning for Multimodal LLMs [40.923816691928536]
リンクコンテキスト学習(LCL)はMLLMの学習能力を高めるために「原因と効果からの推論」を強調する。
LCLは、アナログだけでなく、データポイント間の因果関係も識別するようモデルに導出する。
本手法の評価を容易にするため,ISEKAIデータセットを提案する。
論文 参考訳(メタデータ) (2023-08-15T17:33:24Z) - Augmented Large Language Models with Parametric Knowledge Guiding [72.71468058502228]
大規模言語モデル(LLM)は、言語理解と生成能力に優れた自然言語処理(NLP)を備えています。
それらのパフォーマンスは、関連するデータへの限られた露出のために専門的な知識を必要とするドメイン固有のタスクに最適であるかもしれない。
本稿では,LLMに関連知識にアクセスするための知識誘導モジュールを組み込んだ新しいPKGフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-08T15:05:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。