論文の概要: Flexibly Scaling Large Language Models Contexts Through Extensible
Tokenization
- arxiv url: http://arxiv.org/abs/2401.07793v1
- Date: Mon, 15 Jan 2024 16:00:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 16:36:32.692400
- Title: Flexibly Scaling Large Language Models Contexts Through Extensible
Tokenization
- Title(参考訳): 拡張可能なトークン化による大規模言語モデルの柔軟スケーリング
- Authors: Ninglu Shao and Shitao Xiao and Zheng Liu and Peitian Zhang
- Abstract要約: 大規模言語モデル(LLM)は、多くの重要なアプリケーションを扱うのに十分なコンテキストを必要とする。
コンテキストウィンドウのサイズは微調整で拡張できるが、トレーニングと推論の段階ではかなりのコストがかかる。
LLMのコンテキストの柔軟なスケーリングを実現する代替手法として,拡張可能なトークン化を提案する。
- 参考スコア(独自算出の注目度): 6.9004592877749005
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are in need of sufficient contexts to handle
many critical applications, such as retrieval augmented generation and few-shot
learning. However, due to the constrained window size, the LLMs can only access
to the information within a limited context. Although the size of context
window can be extended by fine-tuning, it will result in a substantial cost in
both training and inference stage. In this paper, we present Extensible
Tokenization as an alternative method which realizes the flexible scaling of
LLMs' context. Extensible Tokenization stands as a midware in between of the
tokenized context and the LLM, which transforms the raw token embeddings into
the extensible embeddings. Such embeddings provide a more compact
representation for the long context, on top of which the LLM is able to
perceive more information with the same context window. Extensible Tokenization
is also featured by its flexibility: the scaling factor can be flexibly
determined within a feasible scope, leading to the extension of an arbitrary
context length at the inference time. Besides, Extensible Tokenization is
introduced as a drop-in component, which can be seamlessly plugged into not
only the LLM itself and but also its fine-tuned derivatives, bringing in the
extended contextual information while fully preserving the LLM's existing
capabilities. We perform comprehensive experiments on long-context language
modeling and understanding tasks, which verify Extensible Tokenization as an
effective, efficient, flexible, and compatible method to extend LLM's context.
Our model and source code will be made publicly available.
- Abstract(参考訳): 大規模言語モデル(LLM)は、検索拡張生成や少数ショット学習など、多くの重要なアプリケーションを扱うのに十分なコンテキストを必要とする。
しかし、制限されたウィンドウサイズのため、LLMは限られたコンテキスト内でのみ情報にアクセスすることができる。
コンテキストウィンドウのサイズは微調整によって拡張できるが、トレーニングと推論の両方でかなりのコストがかかる。
本稿では,LLMのコンテキストの柔軟なスケーリングを実現する方法として,拡張可能なトークン化を提案する。
拡張トークン化(Extensible Tokenization)は、トークン化されたコンテキストとLLMの間のミドルウェアとして、生トークンの埋め込みを拡張可能な埋め込みに変換する。
このような埋め込みは、LLMが同じコンテキストウィンドウでより多くの情報を知覚できるような、長いコンテキストに対するよりコンパクトな表現を提供する。
拡張可能なトークン化(extensible tokenization)も柔軟性によって特徴付けられる。 スケーリング係数は実行可能なスコープ内で柔軟に決定でき、推論時に任意のコンテキストの長さが拡張される。
さらに、拡張可能なトークン化(Extensible Tokenization)はドロップインコンポーネントとして導入され、LLM自体だけでなく、その微調整されたデリバティブにもシームレスに接続でき、LLMの既存の機能を完全に保存しながら、拡張されたコンテキスト情報をもたらす。
我々は,LLMのコンテキストを拡張するために,拡張可能なトークン化を効果的で効率よく,柔軟で,互換性のある方法として検証する。
私たちのモデルとソースコードは公開されます。
関連論文リスト
- ULLME: A Unified Framework for Large Language Model Embeddings with Generation-Augmented Learning [72.90823351726374]
我々は,LLM間の双方向の注目を可能にする,柔軟でプラグアンドプレイな実装であるLULME(Unified framework for Large Language Model Embedding)を紹介した。
また,テキスト埋め込みタスクのLLMを向上する新しい微調整手法であるGRL(Generation-augmented Representation Learning)を提案する。
フレームワークの柔軟性と有効性を示すために、異なるバックボーンアーキテクチャを持つULLMEから事前訓練された3つのモデルをリリースする。
論文 参考訳(メタデータ) (2024-08-06T18:53:54Z) - Enhancing LLM's Cognition via Structurization [41.13997892843677]
大規模言語モデル(LLM)は因果的かつシーケンシャルな視点で入力コンテキストを処理する。
本稿では,コンテキスト構造化という新しい概念を提案する。
具体的には、平易で秩序のない文脈文を、適切に順序付けされ階層的に構造化された要素に変換する。
論文 参考訳(メタデータ) (2024-07-23T12:33:58Z) - Fine-tuning Multimodal Large Language Models for Product Bundling [53.01642741096356]
Bundle-MLLMは,大規模言語モデル(LLM)をハイブリットアイテムトークン化アプローチにより微調整する新しいフレームワークである。
具体的には、テキスト、メディア、およびリレーショナルデータを統一トークン化に統合し、テキストトークンと非テキストトークンを区別するソフトな分離トークンを導入する。
1)バンドルパターンを学習し,2)製品バンドル固有のマルチモーダルセマンティック理解の強化を行う。
論文 参考訳(メタデータ) (2024-07-16T13:30:14Z) - Soft Prompting for Unlearning in Large Language Models [11.504012974208466]
この研究は、データ保護規制を動機とした大規模言語モデルのための機械学習の研究に焦点をあてる。
我々はtextbfUntextbflearning (SPUL) のための textbfSoft textbfPrompting フレームワークを提案する。
本研究では,提案手法の厳密な評価を行い,SPULが実用性と忘れとのトレードオフを大幅に改善できることを示す。
論文 参考訳(メタデータ) (2024-06-17T19:11:40Z) - One Token Can Help! Learning Scalable and Pluggable Virtual Tokens for Retrieval-Augmented Large Language Models [67.49462724595445]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)を改善するための有望な方法である。
本稿では,RAGのためのスケーラブルでプラガブルな仮想トークンを学習する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-30T03:44:54Z) - Extensible Embedding: A Flexible Multipler For LLM's Context Length [6.9004592877749005]
大規模言語モデル(LLM)は、多くの重要なアプリケーションを扱うためにコンテキストの拡張を要求する。
既存のアプローチはコストがかかり、コンテキスト拡張の品質が劣る傾向がある。
高い柔軟性とコスト効率でLLMコンテキストの高品質な拡張を実現するExtensible Embeddingを提案する。
論文 参考訳(メタデータ) (2024-02-18T12:50:19Z) - BGE Landmark Embedding: A Chunking-Free Embedding Method For Retrieval
Augmented Long-Context Large Language Models [13.229325187638432]
大規模言語モデル(LLM)は、多くの重要なアプリケーションを扱うためにコンテキストの拡張を要求する。
既存のアプローチはコストがかかり、コンテキスト拡張の品質が劣る傾向がある。
拡張可能な埋め込みは、典型的なトークン埋め込みの強化である。
論文 参考訳(メタデータ) (2024-02-18T12:41:01Z) - Rethinking Interpretability in the Era of Large Language Models [76.1947554386879]
大規模言語モデル(LLM)は、幅広いタスクにまたがる顕著な機能を示している。
自然言語で説明できる能力により、LLMは人間に与えられるパターンのスケールと複雑さを拡大することができる。
これらの新しい機能は、幻覚的な説明や膨大な計算コストなど、新しい課題を提起する。
論文 参考訳(メタデータ) (2024-01-30T17:38:54Z) - Towards More Unified In-context Visual Understanding [74.55332581979292]
マルチモーダル出力を有効にした視覚理解のための新しいICLフレームワークを提案する。
まず、テキストと視覚的プロンプトの両方を量子化し、統一された表現空間に埋め込む。
次にデコーダのみのスパーストランスアーキテクチャを用いて生成モデリングを行う。
論文 参考訳(メタデータ) (2023-12-05T06:02:21Z) - Let Models Speak Ciphers: Multiagent Debate through Embeddings [84.20336971784495]
この問題を解決するためにCIPHER(Communicative Inter-Model Protocol Through Embedding Representation)を導入する。
自然言語から逸脱することで、CIPHERはモデルの重みを変更することなく、より広い範囲の情報を符号化する利点を提供する。
このことは、LLM間の通信における代替の"言語"としての埋め込みの優越性と堅牢性を示している。
論文 参考訳(メタデータ) (2023-10-10T03:06:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。