論文の概要: BGE Landmark Embedding: A Chunking-Free Embedding Method For Retrieval
Augmented Long-Context Large Language Models
- arxiv url: http://arxiv.org/abs/2402.11573v1
- Date: Sun, 18 Feb 2024 12:41:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 20:36:19.011676
- Title: BGE Landmark Embedding: A Chunking-Free Embedding Method For Retrieval
Augmented Long-Context Large Language Models
- Title(参考訳): BGEランドマーク埋め込み:長期拡張大言語モデル検索のためのチャンキングフリー埋め込み手法
- Authors: Kun Luo and Zheng Liu and Shitao Xiao and Kang Liu
- Abstract要約: 大規模言語モデル(LLM)は、多くの重要なアプリケーションを扱うためにコンテキストの拡張を要求する。
既存のアプローチはコストがかかり、コンテキスト拡張の品質が劣る傾向がある。
拡張可能な埋め込みは、典型的なトークン埋め込みの強化である。
- 参考スコア(独自算出の注目度): 13.229325187638432
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) call for extension of context to handle many
critical applications. However, the existing approaches are prone to expensive
costs and inferior quality of context extension. In this work, we
proposeExtensible Embedding, which realizes high-quality extension of LLM's
context with strong flexibility and cost-effectiveness. Extensible embedding
stand as an enhancement of typical token embedding, which represents the
information for an extensible scope of context instead of a single token. By
leveraging such compact input units of higher information density, the LLM can
access to a vast scope of context even with a small context window. Extensible
embedding is systematically optimized in architecture and training method,
which leads to multiple advantages. 1) High flexibility of context extension,
which flexibly supports ad-hoc extension of diverse context lengths. 2) Strong
sample efficiency of training, which enables the embedding model to be learned
in a cost-effective way. 3) Superior compatibility with the existing LLMs,
where the extensible embedding can be seamlessly introduced as a plug-in
component. Comprehensive evaluations on long-context language modeling and
understanding tasks verify extensible embedding as an effective, efficient,
flexible, and compatible method to extend the LLM's context.
- Abstract(参考訳): 大規模言語モデル(LLM)は、多くの重要なアプリケーションを扱うためにコンテキストの拡張を要求する。
しかし、既存のアプローチはコストがかかり、コンテキスト拡張の品質が劣る傾向にある。
本研究では,LLMのコンテキストを高精細に拡張し,柔軟性とコスト効率を向上するExtensible Embeddingを提案する。
拡張可能な埋め込みは、単一のトークンではなく、拡張可能なコンテキストのスコープの情報を表す典型的なトークン埋め込みの拡張である。
情報密度の高いそのようなコンパクトな入力ユニットを利用することで、LLMは小さなコンテキストウィンドウでも広い範囲のコンテキストにアクセスできる。
拡張可能な埋め込みは、アーキテクチャとトレーニングメソッドに体系的に最適化され、複数の利点をもたらす。
1) 多様なコンテキスト長のアドホック拡張を柔軟にサポートするコンテキスト拡張の柔軟性が高い。
2) 組込みモデルを費用対効果で学習する訓練の強いサンプル効率について検討した。
3) プラグインコンポーネントとして拡張可能な埋め込みをシームレスに導入可能な既存のLLMとの互換性。
長文言語モデリングおよび理解タスクに関する包括的な評価は、LLMのコンテキストを拡張するために、効果的で効率的で柔軟で互換性のある方法として拡張可能な埋め込みを検証する。
関連論文リスト
- Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - Structure Guided Prompt: Instructing Large Language Model in Multi-Step
Reasoning by Exploring Graph Structure of the Text [44.81698187939784]
本稿では,大規模言語モデル(LLM)の多段階推論能力向上を目的としたフレームワークであるStructure Guided Promptを紹介する。
実験の結果,このフレームワークはLLMの推論能力を大幅に向上し,より広い範囲の自然言語シナリオを拡張できることがわかった。
論文 参考訳(メタデータ) (2024-02-20T22:56:23Z) - Extensible Embedding: A Flexible Multipler For LLM's Context Length [6.9004592877749005]
大規模言語モデル(LLM)は、多くの重要なアプリケーションを扱うためにコンテキストの拡張を要求する。
既存のアプローチはコストがかかり、コンテキスト拡張の品質が劣る傾向がある。
高い柔軟性とコスト効率でLLMコンテキストの高品質な拡張を実現するExtensible Embeddingを提案する。
論文 参考訳(メタデータ) (2024-02-18T12:50:19Z) - Flexibly Scaling Large Language Models Contexts Through Extensible
Tokenization [6.9004592877749005]
大規模言語モデル(LLM)は、多くの重要なアプリケーションを扱うのに十分なコンテキストを必要とする。
コンテキストウィンドウのサイズは微調整で拡張できるが、トレーニングと推論の段階ではかなりのコストがかかる。
LLMのコンテキストの柔軟なスケーリングを実現する代替手法として,拡張可能なトークン化を提案する。
論文 参考訳(メタデータ) (2024-01-15T16:00:50Z) - Structured Packing in LLM Training Improves Long Context Utilization [18.474215696128162]
この研究は、意味的相互依存を高めるためのトレーニングデータの構造化が、文脈利用の最適化に有効な戦略であることを示している。
本研究では、情報検索手法を用いて、相互に関連のある文書を単一の学習コンテキストに照合することで、トレーニング例を作成する方法であるStructured Packing for Long Context (SPLiCe)を紹介する。
我々はSPLiCeを大規模な3$Bと7$Bのモデルで実証的に検証し、より複雑な改善と下流タスクにおける長期使用率の向上を示す。
論文 参考訳(メタデータ) (2023-12-28T16:25:52Z) - Towards More Unified In-context Visual Understanding [77.03395229184238]
マルチモーダル出力を有効にした視覚理解のための新しいICLフレームワークを提案する。
まず、テキストと視覚的プロンプトの両方を量子化し、統一された表現空間に埋め込む。
次にデコーダのみのスパーストランスアーキテクチャを用いて生成モデリングを行う。
論文 参考訳(メタデータ) (2023-12-05T06:02:21Z) - Speak Like a Native: Prompting Large Language Models in a Native Style [53.84738665918496]
In-context Learning (ICL) with large language model (LLMs) は、多くの自然言語処理タスクにおいて近代的なツールとなっている。
本稿では, LLMの推論能力を向上させるために, textbfAlignedCoT という新しい効果的手法を提案する。
数学的質問答え、常識的推論、テキスト理解に関するいくつかのベンチマークにおいて、広範囲かつ包括的な実験を行う。
論文 参考訳(メタデータ) (2023-11-22T17:24:21Z) - Auto-ICL: In-Context Learning without Human Supervision [104.58114779879688]
Vanilla In-Context Learningは人間が提供するコンテキストに依存します。
自動文脈学習(Automatic In-Context Learning)という普遍的なフレームワークを提案する。
提案手法は,既存の手法と比較して,様々なタスクに対して高い性能を示す。
論文 参考訳(メタデータ) (2023-11-15T07:37:28Z) - Semi-automatic Data Enhancement for Document-Level Relation Extraction
with Distant Supervision from Large Language Models [26.523153535336725]
ドキュメントレベルの関係抽出(DocRE)は、長いコンテキストから関係を抽出することを目的としている。
本稿では,大規模言語モデル (LLM) と自然言語推論 (NLI) モジュールを統合する手法を提案する。
DocGNREと呼ばれる拡張データセットを導入することで,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-11-13T13:10:44Z) - CRAFT: Customizing LLMs by Creating and Retrieving from Specialized
Toolsets [75.64181719386497]
大規模言語モデル(LLM)のためのツール作成・検索フレームワークであるCRAFTを提案する。
タスク用に特別にキュレートされたツールセットを作成し、複雑なタスクを解決する能力を高めるためにこれらのセットからツールを取得するコンポーネントをLLMに装備する。
本手法はフレキシブルに設計されており,既製のLCMを細かな調整なしに未確認領域やモダリティに適応するためのプラグアンドプレイ方式を提供する。
論文 参考訳(メタデータ) (2023-09-29T17:40:26Z) - OverPrompt: Enhancing ChatGPT through Efficient In-Context Learning [49.38867353135258]
複数のタスク入力を処理するために,LLMのコンテキスト内学習機能を活用したOverPromptを提案する。
本実験により,OverPromptはタスク性能を著しく損なうことなく,コスト効率の良いゼロショット分類を実現することができることがわかった。
論文 参考訳(メタデータ) (2023-05-24T10:08:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。