Fugu-MT 論文翻訳(概要): Extensible Embedding: A Flexible Multipler For LLM's Context Length

論文の概要: Extensible Embedding: A Flexible Multipler For LLM's Context Length

arxiv url: http://arxiv.org/abs/2402.11577v1
Date: Sun, 18 Feb 2024 12:50:19 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-20 20:22:28.768209
Title: Extensible Embedding: A Flexible Multipler For LLM's Context Length
Title（参考訳）: 拡張可能な埋め込み: LLMのコンテキスト長のための柔軟な多重化
Authors: Ninglu Shao, Shitao Xiao, Zheng Liu, Peitian Zhang
Abstract要約: 大規模言語モデル(LLM)は、多くの重要なアプリケーションを扱うためにコンテキストの拡張を要求する。既存のアプローチはコストがかかり、コンテキスト拡張の品質が劣る傾向がある。高い柔軟性とコスト効率でLLMコンテキストの高品質な拡張を実現するExtensible Embeddingを提案する。
参考スコア（独自算出の注目度）: 6.9004592877749005
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) call for extension of context to handle many critical applications. However, the existing approaches are prone to expensive costs and inferior quality of context extension. In this work, we propose Extensible Embedding, which realizes high-quality extension of LLM's context with strong flexibility and cost-effectiveness. Extensible embedding stand as an enhancement of typical token embedding, which represents the information for an extensible scope of context instead of a single token. By leveraging such compact input units of higher information density, the LLM can access to a vast scope of context even with a small context window. Extensible embedding is systematically optimized in architecture and training method, which leads to multiple advantages. 1) High flexibility of context extension, which flexibly supports ad-hoc extension of diverse context lengths. 2) Strong sample efficiency of training, which enables the embedding model to be learned in a cost-effective way. 3) Superior compatibility with the existing LLMs, where the extensible embedding can be seamlessly introduced as a plug-in component. Comprehensive evaluations on long-context language modeling and understanding tasks verify extensible embedding as an effective, efficient, flexible, and compatible method to extend the LLM's context.
Abstract（参考訳）: 大規模言語モデル(LLM)は、多くの重要なアプリケーションを扱うためにコンテキストの拡張を要求する。しかし、既存のアプローチはコストがかかり、コンテキスト拡張の品質が劣る傾向にある。本研究では,LLMのコンテキストを高精細に拡張し,柔軟性とコスト効率を両立させる拡張可能な埋め込みを提案する。拡張可能な埋め込みは、単一のトークンではなく、拡張可能なコンテキストのスコープの情報を表す典型的なトークン埋め込みの拡張である。情報密度の高いそのようなコンパクトな入力ユニットを利用することで、LLMは小さなコンテキストウィンドウでも広い範囲のコンテキストにアクセスできる。拡張可能な埋め込みは、アーキテクチャとトレーニングメソッドに体系的に最適化され、複数の利点をもたらす。 1) 多様なコンテキスト長のアドホック拡張を柔軟にサポートするコンテキスト拡張の柔軟性が高い。 2) 組込みモデルを費用対効果で学習する訓練の強いサンプル効率について検討した。 3) プラグインコンポーネントとして拡張可能な埋め込みをシームレスに導入可能な既存のLLMとの互換性。長文言語モデリングおよび理解タスクに関する包括的な評価は、LLMのコンテキストを拡張するために、効果的で効率的で柔軟で互換性のある方法として拡張可能な埋め込みを検証する。

関連論文リスト

From One-to-One to Many-to-Many: Dynamic Cross-Layer Injection for Deep Vision-Language Fusion [91.35078719566472]
VLM(Vision-Language Models)は、粗い非対称接続を使用することで、深刻な視覚的特徴のボトルネックを生み出す。 CLI(Cross-Layer Injection)は,2つのモダリティの間に動的に多対多の橋を架ける,斬新で軽量なフレームワークである。
論文参考訳（メタデータ） (2026-01-15T18:59:10Z)
Modular Techniques for Synthetic Long-Context Data Generation in Language Model Training and Evaluation [0.0]
本研究は,大規模言語モデル (LLM) との即時相互作用による長文データ生成のためのモジュラーフレームワークを導入する。このフレームワークは、Supervised Fine-Tuning (SFT)、Direct Preference Optimization (DPO)、Group Relative Policy Optimization (GRPO)など、複数のトレーニングとアライメントの目標をサポートする。マルチターン対話、文書入力出力ペア、検証可能な命令応答タスク、長文推論例の4つのコア生成パラダイムを含んでいる。
論文参考訳（メタデータ） (2025-09-01T07:08:45Z)
LightPROF: A Lightweight Reasoning Framework for Large Language Model on Knowledge Graph [57.382255728234064]
大きな言語モデル(LLM)は、テキスト理解とゼロショット推論において素晴らしい能力を持っている。知識グラフ(KG)は、LLMの推論プロセスに対して、リッチで信頼性の高いコンテキスト情報を提供する。我々は、KGQA(LightPROF)のための新しい軽量で効率的なPrompt Learning-ReasOning Frameworkを提案する。
論文参考訳（メタデータ） (2025-04-04T03:03:47Z)
LLM2CLIP: Powerful Language Model Unlocks Richer Visual Representation [60.02145113467427]
この作業では、大規模な言語モデルと事前訓練されたCLIPビジュアルエンコーダを統合する、微調整のアプローチを導入している。 LLMの自己回帰的性質の課題に対処するために,キャプション・トゥ・キャプション・トゥ・キャプション・トゥ・コントラッシブ・ラーニング・フレームワークを提案する。提案手法は,様々な下流タスクにおいて,大幅な性能向上を実現する。
論文参考訳（メタデータ） (2024-11-07T18:59:16Z)
LLMs Can Evolve Continually on Modality for X-Modal Reasoning [62.2874638875554]
既存の手法は、モーダル固有の事前訓練とジョイント・モーダルチューニングに大きく依存しており、新しいモーダルへと拡張する際の計算上の負担が大きくなった。 PathWeaveは、Modal-Path sWitchingとExpAnsion機能を備えた柔軟でスケーラブルなフレームワークである。 PathWeaveは最先端のMLLMと互換性があり、パラメータトレーニングの負担を98.73%削減する。
論文参考訳（メタデータ） (2024-10-26T13:19:57Z)
ELICIT: LLM Augmentation via External In-Context Capability [16.237679215248196]
algは2つのモジュールからなるフレームワークで、タスクベクトルを効果的に保存し再利用する。 algは、モデル機能の適応的な適用を可能にするプラグイン・アンド・プレイパフォーマンス・ブースターとして機能する。
論文参考訳（メタデータ） (2024-10-12T03:19:06Z)
SEGMENT+: Long Text Processing with Short-Context Language Models [53.40059130780192]
SEGMENT+は、LMが限られたコンテキストウィンドウ内で拡張入力を効率的に処理できるフレームワークである。 SEGMENT+は構造化音符とフィルタリングモジュールを使用して情報の流れを管理し、制御可能かつ解釈可能なシステムを実現する。
論文参考訳（メタデータ） (2024-10-09T03:40:22Z)
ULLME: A Unified Framework for Large Language Model Embeddings with Generation-Augmented Learning [72.90823351726374]
我々は,LLM間の双方向の注目を可能にする,柔軟でプラグアンドプレイな実装であるLULME(Unified framework for Large Language Model Embedding)を紹介した。また,テキスト埋め込みタスクのLLMを向上する新しい微調整手法であるGRL(Generation-augmented Representation Learning)を提案する。フレームワークの柔軟性と有効性を示すために、異なるバックボーンアーキテクチャを持つULLMEから事前訓練された3つのモデルをリリースする。
論文参考訳（メタデータ） (2024-08-06T18:53:54Z)
Fine-tuning Multimodal Large Language Models for Product Bundling [53.01642741096356]
Bundle-MLLMは,大規模言語モデル(LLM)をハイブリットアイテムトークン化アプローチにより微調整する新しいフレームワークである。具体的には、テキスト、メディア、およびリレーショナルデータを統一トークン化に統合し、テキストトークンと非テキストトークンを区別するソフトな分離トークンを導入する。 1)バンドルパターンを学習し,2)製品バンドル固有のマルチモーダルセマンティック理解の強化を行う。
論文参考訳（メタデータ） (2024-07-16T13:30:14Z)
BGE Landmark Embedding: A Chunking-Free Embedding Method For Retrieval Augmented Long-Context Large Language Models [13.229325187638432]
大規模言語モデル(LLM)は、多くの重要なアプリケーションを扱うためにコンテキストの拡張を要求する。既存のアプローチはコストがかかり、コンテキスト拡張の品質が劣る傾向がある。拡張可能な埋め込みは、典型的なトークン埋め込みの強化である。
論文参考訳（メタデータ） (2024-02-18T12:41:01Z)
Flexibly Scaling Large Language Models Contexts Through Extensible Tokenization [6.9004592877749005]
大規模言語モデル(LLM)は、多くの重要なアプリケーションを扱うのに十分なコンテキストを必要とする。コンテキストウィンドウのサイズは微調整で拡張できるが、トレーニングと推論の段階ではかなりのコストがかかる。 LLMのコンテキストの柔軟なスケーリングを実現する代替手法として,拡張可能なトークン化を提案する。
論文参考訳（メタデータ） (2024-01-15T16:00:50Z)
CRAFT: Customizing LLMs by Creating and Retrieving from Specialized Toolsets [75.64181719386497]
大規模言語モデル(LLM)のためのツール作成・検索フレームワークであるCRAFTを提案する。タスク用に特別にキュレートされたツールセットを作成し、複雑なタスクを解決する能力を高めるためにこれらのセットからツールを取得するコンポーネントをLLMに装備する。本手法はフレキシブルに設計されており,既製のLCMを細かな調整なしに未確認領域やモダリティに適応するためのプラグアンドプレイ方式を提供する。
論文参考訳（メタデータ） (2023-09-29T17:40:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。