論文の概要: Squid: Long Context as a New Modality for Energy-Efficient On-Device Language Models
- arxiv url: http://arxiv.org/abs/2408.15518v2
- Date: Tue, 3 Sep 2024 04:38:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-04 12:51:25.188586
- Title: Squid: Long Context as a New Modality for Energy-Efficient On-Device Language Models
- Title(参考訳): Squid: エネルギー効率の良いオンデバイス言語モデルのための新しいモダリティとしてのLong Context
- Authors: Wei Chen, Zhiyuan Li, Shuo Xin, Yihao Wang,
- Abstract要約: Dolphinは、言語モデルにおける長いコンテキストのエネルギー効率の高い処理のための新しいデコーダデコーダアーキテクチャである。
弊社のアプローチは、デバイス上のモデルに固有の、エネルギー消費とレイテンシの問題に対処する。
- 参考スコア(独自算出の注目度): 9.922377957554106
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper presents Dolphin, a novel decoder-decoder architecture for energy-efficient processing of long contexts in language models. Our approach addresses the significant energy consumption and latency challenges inherent in on-device models. Dolphin employs a compact 0.5B parameter decoder to distill extensive contextual information into a memory embedding, substantially reducing the input length for the primary 7B parameter decoder model. Inspired by vision-language models, we repurpose the image embedding projector to encode long textual contexts, effectively treating extended context as a distinct modality. This innovative method enables processing of substantially longer contexts without the typical computational overhead associated with extended input sequences. Empirical evaluations demonstrate a 10-fold improvement in energy efficiency and a 5-fold reduction in latency compared to conventional full-length context processing methods without losing quality of the response. Our work contributes to the development of more sustainable and scalable language models for on-device applications, addressing the critical need for energy-efficient and responsive AI technologies in resource-constrained environments while maintaining the accuracy to understand long contexts. This research has implications for the broader field of natural language processing, particularly in the domain of efficient model design for resource-limited settings. By enabling more sophisticated AI capabilities on edge devices, Dolphin paves the way for advanced language processing in a wide range of applications where computational resources are at a premium. The Dolphin model is publicly available at https://huggingface.co/NexaAIDev/Dolphin.
- Abstract(参考訳): 本稿では,言語モデルにおける長いコンテキストのエネルギー効率向上のためのデコーダ・デコーダアーキテクチャであるDolphinを提案する。
弊社のアプローチは、デバイス上のモデルに固有の、エネルギー消費とレイテンシの問題に対処する。
ドルフィンは、コンパクトな0.5Bパラメータデコーダを使用して、広範囲なコンテキスト情報をメモリ埋め込みに蒸留し、プライマリ7Bパラメータデコーダモデルの入力長を大幅に削減する。
視覚言語モデルに触発されて、画像埋め込みプロジェクタを用いて、長いテキストコンテキストをエンコードし、拡張コンテキストを異なるモダリティとして効果的に扱う。
この革新的な方法は、拡張された入力シーケンスに関連する典型的な計算オーバーヘッドを伴わずに、はるかに長いコンテキストの処理を可能にする。
実験的な評価では、応答の質を損なうことなく、従来のフル長コンテキスト処理法と比較して、エネルギー効率が10倍改善し、レイテンシが5倍削減された。
私たちの研究は、より持続的でスケーラブルなオンデバイスアプリケーション用言語モデルの開発に寄与し、長いコンテキストを理解するための正確さを維持しながら、リソース制約のある環境でのエネルギー効率と応答性のAI技術に対する重要なニーズに対処します。
この研究は、自然言語処理の幅広い分野、特に資源制限設定のための効率的なモデル設計の領域に影響を及ぼす。
エッジデバイス上でより高度なAI機能を実現することで、Dolphinは、計算リソースがプレミアムである幅広いアプリケーションにおいて、高度な言語処理の道を開くことができる。
Dolphinモデルはhttps://huggingface.co/NexaAIDev/Dolphin.comで公開されている。
関連論文リスト
- E2LLM: Encoder Elongated Large Language Models for Long-Context Understanding and Reasoning [20.660297311025417]
E2LLM (Encodergated Large Language Models) は「不可能な三角形」を効果的にナビゲートする新しい手法である。
この手法では、長いコンテキストをチャンクに分割し、事前訓練されたテキストエンコーダを介してベクターに圧縮し、アダプタを使用してこれらの表現をデコーダのみのLLMで整列させる。
実験により、E2LLMは、事前訓練されたモデルとの効率、性能、互換性のバランスを保ちながら、長期コンテキストシナリオにおいて優れた性能を達成することが示された。
論文 参考訳(メタデータ) (2024-09-10T17:44:35Z) - KV Cache Compression, But What Must We Give in Return? A Comprehensive Benchmark of Long Context Capable Approaches [52.02764371205856]
長期の文脈能力は、大規模言語モデル(LLM)にとって重要な能力である
この研究は、現在の手法の分類を提供し、長いコンテキストタスクの7つのカテゴリにまたがる10以上の最先端のアプローチを評価する。
論文 参考訳(メタデータ) (2024-07-01T17:59:47Z) - UIO-LLMs: Unbiased Incremental Optimization for Long-Context LLMs [111.12010207132204]
UIO-LLMsは、長いコンテキスト設定下でのメモリ拡張トランスフォーマーの漸進的な最適化手法である。
本稿では,TBPTTアルゴリズムを用いて学習過程を改良する。
UIO-LLMは、Llama2-7b-chatのコンテキストウィンドウを4Kから100Kトークンに、2%の追加パラメータで拡張するなど、長いコンテキストを扱うことに成功した。
論文 参考訳(メタデータ) (2024-06-26T08:44:36Z) - On-the-Fly Syntax Highlighting: Generalisation and Speed-ups [2.208443815105053]
オンザフライ構文強調は、視覚二次表記値を言語派生のそれぞれの文字と素早く関連付けるタスクである。
スピード制約はツールのユーザビリティを保証するために不可欠であり、オンラインソースコードにアクセスするエンドユーザの応答性を示す。
コードの理解力を高めるためには、正確なハイライトを達成することが重要です。
このようなリゾルバの開発コストに対処することは、多くのプログラミング言語のバージョンを考えると必須である。
論文 参考訳(メタデータ) (2024-02-13T19:43:22Z) - RAVEN: In-Context Learning with Retrieval-Augmented Encoder-Decoder Language Models [57.12888828853409]
RAVENは検索強化されたマスク付き言語モデリングとプレフィックス言語モデリングを組み合わせたモデルである。
フュージョン・イン・コンテキスト・ラーニング(Fusion-in-Context Learning)により、追加のトレーニングを必要とせずに、より多くのコンテキスト内サンプルを利用できる。
本研究は,テキスト内学習のためのエンコーダ・デコーダ言語モデルの構築の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2023-08-15T17:59:18Z) - Slimmable Encoders for Flexible Split DNNs in Bandwidth and Resource
Constrained IoT Systems [12.427821850039448]
本稿では,スリム化可能なアンサンブルエンコーダに基づく分割計算手法を提案する。
私たちの設計の主な利点は、計算負荷と送信データサイズを最小限のオーバーヘッドと時間でリアルタイムで適応できることです。
本モデルでは,圧縮効率や実行時間,特にモバイルデバイスの弱い状況において,既存のソリューションよりも優れています。
論文 参考訳(メタデータ) (2023-06-22T06:33:12Z) - Deep Latent-Variable Models for Text Generation [7.119436003155924]
ディープニューラルネットワークベースのエンドツーエンドアーキテクチャが広く採用されている。
エンドツーエンドのアプローチは、以前は複雑な手作りのルールで設計されていたすべてのサブモジュールを、全体的なエンコード・デコードアーキテクチャに融合させる。
この論文は、テキスト生成のための標準エンコーダデコーダモデルよりも、潜伏変数の深いモデルがいかに改善できるかを示す。
論文 参考訳(メタデータ) (2022-03-03T23:06:39Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - NeuroLogic A*esque Decoding: Constrained Text Generation with Lookahead
Heuristics [73.96837492216204]
本稿では,将来のコスト見積を組み込んだ復号アルゴリズムであるNeuroLogic A*esqueを提案する。
大規模言語モデルに効率的な効率的なルックアヘッドを開発する。
提案手法は,5世代タスクにおける競合的ベースラインと,テーブル・トゥ・テキスト生成,制約された機械翻訳,キーワード制約付き生成における最先端性能を実現する。
論文 参考訳(メタデータ) (2021-12-16T09:22:54Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。