論文の概要: On Elastic Language Models
- arxiv url: http://arxiv.org/abs/2311.07204v1
- Date: Mon, 13 Nov 2023 09:55:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 14:48:10.780174
- Title: On Elastic Language Models
- Title(参考訳): 弾性言語モデルについて
- Authors: Chen Zhang, Benyou Wang, Dawei Song
- Abstract要約: 本稿では、要求ストリームに応じてトレードオフを弾性的に調整する弾性言語モデル(ElasticLM)を提案する。
具体的には、弾性弾性を計算弾性で実現する弾性構造を課し、弾性弾性下での弾性弾性を学習するための弾性最適化を設計する。
その結果,ElasticLMとElasticDenserとElasticRankerは,静的ベースラインの配列と比較して,正しくかつ競合的に動作可能であることがわかった。
- 参考スコア(独自算出の注目度): 26.26865964707246
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale pretrained language models have achieved compelling performance
in a wide range of language understanding and information retrieval tasks.
Knowledge distillation offers an opportunity to compress a large language model
to a small one, in order to reach a reasonable latency-performance tradeoff.
However, for scenarios where the number of requests (e.g., queries submitted to
a search engine) is highly variant, the static tradeoff attained by the
compressed language model might not always fit. Once a model is assigned with a
static tradeoff, it could be inadequate in that the latency is too high when
the number of requests is large or the performance is too low when the number
of requests is small. To this end, we propose an elastic language model
(ElasticLM) that elastically adjusts the tradeoff according to the request
stream. The basic idea is to introduce a compute elasticity to the compressed
language model, so that the tradeoff could vary on-the-fly along scalable and
controllable compute. Specifically, we impose an elastic structure to enable
ElasticLM with compute elasticity and design an elastic optimization to learn
ElasticLM under compute elasticity. To serve ElasticLM, we apply an elastic
schedule. Considering the specificity of information retrieval, we adapt
ElasticLM to dense retrieval and reranking and present ElasticDenser and
ElasticRanker respectively. Offline evaluation is conducted on a language
understanding benchmark GLUE; and several information retrieval tasks including
Natural Question, Trivia QA, and MS MARCO. The results show that ElasticLM
along with ElasticDenser and ElasticRanker can perform correctly and
competitively compared with an array of static baselines. Furthermore, online
simulation with concurrency is also carried out. The results demonstrate that
ElasticLM can provide elastic tradeoffs with respect to varying request stream.
- Abstract(参考訳): 大規模事前学習された言語モデルは、幅広い言語理解と情報検索タスクにおいて魅力的な性能を達成している。
知識蒸留は、適切な遅延性能のトレードオフに到達するために、大きな言語モデルを小さな言語に圧縮する機会を提供する。
しかし、リクエスト数(例えば、検索エンジンに提出されたクエリ)が非常に異なるシナリオでは、圧縮言語モデルによって達成される静的トレードオフが必ずしも適合するとは限らない。
モデルが静的なトレードオフでアサインされると、リクエスト数が大きい場合のレイテンシが高過ぎるか、リクエスト数が少ない場合はパフォーマンスが低すぎるという点で不適切な場合がある。
そこで本研究では,要求ストリームに応じてトレードオフを弾性的に調整する弾性言語モデル(ElasticLM)を提案する。
基本的な考え方は、圧縮された言語モデルに計算の弾力性を導入することである。
具体的には,計算弾力性のあるelasticlmを実現するために弾性構造を課し,計算弾力性の下でelasticlmを学ぶための弾性最適化を設計する。
ElasticLMを実現するために,弾力性のあるスケジュールを適用する。
情報検索の特異性を考慮すると,ElasticLM を高密度検索に適用し,ElasticDenser と ElasticRanker をそれぞれ提示する。
オフライン評価は言語理解ベンチマークGLUEで行われ、Natural Question, Trivia QA, MS MARCOなどの情報検索タスクも行われている。
その結果,elasticnum と elasticdenser と elasticranker は静的ベースラインの配列と比較し,精度と競合性が向上した。
さらに、並行性を伴うオンラインシミュレーションも実施する。
その結果、ElasticLMは様々なリクエストストリームに対して、弾性的なトレードオフを提供できることを示した。
関連論文リスト
- SocialGPT: Prompting LLMs for Social Relation Reasoning via Greedy Segment Optimization [70.11167263638562]
社会的関係推論は、友人、配偶者、同僚などの関係カテゴリを画像から識別することを目的としている。
まず、VFM(Vision Foundation Models)の知覚能力と、モジュラーフレームワーク内でのLLM(Large Language Models)の推論能力を組み合わせた、シンプルだが巧妙な名前のフレームワークを提示する。
論文 参考訳(メタデータ) (2024-10-28T18:10:26Z) - Less is More: Making Smaller Language Models Competent Subgraph Retrievers for Multi-hop KGQA [51.3033125256716]
本研究では,小言語モデルで処理される条件生成タスクとして,サブグラフ検索タスクをモデル化する。
2億2千万のパラメータからなる基本生成部分グラフ検索モデルでは,最先端モデルと比較して競合検索性能が向上した。
LLMリーダを接続した最大の3Bモデルは、WebQSPとCWQベンチマークの両方で、SOTAのエンドツーエンドパフォーマンスを新たに設定します。
論文 参考訳(メタデータ) (2024-10-08T15:22:36Z) - Flextron: Many-in-One Flexible Large Language Model [85.93260172698398]
我々は,フレキシブルモデル展開をサポートするネットワークアーキテクチャとポストトレーニングモデル最適化フレームワークであるFlextronを紹介する。
本稿では,既存の学習用LDMをFlextronモデルに変換するための,サンプル効率のよいトレーニング手法と関連するルーティングアルゴリズムを提案する。
我々は、複数のエンドツーエンドトレーニングされた変種や他の最先端の弾性ネットワークよりも優れた性能を示し、これらは全て、オリジナルの事前訓練と比較してわずか7.63%のトークンを消費する単一の事前訓練ランで実現している。
論文 参考訳(メタデータ) (2024-06-11T01:16:10Z) - Crafting Interpretable Embeddings by Asking LLMs Questions [89.49960984640363]
大規模言語モデル(LLM)は、自然言語処理タスクの増大に対して、テキスト埋め込みを急速に改善した。
質問応答埋め込み (QA-Emb) を導入し, 各特徴がLLMに対して質問された質問に対する回答を表す。
我々はQA-Embを用いて、言語刺激に対するfMRIボクセル応答を予測するための解釈可能なモデルを柔軟に生成する。
論文 参考訳(メタデータ) (2024-05-26T22:30:29Z) - LoongServe: Efficiently Serving Long-Context Large Language Models with Elastic Sequence Parallelism [12.521026493432181]
既存の大規模言語モデル(LLM)は、異なるフェーズにおける可変長要求を効率的に提供できない。
本稿では,異なる要求と位相の分散に対応するために,新しい並列性パラダイムである弾性列並列性(ESP)を提案する。
LoongServeは、チャンクプレフィルと比較して最大スループットを最大3.85$times$、プリフィルデコードデアグリゲーションと比較して5.81$times$に改善する。
論文 参考訳(メタデータ) (2024-04-15T07:45:04Z) - Sorted LLaMA: Unlocking the Potential of Intermediate Layers of Large
Language Models for Dynamic Inference [32.62084449979531]
SortedNet を Sorted Fine-Tuning (SoFT) に置き換えることで生成 NLP タスクに拡張する。
我々のアプローチはモデル効率を向上し、推論中に様々なシナリオに対する複数のモデルの必要性を排除します。
以上の結果から,SFT+ICT(Early-Exit)と標準ファインチューニング(SFT+ICT)と比較して,サブモデルの優れた性能を示す。
論文 参考訳(メタデータ) (2023-09-16T11:58:34Z) - Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。
MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。
その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-09-13T04:06:47Z) - Task Generalization with Stability Guarantees via Elastic Dynamical
System Motion Policies [3.5445578113117113]
動的システム(DS)をベースとしたLearning from Demonstration(LfD)は,いくつかのトラジェクトリから,安定性と収束性を保証するリアクティブな動作ポリシの学習を可能にする。
本稿では,Gaussian Mixture Model (GMM) をベースとした線形Varying (LPV) DSの定式化にタスクパラメータを組み込んだ新しいDS学習手法であるElastic-DSを提案する。
我々は、制御理論上の望ましい保証を保ちながら、シミュレーションおよび実ロボット実験の無数の長所を示す。
論文 参考訳(メタデータ) (2023-09-05T01:22:19Z) - Towards Efficient NLP: A Standard Evaluation and A Strong Baseline [55.29756535335831]
本研究は, ELUE (Efficient Language Understanding Evaluation) と標準評価, 効率的なNLPモデルのための公開リーダボードを提案する。
ベンチマークとともに、強いベースラインであるElasticBERTの事前トレーニングとリリースも行います。
論文 参考訳(メタデータ) (2021-10-13T21:17:15Z) - Estimating Demand Flexibility Using Siamese LSTM Neural Networks [0.0]
我々は、時間変動弾性という効率的なツールを用いて需要の柔軟性を定量化し、価格や意思決定のダイナミクスによって価値が変化する可能性がある。
最近の実証的な証拠は、需要の柔軟性を研究する際に、遅延応答や価格急騰後の弾性の消失など、いくつかの異常な特徴を浮き彫りにした。
本稿では,最適推定パターンを自動的かつ正確に導出するモデルフリー手法を提案する。
論文 参考訳(メタデータ) (2021-09-03T00:59:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。