論文の概要: LLM as Effective Streaming Processor: Bridging Streaming-Batch Mismatches with Group Position Encoding
- arxiv url: http://arxiv.org/abs/2505.16983v1
- Date: Thu, 22 May 2025 17:53:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.528902
- Title: LLM as Effective Streaming Processor: Bridging Streaming-Batch Mismatches with Group Position Encoding
- Title(参考訳): 効果的なストリーミングプロセッサとしてのLLM:グループ位置エンコーディングによるストリーミングバッチミスマッチのブリッジ
- Authors: Junlong Tong, Jinlan Fu, Zixuan Lin, Yingqi Fan, Anhao Zhao, Hui Su, Xiaoyu Shen,
- Abstract要約: 一般的に、後者の2つのミスマッチは頻繁な再エンコードを必要とし、再エンコード出力がほとんど不要であることを示す。
本稿では,ストリーミングモードとバッチモードの整合性を高めるため,バッチアーキテクチャ上に構築されたグループ位置符号化パラダイムを提案する。
提案手法はアーキテクチャの変更を必要とせず,ストリーミングモードとバッチモードの両方において強力な一般化を示す。
- 参考スコア(独自算出の注目度): 29.586274567275012
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are primarily designed for batch processing. Existing methods for adapting LLMs to streaming rely either on expensive re-encoding or specialized architectures with limited scalability. This work identifies three key mismatches in adapting batch-oriented LLMs to streaming: (1) input-attention, (2) output-attention, and (3) position-ID mismatches. While it is commonly assumed that the latter two mismatches require frequent re-encoding, our analysis reveals that only the input-attention mismatch significantly impacts performance, indicating re-encoding outputs is largely unnecessary. To better understand this discrepancy with the common assumption, we provide the first comprehensive analysis of the impact of position encoding on LLMs in streaming, showing that preserving relative positions within source and target contexts is more critical than maintaining absolute order. Motivated by the above analysis, we introduce a group position encoding paradigm built on batch architectures to enhance consistency between streaming and batch modes. Extensive experiments on cross-lingual and cross-modal tasks demonstrate that our method outperforms existing approaches. Our method requires no architectural modifications, exhibits strong generalization in both streaming and batch modes. The code is available at repository https://github.com/EIT-NLP/StreamingLLM.
- Abstract(参考訳): 大規模言語モデル(LLM)は主にバッチ処理用に設計されている。
LLMをストリーミングに適用するための既存の方法は、高価な再エンコーディングか、拡張性に制限のある特殊なアーキテクチャに依存している。
本研究は,(1)入力アテンション,(2)出力アテンション,(3)位置IDミスマッチという,バッチ指向のLLMをストリーミングに適用する際の3つの重要なミスマッチを特定する。
後者の2つのミスマッチは頻繁な再エンコードを必要とすると一般的に仮定されているが,本分析の結果,入出力ミスマッチのみが性能に大きく影響を与え,再エンコード出力がほとんど不要であることが判明した。
この相違をよりよく理解するために,ストリーミングにおけるLLMに対する位置符号化の影響を包括的に分析し,ソースおよびターゲットコンテキスト内の相対的な位置を保存することが絶対順序を維持することよりも重要であることを示す。
以上の分析により,ストリーミングモードとバッチモードの整合性を高めるために,バッチアーキテクチャ上に構築されたグループ位置符号化パラダイムを導入する。
クロスランガルタスクとクロスモーダルタスクの広範な実験は、我々の手法が既存の手法より優れていることを示す。
提案手法はアーキテクチャの変更を必要とせず,ストリーミングモードとバッチモードの両方において強力な一般化を示す。
コードはリポジトリhttps://github.com/EIT-NLP/StreamingLLM.comで入手できる。
関連論文リスト
- Adaptive Draft-Verification for Efficient Large Language Model Decoding [24.347886232342862]
大規模言語モデル(LLM)デコードでは、与えられたコンテキストに基づいてトークンのシーケンスを生成する。
典型的な自己回帰復号法では、生成されたトークンごとに別の前方通過が必要となる。
微調整を必要とせずにLDMデコーディングを高速化するADEDを導入する。
論文 参考訳(メタデータ) (2024-06-27T22:20:39Z) - CALF: Aligning LLMs for Time Series Forecasting via Cross-modal Fine-Tuning [59.88924847995279]
MTSFのためのクロスモーダルLCMファインチューニング(CALF)フレームワークを提案する。
分散の相違を低減するため,クロスモーダルマッチングモジュールを開発した。
CALFは、長期および短期の予測タスクの最先端のパフォーマンスを確立する。
論文 参考訳(メタデータ) (2024-03-12T04:04:38Z) - CLLMs: Consistency Large Language Models [18.17892007267927]
Jacobiデコーディングは、従来の自己回帰(AR)デコーディングと比較して、ほとんどスピードアップしない。
ヤコビ軌道上の任意の状態から固定点への高速収束を実現するための新しいアプローチを開発する。
論文 参考訳(メタデータ) (2024-02-28T20:17:04Z) - LM-Infinite: Zero-Shot Extreme Length Generalization for Large Language Models [83.98062659664785]
大規模言語モデル(LLM)は通常、トランスフォーマーアーキテクチャの2次複雑さのために短いテキストセグメント(例:4Kトークン)でトレーニングする。
この研究は、この長大一般化失敗に寄与する3つの主要な要因を特定する。
本研究では,LLMの長期処理能力を高めるための簡易かつ効果的な手法であるLM-Infiniteを提案する。
論文 参考訳(メタデータ) (2023-08-30T16:47:51Z) - A Coding Framework and Benchmark towards Low-Bitrate Video Understanding [63.05385140193666]
我々は,従来のコーデックとニューラルネットワーク(NN)の両方を活用する,従来型ニューラル混合符号化フレームワークを提案する。
このフレームワークは、動画の移動効率の良いセマンティック表現を確実に保持することで最適化される。
8つのデータセットに3つのダウンストリームタスクを備えた低ビットレートビデオ理解ベンチマークを構築し、このアプローチの顕著な優位性を実証した。
論文 参考訳(メタデータ) (2022-02-06T16:29:15Z) - Video Corpus Moment Retrieval with Contrastive Learning [56.249924768243375]
ビデオコーパスモーメント検索(VCMR)は、与えられたテキストクエリに意味的に対応する時間モーメントを取得することです。
VCMRのためのコントラシブラーニング(ReLoCLNet)を用いた検索・ローカリゼーションネットワークを提案する。
実験の結果、ReLoCLNetは効率のためにテキストとビデオを個別にエンコードし、その検索精度はクロスモーダル相互作用学習を採用するベースラインと匹敵する。
論文 参考訳(メタデータ) (2021-05-13T12:54:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。