論文の概要: LLM as Effective Streaming Processor: Bridging Streaming-Batch Mismatches with Group Position Encoding
- arxiv url: http://arxiv.org/abs/2505.16983v1
- Date: Thu, 22 May 2025 17:53:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.528902
- Title: LLM as Effective Streaming Processor: Bridging Streaming-Batch Mismatches with Group Position Encoding
- Title(参考訳): 効果的なストリーミングプロセッサとしてのLLM:グループ位置エンコーディングによるストリーミングバッチミスマッチのブリッジ
- Authors: Junlong Tong, Jinlan Fu, Zixuan Lin, Yingqi Fan, Anhao Zhao, Hui Su, Xiaoyu Shen,
- Abstract要約: 一般的に、後者の2つのミスマッチは頻繁な再エンコードを必要とし、再エンコード出力がほとんど不要であることを示す。
本稿では,ストリーミングモードとバッチモードの整合性を高めるため,バッチアーキテクチャ上に構築されたグループ位置符号化パラダイムを提案する。
提案手法はアーキテクチャの変更を必要とせず,ストリーミングモードとバッチモードの両方において強力な一般化を示す。
- 参考スコア(独自算出の注目度): 29.586274567275012
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are primarily designed for batch processing. Existing methods for adapting LLMs to streaming rely either on expensive re-encoding or specialized architectures with limited scalability. This work identifies three key mismatches in adapting batch-oriented LLMs to streaming: (1) input-attention, (2) output-attention, and (3) position-ID mismatches. While it is commonly assumed that the latter two mismatches require frequent re-encoding, our analysis reveals that only the input-attention mismatch significantly impacts performance, indicating re-encoding outputs is largely unnecessary. To better understand this discrepancy with the common assumption, we provide the first comprehensive analysis of the impact of position encoding on LLMs in streaming, showing that preserving relative positions within source and target contexts is more critical than maintaining absolute order. Motivated by the above analysis, we introduce a group position encoding paradigm built on batch architectures to enhance consistency between streaming and batch modes. Extensive experiments on cross-lingual and cross-modal tasks demonstrate that our method outperforms existing approaches. Our method requires no architectural modifications, exhibits strong generalization in both streaming and batch modes. The code is available at repository https://github.com/EIT-NLP/StreamingLLM.
- Abstract(参考訳): 大規模言語モデル(LLM)は主にバッチ処理用に設計されている。
LLMをストリーミングに適用するための既存の方法は、高価な再エンコーディングか、拡張性に制限のある特殊なアーキテクチャに依存している。
本研究は,(1)入力アテンション,(2)出力アテンション,(3)位置IDミスマッチという,バッチ指向のLLMをストリーミングに適用する際の3つの重要なミスマッチを特定する。
後者の2つのミスマッチは頻繁な再エンコードを必要とすると一般的に仮定されているが,本分析の結果,入出力ミスマッチのみが性能に大きく影響を与え,再エンコード出力がほとんど不要であることが判明した。
この相違をよりよく理解するために,ストリーミングにおけるLLMに対する位置符号化の影響を包括的に分析し,ソースおよびターゲットコンテキスト内の相対的な位置を保存することが絶対順序を維持することよりも重要であることを示す。
以上の分析により,ストリーミングモードとバッチモードの整合性を高めるために,バッチアーキテクチャ上に構築されたグループ位置符号化パラダイムを導入する。
クロスランガルタスクとクロスモーダルタスクの広範な実験は、我々の手法が既存の手法より優れていることを示す。
提案手法はアーキテクチャの変更を必要とせず,ストリーミングモードとバッチモードの両方において強力な一般化を示す。
コードはリポジトリhttps://github.com/EIT-NLP/StreamingLLM.comで入手できる。
関連論文リスト
- InferLog: Accelerating LLM Inference for Online Log Parsing via ICL-oriented Prefix Caching [23.53991589506265]
InferLogはオンラインログ解析のための最初の推論最適化手法である。
InferLogは(1)プレフィックス対応のICLリファインメントポリシーを設計して推論を加速し、インコンテキスト学習の例と置換を洗練し、プレフィックスキャッシュ効率を向上させる。
論文 参考訳(メタデータ) (2025-07-11T12:21:29Z) - Flipping Knowledge Distillation: Leveraging Small Models' Expertise to Enhance LLMs in Text Matching [16.725632407644884]
大規模言語モデルでは,より小さな言語モデルから学習する。
具体的には,デコーダのみのLLMとより小さなエンコーダモデルとのアーキテクチャ的ギャップに対処する。
金融および医療ベンチマークの実験は、実世界のアプリケーションと同様に、その有効性を確認している。
論文 参考訳(メタデータ) (2025-07-08T02:54:15Z) - DecoRTL: A Run-time Decoding Framework for RTL Code Generation with LLMs [0.0]
大規模言語モデル (LLM) は構造的あいまいさや意味的複雑さの領域において信頼性が低いことを示す。
本稿では,新しい実行時デコーディング戦略であるDecoRTLを紹介する。
私たちのアプローチは、追加のモデル微調整を必要とせずに、完全に推論時に動作します。
論文 参考訳(メタデータ) (2025-07-03T01:17:44Z) - Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding [51.711605076319216]
拡散に基づく大規模言語モデル (Diffusion LLM) は、並列復号機能を持つ非自己回帰テキスト生成を約束している。
本稿では,双方向拡散モデルに適したブロック単位で近似したKVキャッシュ機構を提案する。
本稿では,信頼しきい値を超えるトークンを選択的に復号し,依存関係違反を軽減し,生成品質を維持できる信頼度対応並列復号方式を提案する。
論文 参考訳(メタデータ) (2025-05-28T17:39:15Z) - ViaRL: Adaptive Temporal Grounding via Visual Iterated Amplification Reinforcement Learning [68.76048244253582]
ビデオ理解におけるフレーム選択の最適化にルールベース強化学習(RL)を利用する最初のフレームワークであるViaRLを紹介する。
ViaRLは、下流モデルの応答精度を報奨信号として利用し、試行錯誤によってフレームセレクタを訓練する。
ViaRLは、多様なビデオ理解タスクに対して、時間的基盤性能と堅牢な一般化を一貫して提供します。
論文 参考訳(メタデータ) (2025-05-21T12:29:40Z) - Adaptive Draft-Verification for Efficient Large Language Model Decoding [24.347886232342862]
大規模言語モデル(LLM)デコードでは、与えられたコンテキストに基づいてトークンのシーケンスを生成する。
典型的な自己回帰復号法では、生成されたトークンごとに別の前方通過が必要となる。
微調整を必要とせずにLDMデコーディングを高速化するADEDを導入する。
論文 参考訳(メタデータ) (2024-06-27T22:20:39Z) - StreamBench: Towards Benchmarking Continuous Improvement of Language Agents [63.54557575233165]
大規模言語モデル(LLM)エージェントは、経験から自分自身を改善することができる。
本稿では,LLMエージェントの入力フィードバックシーケンスに対する継続的な改善を評価するためのベンチマークであるStreamBenchを紹介する。
我々の研究は、LLMの効果的なオンライン学習戦略開発への一歩として役立ち、ストリーミングシナリオにおけるより適応的なAIシステムへの道を開いた。
論文 参考訳(メタデータ) (2024-06-13T02:08:28Z) - CALF: Aligning LLMs for Time Series Forecasting via Cross-modal Fine-Tuning [59.88924847995279]
MTSFのためのクロスモーダルLCMファインチューニング(CALF)フレームワークを提案する。
分散の相違を低減するため,クロスモーダルマッチングモジュールを開発した。
CALFは、長期および短期の予測タスクの最先端のパフォーマンスを確立する。
論文 参考訳(メタデータ) (2024-03-12T04:04:38Z) - CLLMs: Consistency Large Language Models [18.17892007267927]
Jacobiデコーディングは、従来の自己回帰(AR)デコーディングと比較して、ほとんどスピードアップしない。
ヤコビ軌道上の任意の状態から固定点への高速収束を実現するための新しいアプローチを開発する。
論文 参考訳(メタデータ) (2024-02-28T20:17:04Z) - LM-Infinite: Zero-Shot Extreme Length Generalization for Large Language Models [83.98062659664785]
大規模言語モデル(LLM)は通常、トランスフォーマーアーキテクチャの2次複雑さのために短いテキストセグメント(例:4Kトークン)でトレーニングする。
この研究は、この長大一般化失敗に寄与する3つの主要な要因を特定する。
本研究では,LLMの長期処理能力を高めるための簡易かつ効果的な手法であるLM-Infiniteを提案する。
論文 参考訳(メタデータ) (2023-08-30T16:47:51Z) - A Coding Framework and Benchmark towards Low-Bitrate Video Understanding [63.05385140193666]
我々は,従来のコーデックとニューラルネットワーク(NN)の両方を活用する,従来型ニューラル混合符号化フレームワークを提案する。
このフレームワークは、動画の移動効率の良いセマンティック表現を確実に保持することで最適化される。
8つのデータセットに3つのダウンストリームタスクを備えた低ビットレートビデオ理解ベンチマークを構築し、このアプローチの顕著な優位性を実証した。
論文 参考訳(メタデータ) (2022-02-06T16:29:15Z) - Video Corpus Moment Retrieval with Contrastive Learning [56.249924768243375]
ビデオコーパスモーメント検索(VCMR)は、与えられたテキストクエリに意味的に対応する時間モーメントを取得することです。
VCMRのためのコントラシブラーニング(ReLoCLNet)を用いた検索・ローカリゼーションネットワークを提案する。
実験の結果、ReLoCLNetは効率のためにテキストとビデオを個別にエンコードし、その検索精度はクロスモーダル相互作用学習を採用するベースラインと匹敵する。
論文 参考訳(メタデータ) (2021-05-13T12:54:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。