論文の概要: QwenLong-CPRS: Towards $\infty$-LLMs with Dynamic Context Optimization
- arxiv url: http://arxiv.org/abs/2505.18092v2
- Date: Tue, 27 May 2025 09:42:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 14:37:19.968932
- Title: QwenLong-CPRS: Towards $\infty$-LLMs with Dynamic Context Optimization
- Title(参考訳): QwenLong-CPRS:動的コンテキスト最適化による$\infty$-LLMsを目指して
- Authors: Weizhou Shen, Chenliang Li, Fanqi Wan, Shengyi Liao, Shaopeng Lai, Bo Zhang, Yingcheng Shi, Yuning Wu, Gang Fu, Zhansheng Li, Bin Yang, Ji Zhang, Fei Huang, Jingren Zhou, Ming Yan,
- Abstract要約: QwenLong-CPRSはコンテキスト圧縮フレームワークであり、明示的な長文最適化のために設計されている。
QwenLong-CPRSは21.59$times$コンテキスト圧縮と19.15ポイントの平均パフォーマンス向上を達成した。
- 参考スコア(独自算出の注目度): 70.3105638352827
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This technical report presents QwenLong-CPRS, a context compression framework designed for explicit long-context optimization, addressing prohibitive computation overhead during the prefill stage and the "lost in the middle" performance degradation of large language models (LLMs) during long sequence processing. Implemented through a novel dynamic context optimization mechanism, QwenLong-CPRS enables multi-granularity context compression guided by natural language instructions, achieving both efficiency gains and improved performance. Evolved from the Qwen architecture series, QwenLong-CPRS introduces four key innovations: (1) Natural language-guided dynamic optimization, (2) Bidirectional reasoning layers for enhanced boundary awareness, (3) Token critic mechanisms with language modeling heads, and (4) Window-parallel inference. Comprehensive evaluations across five benchmarks (4K-2M word contexts) demonstrate QwenLong-CPRS's threefold effectiveness: (1) Consistent superiority over other context management methods like RAG and sparse attention in both accuracy and efficiency. (2) Architecture-agnostic integration with all flagship LLMs, including GPT-4o, Gemini2.0-pro, Claude3.7-sonnet, DeepSeek-v3, and Qwen2.5-max, achieves 21.59$\times$ context compression alongside 19.15-point average performance gains; (3) Deployed with Qwen2.5-32B-Instruct, QwenLong-CPRS surpasses leading proprietary LLMs by 4.85 and 10.88 points on Ruler-128K and InfiniteBench, establishing new SOTA performance.
- Abstract(参考訳): この技術報告では、QwenLong-CPRSについて述べる。これは、明示的な長期コンテキスト最適化のために設計されたコンテキスト圧縮フレームワークで、プリフィル段階における禁止的な計算オーバーヘッドに対処し、長いシーケンス処理において、大規模言語モデル(LLM)の性能劣化に対処する。
QwenLong-CPRSは、動的コンテキスト最適化機構によって実装され、自然言語命令によって導かれる複数粒度コンテキスト圧縮を可能にし、効率向上と性能向上を両立させる。
Qwenアーキテクチャシリーズに端を発するQwenLong-CPRSは,(1)自然言語誘導動的最適化,(2)境界認識の強化のための双方向推論層,(3)言語モデリングヘッドを用いたトークン批判機構,(4)ウィンドウ並列推論の4つの重要なイノベーションを導入している。
5つのベンチマーク(4K-2Mワードコンテキスト)の総合評価では、QwenLong-CPRSの3倍の有効性が示されている。
2) GPT-4o、Gemini2.0-pro、Claude3.7-sonnet、DeepSeek-v3、Qwen2.5-maxを含む全てのフラッグシップLLMとのアーキテクチャに依存しない統合は、21.59$\times$コンテキスト圧縮と19.15ポイントの平均パフォーマンス向上を実現した。
関連論文リスト
- LIFT: LLM-Based Pragma Insertion for HLS via GNN Supervised Fine-Tuning [38.679497621876926]
LIFTは大規模な言語モデル(LLM)ベースのHLSのためのコーディングアシスタントで、パフォーマンスクリティカルなプラグマを自動的に生成する。
我々は、グラフニューラルネットワーク(GNN)でトレーニングプロセスを密に統合し、監督することにより、LSMを微調整する。
論文 参考訳(メタデータ) (2025-04-29T21:42:59Z) - Learning Adaptive Parallel Reasoning with Language Models [70.1745752819628]
本稿では,適応並列推論(Adaptive Parallel Reasoning, APR)を提案する。
APRは、spawn()とjoin()操作を使用して適応的なマルチスレッド推論を可能にすることで、既存の推論メソッドを一般化する。
鍵となる革新は、親と子の両方の推論スレッドを最適化して、事前に定義された推論構造を必要とせずにタスクの成功率を高める、エンドツーエンドの強化学習戦略である。
論文 参考訳(メタデータ) (2025-04-21T22:29:02Z) - ASMA-Tune: Unlocking LLMs' Assembly Code Comprehension via Structural-Semantic Instruction Tuning [33.53059396922164]
アセンブリコード分析と理解は、リバースエンジニアリングのようなアプリケーションにおいて重要な役割を果たす。
従来のマスク付き言語モデリングアプローチは、自然言語の相互作用に明示的に焦点を合わせていない。
本稿では、エンドツーエンドな構造意味的命令チューニングフレームワークであるアセンブリ・チューニングについて述べる。
論文 参考訳(メタデータ) (2025-03-14T17:36:08Z) - Qwen2.5-1M Technical Report [72.09755998661568]
コンテクスト長を100万トークンまで拡張する一連のモデルであるQwen2.5-1Mを紹介する。
我々の推論フレームワークを活用することで、Qwen2.5-1Mモデルは驚くべき3倍から7倍のプリフィルスピードアップを達成する。
論文 参考訳(メタデータ) (2025-01-26T03:47:25Z) - EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,既存の並列処理方式を超越したMoE用パイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法と比較して,プリフィルスループットは52.4%向上した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - Advancing LLM Reasoning Generalists with Preference Trees [119.57169648859707]
推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。
Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
論文 参考訳(メタデータ) (2024-04-02T16:25:30Z) - LLMLingua: Compressing Prompts for Accelerated Inference of Large
Language Models [22.06402870816756]
大きな言語モデル(LLM)は、その驚くべき能力のために様々なアプリケーションに適用されている。
本稿では,意味的整合性を維持するための予算制御を伴う粗大なプロンプト圧縮手法であるLLMLinguaを提案する。
提案手法により,最先端性能が得られ,最大20倍圧縮が可能であり,性能損失が少ないことを示す。
論文 参考訳(メタデータ) (2023-10-09T14:10:21Z) - Squeezeformer: An Efficient Transformer for Automatic Speech Recognition [99.349598600887]
Conformerは、そのハイブリッドアテンション・コンボリューションアーキテクチャに基づいて、様々な下流音声タスクの事実上のバックボーンモデルである。
Squeezeformerモデルを提案する。これは、同じトレーニングスキームの下で、最先端のASRモデルよりも一貫して優れている。
論文 参考訳(メタデータ) (2022-06-02T06:06:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。