論文の概要: Intelligence Degradation in Long-Context LLMs: Critical Threshold Determination via Natural Length Distribution Analysis
- arxiv url: http://arxiv.org/abs/2601.15300v1
- Date: Wed, 07 Jan 2026 07:56:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-25 16:54:51.841106
- Title: Intelligence Degradation in Long-Context LLMs: Critical Threshold Determination via Natural Length Distribution Analysis
- Title(参考訳): 長期LLMにおけるインテリジェンス劣化:自然長さ分布解析による臨界閾値決定
- Authors: Weiwei Wang, Jiyong Min, Weijie Zou,
- Abstract要約: 大規模言語モデル(LLM)は、特定の臨界しきい値に近づく処理コンテキストにおいて、性能劣化を示す。
このインテリジェンス劣化は、タスクパフォーマンスの30%以上を減らし、コンテキストの長いアプリケーションを制限する。
この研究は、オープンソースのQwenモデルにおいて、インテリジェンス劣化の最初の体系的特徴を提供する。
- 参考スコア(独自算出の注目度): 2.085792950847639
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Large Language Models (LLMs) exhibit catastrophic performance degradation when processing contexts approaching certain critical thresholds, even when information remains relevant. This intelligence degradation-defined as over 30% drop in task performance-severely limits long-context applications. This degradation shows a common pattern: models maintain strong performance up to a critical threshold, then collapse catastrophically. We term this shallow long-context adaptation-models adapt for short to medium contexts but fail beyond critical thresholds. This paper presents three contributions: (1) Natural Length Distribution Analysis: We use each sample's natural token length without truncation or padding, providing stronger causal evidence that degradation results from context length itself. (2) Critical Threshold Determination: Through experiments on a mixed dataset (1,000 samples covering 5%-95% of context length), we identify the critical threshold for Qwen2.5-7B at 40-50% of maximum context length, where F1 scores drop from 0.55-0.56 to 0.3 (45.5% degradation), using five-method cross-validation. (3) Unified Framework: We consolidate shallow adaptation, explaining degradation patterns and providing a foundation for mitigation strategies. This work provides the first systematic characterization of intelligence degradation in open-source Qwen models, offering practical guidance for deploying LLMs in long-context scenarios.
- Abstract(参考訳): 大規模言語モデル(LLM)は、処理コンテキストが特定のクリティカルしきい値に近づいた場合、たとえ情報が関連していても、破滅的なパフォーマンス劣化を示す。
このインテリジェンス劣化は、タスクパフォーマンスの30%以上を減らし、コンテキストの長いアプリケーションを制限する。
モデルは重要なしきい値まで強力なパフォーマンスを維持し、破滅的に崩壊する。
この浅層長文適応モデルは、短期から中級の文脈に適応するが、臨界しきい値を超えない。
本論文は,(1)自然長さ分布分析: 各試料の天然トークン長をトランケーションやパディングなしで使用し, 劣化が文脈長自体から生じるという強い因果的証拠を提供する。
2) 限界閾値決定: 混合データセット(文脈長の5%-95%をカバーする1,000サンプル)の実験により, 最大文脈長の40-50%でQwen2.5-7Bの臨界閾値を同定した。
(3)統一フレームワーク: 浅層適応を統合し、劣化パターンを説明し、緩和戦略の基礎を提供する。
この研究は、オープンソースのQwenモデルにおけるインテリジェンス劣化のシステマティックな特徴を初めて提供し、LLMを長期コンテキストシナリオにデプロイするための実践的なガイダンスを提供する。
関連論文リスト
- Towards Infinite Length Extrapolation: A Unified Approach [0.0]
大規模言語モデル(LLM)は自然言語処理に革命をもたらしたが、長いシーケンスを処理する能力は、訓練中のコンテキストウィンドウサイズによって根本的に制限されている。
我々は、注目スコアを乗法変換と加法バイアスに分解するものとして、位置符号化手法を再解釈する統一的なフレームワークを使用する。
我々の理論的解析は、無限コンテキスト外挿条件を確立し、ソフトマックスハンドリングが、長距離相関、エントロピー境界性、勾配位置感度を保ちながら、非有界列に対して適切に定義されていることを保証している。
論文 参考訳(メタデータ) (2026-01-03T14:10:23Z) - Latent Sculpting for Zero-Shot Generalization: A Manifold Learning Approach to Out-of-Distribution Anomaly Detection [2.8547732086436306]
教師付きディープラーニングの基本的限界は「一般化崩壊」である
階層型2段階表現学習フレームワークであるLatent Sculptingを提案する。
我々は「浸潤」のシナリオについて88.89%の検知率を報告した。
論文 参考訳(メタデータ) (2025-12-19T11:37:02Z) - Context Length Alone Hurts LLM Performance Despite Perfect Retrieval [29.523005523787244]
大規模言語モデル(LLM)は、サポート対象のコンテキスト長に合わせて、長いコンテキストタスクのパフォーマンスをスケールできないことが多い。
本稿では,この問題に対する回答が否定的である可能性が示唆された。
論文 参考訳(メタデータ) (2025-10-06T21:17:13Z) - Beyond Memorization: Reasoning-Driven Synthesis as a Mitigation Strategy Against Benchmark Contamination [77.69093448529455]
本稿では,arXiv論文から直接研究レベルのQAを合成するために,無限にスケーラブルなフレームワークを用いて実証的研究を行う。
各種サイズ,開発者,リリース日といったモデルについて,知識カットオフ日に近い性能劣化の欠如を評価した。
合成パイプラインで要求される多段階の推論は、浅い記憶よりも深い複雑さをもたらしたと仮定する。
論文 参考訳(メタデータ) (2025-08-26T16:41:37Z) - A Controllable Examination for Long-Context Language Models [62.845852724511964]
本研究では,長文言語モデルを評価するベンチマークである$textbfLongBioBenchを紹介する。
その結果,ほとんどのモデルでは,検索結果に対する意味的理解や基礎的推論が不足していることが判明した。
我々のさらなる分析は、文脈的非コヒーレンスなど、既存の合成ベンチマークで採用されているいくつかの設計選択を示している。
論文 参考訳(メタデータ) (2025-06-03T14:23:06Z) - Adaptive Distraction: Probing LLM Contextual Robustness with Automated Tree Search [76.54475437069395]
大きな言語モデル(LLM)は、意味的に一貫性があるがタスクに依存しないコンテキスト情報に直面している場合、元のパフォーマンスを維持するのに苦労することが多い。
本稿では,木探索に基づく動的散逸生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-03T18:43:36Z) - CNNSum: Exploring Long-Context Summarization with Large Language Models in Chinese Novels [11.614599448394374]
CNNSumは,中国小説をベースとした多スケール長文要約ベンチマークである。
CNNSumは4つのサブセットにまたがって、合計695のサンプルで、長さは16kから128kである。
我々は、多数のLCMをベンチマークし、異常な出力タイプを要約するために詳細な人間の評価を行う。
論文 参考訳(メタデータ) (2024-12-03T20:35:57Z) - SampleAttention: Near-Lossless Acceleration of Long Context LLM Inference with Adaptive Structured Sparse Attention [53.4441894198495]
大きな言語モデル(LLM)は、非常に長いコンテキストウィンドウをサポートするようになった。
バニラの注意の二次的な複雑さは、TTFT(Time-to-First-Token)レイテンシを著しく長くする。
適応型構造とほぼロスレスなスパースアテンションであるSampleAttentionを提案する。
論文 参考訳(メタデータ) (2024-06-17T11:05:15Z) - Test-time Batch Statistics Calibration for Covariate Shift [66.7044675981449]
我々は,推論中に深層モデルを新しい環境に適応させることを提案する。
バッチ統計の校正に$alpha$-BNの一般的な定式化を提案する。
また、統合テスト時間適応フレームワークCoreを形成するための新しい損失関数も提示する。
論文 参考訳(メタデータ) (2021-10-06T08:45:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。