論文の概要: Context Discipline and Performance Correlation: Analyzing LLM Performance and Quality Degradation Under Varying Context Lengths
- arxiv url: http://arxiv.org/abs/2601.11564v1
- Date: Thu, 25 Dec 2025 08:37:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-25 16:54:51.75892
- Title: Context Discipline and Performance Correlation: Analyzing LLM Performance and Quality Degradation Under Varying Context Lengths
- Title(参考訳): 文脈ディシドリンと性能相関--LLMの性能と品質劣化の分析-
- Authors: Ahilan Ayyachamy Nadar Ponnusamy, Karthic Chandran, M Maruf Hossain,
- Abstract要約: 大規模言語モデル(LLM)は、複雑な長文の推論と文書解析を容易にするために、最大コンテキストウィンドウの増大を優先している。
この拡張されたコンテキストの管理は、厳しい計算オーバーヘッドをもたらす。
本稿では,高密度変圧器アーキテクチャが無関係かつ気を散らす状況に晒される場合,システム性能とモデル品質の重大なトレードオフについて検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The scaling trend in Large Language Models (LLMs) has prioritized increasing the maximum context window to facilitate complex, long-form reasoning and document analysis. However, managing this expanded context introduces severe computational overhead. This paper investigates the critical trade-off between system performance and model quality when dense transformer architectures--specifically Llama-3.1-70B and Qwen1.5-14B--are exposed to large volumes of irrelevant and distracting context. The research identifies a non-linear performance degradation tied to the growth of the Key-Value (KV) cache. Furthermore, an extended analysis of the Mixture-of-Experts (MoE) architecture reveals unique behavioral anomalies at varying context scales, suggesting that architectural benefits may be masked by infrastructure bottlenecks at high token volumes.
- Abstract(参考訳): 大規模言語モデル(LLM)のスケーリングトレンドは、複雑で長期の推論と文書解析を容易にするために、最大コンテキストウィンドウの増大を優先している。
しかし、この拡張されたコンテキストの管理は、厳しい計算オーバーヘッドをもたらす。
本稿では,Llama-3.1-70B と Qwen1.5-14B の高密度トランスアーキテクチャにおけるシステム性能とモデル品質のトレードオフについて検討する。
その結果,キーバリュー(KV)キャッシュの成長に伴う非線形性能劣化が明らかになった。
さらに、Mixture-of-Experts(MoE)アーキテクチャの拡張分析では、さまざまなコンテキストスケールでのユニークな振る舞い異常が明らかとなり、高いトークンボリュームのインフラストラクチャボトルネックによってアーキテクチャ上のメリットが隠蔽される可能性があることが示唆されている。
関連論文リスト
- Dynamic Context Selection for Retrieval-Augmented Generation: Mitigating Distractors and Positional Bias [1.7674345486888503]
Retrieval Augmented Generation (RAG)は,大規模コーパスから抽出した外部知識を組み込むことで,言語モデルの性能を向上させる。
標準的なRAGシステムは、関連する情報を見逃したり、意味的に無関係な経路を導入することができる固定トップk検索戦略に依存している。
本稿では,クエリ固有の情報要求に基づいて検索する文書の最適個数を動的に予測するコンテキストサイズ分類器を提案する。
論文 参考訳(メタデータ) (2025-12-16T11:30:40Z) - URaG: Unified Retrieval and Generation in Multimodal LLMs for Efficient Long Document Understanding [55.45331924836242]
MLLM内での検索と生成を統一するフレームワークであるURaGについて述べる。
URaGは,計算オーバーヘッドを44~56%削減し,最先端性能を実現する。
論文 参考訳(メタデータ) (2025-11-13T17:54:09Z) - CCF: A Context Compression Framework for Efficient Long-Sequence Language Modeling [52.05149789178508]
CCFは、効率的な長期コンテキストモデリングを可能にするように設計された、新しいコンテキスト圧縮フレームワークである。
CCFはセグメントワイドなセマンティックアグリゲーションとキー-値メモリエンコーディングを統合し、コンパクトな表現を形成する。
複数の長文言語モデリングベンチマークによる実験結果から,CCFは高い圧縮比下での競合パープレキシティを実現することが示された。
論文 参考訳(メタデータ) (2025-09-11T07:13:49Z) - Attributing Response to Context: A Jensen-Shannon Divergence Driven Mechanistic Study of Context Attribution in Retrieval-Augmented Generation [52.3707788779464]
我々は、コンテキストに対する属性応答(ARC-JSD)のための新しいJensen-Shannon Divergence駆動方式を提案する。
ARC-JSDは、追加の微調整、勾配計算、サロゲートモデリングなしで、重要な文脈文の効率的かつ正確な識別を可能にする。
TyDi QA, Hotpot QA, Musique など,様々なスケールの命令調整 LLM を用いたRAG ベンチマークの評価により,精度が向上し,計算効率が向上した。
論文 参考訳(メタデータ) (2025-05-22T09:04:03Z) - Model Hemorrhage and the Robustness Limits of Large Language Models [119.46442117681147]
大規模言語モデル(LLM)は、自然言語処理タスク全体で強力なパフォーマンスを示すが、デプロイメント用に修正された場合、大幅なパフォーマンス低下を経験する。
この現象をモデル出血(パラメータ変更とアーキテクチャ変更によるパフォーマンス低下)と定義する。
論文 参考訳(メタデータ) (2025-03-31T10:16:03Z) - In-Context Linear Regression Demystified: Training Dynamics and Mechanistic Interpretability of Multi-Head Softmax Attention [52.159541540613915]
本研究では,マルチヘッド型ソフトマックスアテンションモデルを用いて,線形データを用いたコンテキスト内学習を行う方法について検討する。
この結果から,学習内容の学習能力は,そのアーキテクチャと基礎となるデータ分布の集約的効果として,訓練されたトランスフォーマーから出現することが明らかとなった。
論文 参考訳(メタデータ) (2025-03-17T02:00:49Z) - Context Awareness Gate For Retrieval Augmented Generation [2.749898166276854]
Retrieval Augmented Generation (RAG) は、大規模言語モデル(LLM)の限界を軽減し、ドメイン固有の質問に答える手段として広く採用されている。
これまでの研究は主に、取得したデータチャンクの精度と品質を改善し、生成パイプライン全体のパフォーマンスを向上させることに重点を置いてきた。
オープンドメイン質問応答における無関係情報検索の効果について検討し,LLM出力の品質に対する顕著な有害な影響を明らかにする。
論文 参考訳(メタデータ) (2024-11-25T06:48:38Z) - Synergistic Signal Denoising for Multimodal Time Series of Structure
Vibration [9.144905626316534]
本稿では,構造的健康モニタリング(SHM)で広く用いられているマルチモーダル振動信号に固有の複雑さに適した,新しいディープラーニングアルゴリズムを提案する。
畳み込みと再帰的なアーキテクチャの融合により、アルゴリズムは局所化と長期化の両方の構造挙動を順応的にキャプチャする。
以上の結果から,複数のSHMシナリオにおける予測精度,早期損傷検出,適応性に有意な改善が認められた。
論文 参考訳(メタデータ) (2023-08-17T00:41:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。