論文の概要: Separating Constraint Compliance from Semantic Accuracy: A Novel Benchmark for Evaluating Instruction-Following Under Compression
- arxiv url: http://arxiv.org/abs/2512.17920v1
- Date: Tue, 02 Dec 2025 13:25:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-29 00:37:57.050395
- Title: Separating Constraint Compliance from Semantic Accuracy: A Novel Benchmark for Evaluating Instruction-Following Under Compression
- Title(参考訳): 意味的正確性から制約コンプライアンスを分離する:圧縮下での指示追従の評価のための新しいベンチマーク
- Authors: Rahul Baxi,
- Abstract要約: 大規模言語モデル(LLM)は、即時圧縮の下で劣化した性能を示す。
制約コンプライアンス(CC)と意味精度(SA)を測定するベンチマークであるCompressionDecay Test(CDCT)を導入する。
制約コンプライアンス(97.2%の有病率)における普遍的なU曲線パターンを観察する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) exhibit degraded performance under prompt compression, but the mechanisms remain poorly understood. We introduce the Compression-Decay Comprehension Test (CDCT), a benchmark that independently measures constraint compliance (CC) and semantic accuracy (SA) across compression levels. We evaluate 9 frontier LLMs across 8 concepts using 5 compression levels from extreme (c=0.0, ~2 words) to none (c=1.0, ~135 words). A three-judge LLM jury achieves almost perfect inter-rater agreement on CC (Fleiss' \k{appa}=0.90). We observe a universal U-curve pattern in constraint compliance (97.2% prevalence), with violations peaking at medium compression (c=0.5, ~27 words). Counterintuitively, models perform better at extreme compression than medium lengths. The dimensions are statistically orthogonal (r=0.193, p=0.084), with constraint effects 2.9x larger than semantic effects. Experimental validation via RLHF ablation confirms our constraint salience hypothesis: removing "helpfulness" signals improves CC by 598% on average (71/72 trials, p<0.001), with 79% achieving perfect compliance. This demonstrates that RLHF-trained helpfulness behaviors are the dominant cause of constraint violations at medium compression. Reasoning models outperform efficient models by 27.5% (Cohen's d=0.96). Our findings reveal a fundamental tension between RLHF alignment and instruction-following, providing actionable guidelines for improving deployed systems.
- Abstract(参考訳): 大規模言語モデル(LLM)は、即時圧縮下での劣化した性能を示すが、メカニズムはよく理解されていない。
本稿では,圧縮レベルの制約コンプライアンス (CC) と意味的精度 (SA) を独立に測定するベンチマークであるCompression-Decay Comprehension Test (CDCT) を紹介する。
極端(c=0.0, ~2語)から非(c=1.0, ~135語)までの5つの圧縮レベルを用いて、8つの概念にわたる9つのフロンティアLCMを評価する。
LLM審査員は、CC(Fleiss' \k{appa}=0.90)についてほぼ完全に相互に合意する。
制約順守(97.2%有病率)における普遍的なU曲線パターンを観察し、中圧縮(c=0.5, ~27語)における違反をピークとする。
反対に、モデルは中の長さよりも極端な圧縮において優れた性能を発揮する。
次元は統計的に直交する(r=0.193, p=0.084)。
RLHFアブレーションによる実験的検証は、我々の制約塩分濃度仮説を裏付けるものであり、"helpfulness"信号の除去は平均で598%改善し(71/72試験, p<0.001)、79%の完全コンプライアンスが達成された。
このことは、RLHFを訓練した有用性行動が中規模圧縮における制約違反の主要な原因であることを示している。
推論モデルは効率を27.5%向上させる(コーエンのd=0.96)。
本研究は,RLHFアライメントと命令追従の基本的な緊張関係を明らかにし,運用システムを改善するための実用的なガイドラインを提供する。
関連論文リスト
- Detecting AI Hallucinations in Finance: An Information-Theoretic Method Cuts Hallucination Rate by 92% [4.693270291878929]
大規模言語モデル(LLMs)は、流動的だがサポートされていない答え、幻覚を生み出す。
ECLIPSEは,モデルの意味エントロピーと利用可能な証拠の容量とのミスマッチとして幻覚を扱うフレームワークである。
論文 参考訳(メタデータ) (2025-12-02T05:25:48Z) - Choose Your Model Size: Any Compression of Large Language Models Without Re-Computation [10.376875638696504]
本研究は, 圧縮性能トレードオフを決定するアルゴリズム手法であるACIP (Any Compression via Iterative Pruning) を提案する。
線形層をSVDで再パラメータ化し,その特異値をスペーサ性誘導ペナルティで反復的にプルーする。
本稿では,ACIPが共通量子化に基づく圧縮手法をシームレスに補完することを示す。
論文 参考訳(メタデータ) (2025-02-03T18:40:58Z) - UNComp: Can Matrix Entropy Uncover Sparsity? -- A Compressor Design from an Uncertainty-Aware Perspective [85.08718140718707]
UNCompは不確実性を認識したフレームワークで、適応圧縮に使用できる空間パターンを明らかにする。
スパーシティパターンを詳細に分析する不確実性に注目して、UNCompはKVキャッシュサイズを4.74%に削減し、6%のプリフィルスピードアップを実現し、スループットを6.4倍改善した。
論文 参考訳(メタデータ) (2024-10-04T02:32:36Z) - FDC: Fast KV Dimensionality Compression for Efficient LLM Inference [11.194752361478567]
FDCは、既存のKV次元圧縮システムであるPaluで発生する減圧オーバーヘッドを排除し、注意時間を短縮する高速なKV次元圧縮システムである。
実験では、FDCはジョブ完了時間(JCT)を最大64%削減し、同じレイテンシで最大1.97倍のスループットを提供する。
最先端の消去法と量子化法がFDCと組み合わせられた場合、Paluと組み合わせた方法と同じような改善がなされる。
論文 参考訳(メタデータ) (2024-08-07T22:10:26Z) - Beyond Perplexity: Multi-dimensional Safety Evaluation of LLM Compression [33.45167213570976]
モデル圧縮が4次元に与える影響について検討する:(1)退化障害、すなわち、世代におけるバイアスと毒性、(2)表現障害、すなわち、識別的タスクにおけるバイアス、(3)方言バイアス、(4)言語モデリングと下流タスクのパフォーマンス。
解析の結果,圧縮が予期せぬ結果をもたらすことが明らかとなった。
論文 参考訳(メタデータ) (2024-07-06T05:56:22Z) - Communication-Efficient Distributed Learning with Local Immediate Error
Compensation [95.6828475028581]
本稿では,局所的即時誤差補償SGD (LIEC-SGD) 最適化アルゴリズムを提案する。
LIEC-SGDは、コンバージェンスレートまたは通信コストのいずれにおいても、以前の研究よりも優れている。
論文 参考訳(メタデータ) (2024-02-19T05:59:09Z) - Activations and Gradients Compression for Model-Parallel Training [85.99744701008802]
モデル並列分散トレーニングセットアップにおけるアクティベーションと勾配の同時圧縮が収束に与える影響について検討する。
グラデーションはアクティベーションよりも軽度な圧縮速度を必要とする。
実験では、TopKでトレーニングされたモデルが、推論中に圧縮も適用された場合にのみ正常に動作することが示されている。
論文 参考訳(メタデータ) (2024-01-15T15:54:54Z) - Optimal Rate Adaption in Federated Learning with Compressed
Communications [28.16239232265479]
フェデレートラーニングは高い通信オーバーヘッドを引き起こし、モデル更新の圧縮によって大幅に軽減される。
ネットワーク環境における 圧縮とモデルの精度のトレードオフは 未だ不明です
各繰り返しの圧縮を戦略的に調整することで最終モデルの精度を最大化する枠組みを提案する。
論文 参考訳(メタデータ) (2021-12-13T14:26:15Z) - On Biased Compression for Distributed Learning [55.89300593805943]
バイアス圧縮機が単一ノードと分散設定の両方において線形収束率をもたらすことを初めて示す。
理論的保証と実用性能を期待できる新しいバイアス圧縮機を提案する。
論文 参考訳(メタデータ) (2020-02-27T19:52:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。