論文の概要: HE-SNR: Uncovering Latent Logic via Entropy for Guiding Mid-Training on SWE-BENCH
- arxiv url: http://arxiv.org/abs/2601.20255v1
- Date: Wed, 28 Jan 2026 05:03:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.775531
- Title: HE-SNR: Uncovering Latent Logic via Entropy for Guiding Mid-Training on SWE-BENCH
- Title(参考訳): HE-SNR:SWE-BENCHにおける中級学習指導のためのエントロピーによる潜在論理の発見
- Authors: Yueyang Wang, Jiawei Fu, Baolong Bi, Xili Wang, Xiaoqing Liu,
- Abstract要約: SWE-benchは、複雑なソフトウェアエンジニアリングタスクで大規模言語モデルを評価するための主要なベンチマークとして登場した。
Perplexity(PPL)のような標準メトリクスは、"Long-Context Tax"によって妥協され、下流SWEのパフォーマンスと弱い相関を示す。
提案するエントロピー圧縮仮説は,スカラートップ1圧縮ではなく,エントロピー圧縮状態に不確実性を構築する能力によって,インテリジェンスを再定義するものである。
- 参考スコア(独自算出の注目度): 11.643006508214887
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: SWE-bench has emerged as the premier benchmark for evaluating Large Language Models on complex software engineering tasks. While these capabilities are fundamentally acquired during the mid-training phase and subsequently elicited during Supervised Fine-Tuning (SFT), there remains a critical deficit in metrics capable of guiding mid-training effectively. Standard metrics such as Perplexity (PPL) are compromised by the "Long-Context Tax" and exhibit weak correlation with downstream SWE performance. In this paper, we bridge this gap by first introducing a rigorous data filtering strategy. Crucially, we propose the Entropy Compression Hypothesis, redefining intelligence not by scalar Top-1 compression, but by the capacity to structure uncertainty into Entropy-Compressed States of low orders ("reasonable hesitation"). Grounded in this fine-grained entropy analysis, we formulate a novel metric, HE-SNR (High-Entropy Signal-to-Noise Ratio). Validated on industrial-scale Mixture-of-Experts (MoE) models across varying context windows (32K/128K), our approach demonstrates superior robustness and predictive power. This work provides both the theoretical foundation and practical tools for optimizing the latent potential of LLMs in complex engineering domains.
- Abstract(参考訳): SWE-benchは、複雑なソフトウェアエンジニアリングタスクで大規模言語モデルを評価するための主要なベンチマークとして登場した。
これらの能力は、中級トレーニングの段階で根本的に獲得され、その後、スーパービジョンファインチューニング(SFT)によって引き起こされるが、中級トレーニングを効果的に導くことのできるメトリクスには重大な欠陥がある。
Perplexity(PPL)のような標準メトリクスは、"Long-Context Tax"によって妥協され、下流SWEのパフォーマンスと弱い相関を示す。
本稿では,厳密なデータフィルタリング戦略を導入することで,このギャップを埋める。
重要なことは,エントロピー圧縮仮説(Entropy Compression hypothesis)を提案し,スカラートップ1圧縮ではなく,低次エントロピー圧縮状態に不確実性を構築する能力によってインテリジェンスを再定義する("reasonable hesitation")。
この微細エントロピー解析に基づいて、新しい計量HE-SNR(High-Entropy Signal-to-Noise Ratio)を定式化する。
産業規模のMixture-of-Experts(MoE)モデルに様々なコンテキストウインドウ(32K/128K)を用いた検証を行い,高い堅牢性と予測力を示す。
この研究は、複雑な工学領域におけるLLMの潜在ポテンシャルを最適化するための理論的基礎と実践的ツールの両方を提供する。
関連論文リスト
- How to Set the Learning Rate for Large-Scale Pre-training? [73.03133634525635]
我々はこの調査を2つの異なる研究パラダイムであるフィッティングとトランスファーに定式化する。
フィッティングパラダイムでは,探索係数のスケーリング法則を導入し,O(n3) から O(n*C_D*C_) への探索複雑性を予測モデルにより効果的に低減する。
我々は、$Transferの原則をMixture of Experts (MoE)アーキテクチャに拡張し、モデル深さ、重量減衰、トークン水平線を含む適用範囲を広げる。
論文 参考訳(メタデータ) (2026-01-08T15:55:13Z) - CoT-Saliency: Unified Chain-of-Thought Reasoning for Heterogeneous Saliency Tasks [96.64597365827046]
本稿では,3つの運用上不均一なサリエンシタスクを共同で処理する,最初の統合フレームワークを提案する。
タスクの不均一性を橋渡しする視覚言語モデル(VLM)において、チェーン・オブ・ソート(CoT)推論プロセスを導入する。
我々は,全タスクにまたがる特別なSOTA手法と強力なクローズドソースVLMの整合性を示す。
論文 参考訳(メタデータ) (2025-11-01T04:37:01Z) - A Technical Exploration of Causal Inference with Hybrid LLM Synthetic Data [3.121656940390038]
大規模言語モデル(LLM)は、合成データを生成する柔軟な手段を提供する。
既存のアプローチでは、平均処理効果(ATE)のような主要な因果パラメータを保存できない場合が多い。
論文 参考訳(メタデータ) (2025-10-31T23:34:44Z) - MaP: A Unified Framework for Reliable Evaluation of Pre-training Dynamics [72.00014675808228]
大規模言語モデルの不安定性評価プロセスは、真の学習力学を曖昧にする。
textbfMaPは、アンダーラインMergingアンダーラインとアンダーラインPass@kメトリックを統合するフレームワークです。
実験により、MaPはよりスムーズな性能曲線を示し、ラン間分散を低減し、より一貫性のあるランキングを保証する。
論文 参考訳(メタデータ) (2025-10-10T11:40:27Z) - PT$^2$-LLM: Post-Training Ternarization for Large Language Models [52.4629647715623]
大きな言語モデル(LLM)は、様々なタスクにまたがる印象的な機能を示しているが、その大きなメモリと計算能力は、デプロイメントを妨げている。
PT$2$-LLMを提案する。
その中核は2段精製パイプラインを備えた非対称3次量子化器である。
論文 参考訳(メタデータ) (2025-09-27T03:01:48Z) - CARFT: Boosting LLM Reasoning via Contrastive Learning with Annotated Chain-of-Thought-based Reinforced Fine-Tuning [25.142128256576985]
注釈付きCoTをベースとしたReinforced Fine-Tuningアプローチ,すなわちTheNameを用いたコントラスト学習を提案し,大規模言語モデルの推論性能を向上させる。
提案手法は、利用可能な注釈付きCoTを十分に活用するだけでなく、教師なし学習信号を付加することにより微調整手順を安定化する。
論文 参考訳(メタデータ) (2025-08-21T00:20:47Z) - Compressing Chain-of-Thought in LLMs via Step Entropy [12.576398947428988]
Chain-of-Thought (CoT) を用いた大規模言語モデル (LLM) は複雑な推論において優れるが、かなりの冗長性を持つ思考プロセスを生成し、推論コストが増加し効率が低下する。
本稿では,ステップエントロピーに基づく新しいCoT圧縮フレームワークを提案する。これは,個々の推論ステップの情報的寄与を定量化し,冗長性を識別する指標である。
論文 参考訳(メタデータ) (2025-08-05T11:48:18Z) - Implicit Reward as the Bridge: A Unified View of SFT and DPO Connections [65.36449542323277]
本稿では,Large Language Model (LLM) 後の学習において,SFT(Supervised Fine-Tuning) と優先学習を統合した理論フレームワークを提案する。
そこで本研究では,学習率の簡易かつ効果的な削減手法を提案する。
論文 参考訳(メタデータ) (2025-06-15T05:42:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。