論文の概要: Brevity Constraints Reverse Performance Hierarchies in Language Models
- arxiv url: http://arxiv.org/abs/2604.00025v1
- Date: Wed, 11 Mar 2026 06:47:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 02:36:13.203611
- Title: Brevity Constraints Reverse Performance Hierarchies in Language Models
- Title(参考訳): Brevity Constraints Reverse Performance Hierarchies in Language Models
- Authors: MD Azizul Hakim,
- Abstract要約: ベンチマーク問題の7.7%では、より大きな言語モデルは10-100倍のパラメータにもかかわらず、より小さな言語モデルよりも28.4ポイント低い。
我々は,このメカニズムを,過度な作業を通じてエラーを発生させる自発的なスケール依存的冗長性として認識する。
この結果から,大規模モデルの性能を最大化するには,スケールアウェア・プロンプト・エンジニアリングが必要であることが判明した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Standard evaluation protocols reveal a counterintuitive phenomenon: on 7.7% of benchmark problems spanning five datasets, larger language models underperform smaller ones by 28.4 percentage points despite 10-100x more parameters. Through systematic evaluation of 31 models (0.5B-405B parameters) across 1,485 problems, we identify the mechanism as spontaneous scale-dependent verbosity that introduces errors through overelaboration. Causal intervention experiments demonstrate this reflects correctable prompt design rather than fundamental capability limitations. Constraining large models to produce brief responses improves accuracy by 26 percentage points and reduces performance gaps by up to two-thirds. Most critically, brevity constraints completely reverse performance hierarchies on mathematical reasoning and scientific knowledge benchmarks, with large models achieving 7.7-15.9 percentage point advantages over small models -- direct inversions of the original gaps. These reversals prove large models possess superior latent capabilities that universal prompting masks. We validate findings through three independent contamination tests and demonstrate inverse scaling operates continuously across the full parameter spectrum, with dataset-specific optimal scales ranging from 0.5B to 3.0B parameters. Our results establish that maximizing large model performance requires scale-aware prompt engineering rather than universal evaluation protocols, with immediate implications for deployment: prompt adaptation simultaneously improves accuracy and reduces computational costs.
- Abstract(参考訳): 5つのデータセットにまたがるベンチマーク問題の7.7%では、より大きい言語モデルは10-100倍のパラメータにもかかわらず、より小さなものよりも28.4ポイント低い。
1,485の問題を対象とする31のモデル(0.5B-405Bパラメータ)を体系的に評価することにより,このメカニズムを過度な実験によってエラーを発生させる自発的なスケール依存的冗長性として認識する。
因果介入実験は、基本的な能力制限よりも修正可能なプロンプト設計を反映していることを示した。
短時間のレスポンスを生成するために大規模なモデルを制約することは、精度を26ポイント向上し、パフォーマンスギャップを最大3分の2削減する。
最も重要な点として、簡潔性の制約は、数学の推論と科学知識のベンチマークにおける性能の階層を完全に逆転させ、大きなモデルは7.7~15.9ポイントの小さなモデルよりも利点がある(オリジナルのギャップの直接逆転)。
これらの逆転は、大きなモデルがマスクを普遍的に促す優れた潜在能力を持っていることを証明している。
本研究は,3つの独立した汚染試験によって得られた知見を検証し,0.5Bから3.0Bパラメータのデータセット特異的最適スケールを用いて,逆スケーリングが全パラメータスペクトルにわたって連続的に動作することを示す。
この結果から,大規模モデルの性能を最大化するためには,評価プロトコルよりもスケールアウェア・プロンプト・エンジニアリングが必要であり,迅速な適応が精度を向上し,計算コストを削減できることがわかった。
関連論文リスト
- Stop Unnecessary Reflection: Training LRMs for Efficient Reasoning with Adaptive Reflection and Length Coordinated Penalty [42.57318973226598]
ARLCPは推論効率と解の精度のバランスをとるために設計された強化学習フレームワークである。
我々は,DeepSeek-R1-Distill-Qwen-1.5BモデルとDeepSeek-R1-Distill-Qwen-7Bモデルを用いて,5つの数学的推論ベンチマークの評価を行った。
論文 参考訳(メタデータ) (2026-02-12T16:04:00Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - Dynamic Template Selection for Output Token Generation Optimization: MLP-Based and Transformer Approaches [0.0]
動的テンプレート選択は応答品質を損なうことなく大幅なコスト削減を実現する。
この研究は、機械学習の理論的基礎を持つ形式的問題定式化、それに対応する複雑性解析を伴う4つのアルゴリズム、生産システム全体にわたる広範な実証検証など、いくつかの重要な要素に貢献している。
論文 参考訳(メタデータ) (2025-11-17T21:00:22Z) - Systematic Optimization of Open Source Large Language Models for Mathematical Reasoning [1.8254074486719114]
本稿では,数学的推論タスクのための微調整モデルパラメータについて実践的検討を行う。
数学的推論タスクに関する5つの最先端モデルに対して、水平に最適化されたフレームワークが導入された。
論文 参考訳(メタデータ) (2025-09-08T21:31:43Z) - Enhancement Report Approval Prediction: A Comparative Study of Large Language Models [10.243182983724585]
拡張レポート(ER)は、ユーザと開発者の間の重要なコミュニケーションチャネルとして機能し、ソフトウェア改善のための貴重な提案を捉えます。
この課題に対処するために、研究の焦点として強化報告承認予測(ERAP)が登場している。
大規模言語モデル(LLM)の最近の進歩は、予測精度を向上する新たな機会を提供する。
論文 参考訳(メタデータ) (2025-06-18T03:08:04Z) - Reasoning Models Are More Easily Gaslighted Than You Think [85.84943447589511]
我々はOpenAIのo4-mini、Claude-3.7-Sonnet、Gemini-2.5-Flashの3つの最先端推論モデルを評価する。
ガス灯消火プロンプトによる精度低下が認められた。
GaslightingBench-Rは、推論モデルの認識可能性を評価するために設計された新しい診断ベンチマークである。
論文 参考訳(メタデータ) (2025-06-11T12:52:25Z) - EfficientLLM: Efficiency in Large Language Models [64.3537131208038]
大規模言語モデル(LLM)は大きな進歩を導いてきたが、その増加とコンテキストウィンドウは計算、エネルギー、金銭的コストを禁止している。
本稿では,新しいベンチマークであるEfficientLLMを紹介する。
論文 参考訳(メタデータ) (2025-05-20T02:27:08Z) - Ensuring Reproducibility in Generative AI Systems for General Use Cases: A Framework for Regression Testing and Open Datasets [0.0]
汎用ユースケースの回帰テストを実行するベンチマークであるGPR-benchを紹介する。
より新しいモデルは一般的に正確性を改善するが、違いは控えめで統計的に有意ではない。
対照的に、簡潔な命令は簡潔さを著しく向上させ、迅速なエンジニアリングの有効性を実証する。
論文 参考訳(メタデータ) (2025-05-02T12:31:43Z) - R-PRM: Reasoning-Driven Process Reward Modeling [53.06844294668382]
プロセス・リワード・モデル(Process Reward Models, PRM)は、各推論ステップを評価することによって、有望なソリューションとして登場した。
既存のPRMは評価スコアを直接出力し、学習効率と評価精度の両方を制限する。
推論駆動プロセスリワードモデリング(R-PRM)を提案する。
R-PRMは限られたアノテーションからシードデータを生成し、効果的にモデルの推論能力をブートストラップします。
論文 参考訳(メタデータ) (2025-03-27T09:23:08Z) - Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。
これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。
本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-03-06T15:36:06Z) - Predictor-Corrector Enhanced Transformers with Exponential Moving Average Coefficient Learning [73.73967342609603]
トラクションエラーを最小限に抑えるための予測-相関学習フレームワークを提案する。
また、高次予測器を強化するために、指数関数的移動平均ベース係数学習法を提案する。
我々のモデルは3.8BのDeepNetを平均2.9のSacreBLEUで上回り、1/3のパラメータしか使用していない。
論文 参考訳(メタデータ) (2024-11-05T12:26:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。