論文の概要: Information Capacity: Evaluating the Efficiency of Large Language Models via Text Compression
- arxiv url: http://arxiv.org/abs/2511.08066v3
- Date: Fri, 14 Nov 2025 01:33:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 13:23:30.618523
- Title: Information Capacity: Evaluating the Efficiency of Large Language Models via Text Compression
- Title(参考訳): 情報容量:テキスト圧縮による大規模言語モデルの効率評価
- Authors: Cheng Yuan, Jiawei Shao, Chi Zhang, Xuelong Li,
- Abstract要約: テキスト圧縮性能に基づくモデル効率の指標である情報容量を導入する。
主流のオープンソースモデルに対する実証的な評価は、シリーズ内のさまざまなサイズのモデルが一貫した情報容量を示すことを示している。
情報容量の特徴的な特徴は、入力と出力の両方のトークン数に影響を与えるトークン化効率が組み込まれていることである。
- 参考スコア(独自算出の注目度): 53.39128997308138
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent years have witnessed the rapid advancements of large language models (LLMs) and their expanding applications, leading to soaring demands for computational resources. The widespread adoption of test-time scaling further aggravates the tension between model capability and resource consumption, highlighting the importance of inference efficiency. However, a unified metric that accurately reflects an LLM's efficiency across different model sizes and architectures remains absent. Motivated by the correlation between compression and intelligence, we introduce information capacity, a measure of model efficiency based on text compression performance relative to computational complexity. Larger models can predict the next token more accurately, achieving greater compression gains but at higher computational costs. Empirical evaluations on mainstream open-source models show that models of varying sizes within a series exhibit consistent information capacity. This metric enables a fair efficiency comparison across model series and accurate performance prediction within a model series. A distinctive feature of information capacity is that it incorporates tokenizer efficiency, which affects both input and output token counts but is often neglected in LLM evaluations. We assess the information capacity of 49 models on 5 heterogeneous datasets and observe consistent results on the influences of tokenizer efficiency, pretraining data, and the mixture-of-experts architecture.
- Abstract(参考訳): 近年、大規模言語モデル(LLM)とその拡張された応用が急速に進歩し、計算資源の需要が急増している。
テストタイムスケーリングの普及により、モデル能力とリソース消費の間の緊張がさらに増大し、推論効率の重要性が強調される。
しかし、異なるモデルサイズとアーキテクチャにわたるLLMの効率を正確に反映した統一された計量は、いまだに存在しない。
圧縮とインテリジェンスとの相関により,計算複雑性に対するテキスト圧縮性能に基づくモデル効率の尺度である情報キャパシティを導入する。
より大きなモデルは、より正確に次のトークンを予測することができ、より高い圧縮ゲインを達成するが、より高い計算コストで達成できる。
主流のオープンソースモデルに対する実証的な評価は、シリーズ内のさまざまなサイズのモデルが一貫した情報容量を示すことを示している。
この計量は、モデル系列間の公正な効率比較とモデル系列内の正確な性能予測を可能にする。
情報容量の特徴的な特徴は、入力と出力の両方のトークン数に影響を与えるトークン化効率を取り入れているが、LLM評価では無視されることが多いことである。
我々は,5つの異種データセット上の49モデルの情報容量を評価し,トークン化効率,事前学習データ,および混合専門家アーキテクチャの影響について一貫した結果を観察する。
関連論文リスト
- Scaling Laws of Motion Forecasting and Planning - Technical Report [21.486301157587132]
本研究では,エンコーダ・デコーダ・オートレグレッシブ・トランスモデルの実証スケーリング法則について検討する。
モデルトレーニング損失とモデル評価指標との間には,強い相関関係がみられた。
我々は,エゴエージェントの性能向上のために,他のエージェントの一般的なログ化された運転データに対するトレーニングの有用性を短時間で検討した。
論文 参考訳(メタデータ) (2025-06-09T20:54:23Z) - Exploring Training and Inference Scaling Laws in Generative Retrieval [50.82554729023865]
生成検索は、検索を自己回帰生成タスクとして再構成し、大きな言語モデルがクエリから直接ターゲット文書を生成する。
生成的検索におけるトレーニングと推論のスケーリング法則を体系的に検討し,モデルのサイズ,トレーニングデータスケール,推論時間計算が協調的に性能に与える影響について検討した。
論文 参考訳(メタデータ) (2025-03-24T17:59:03Z) - Feature Alignment-Based Knowledge Distillation for Efficient Compression of Large Language Models [4.737806982257592]
本研究では,大規模言語モデルと特徴アライメントに基づく知識蒸留アルゴリズムを提案する。
提案モデルは, パープレキシティ, BLEU, ROUGE, CER などの評価指標を用いて, 最先端の GPT-4 モデルに非常に近い性能を示す。
論文 参考訳(メタデータ) (2024-12-27T04:37:06Z) - Optimizing Sequential Recommendation Models with Scaling Laws and Approximate Entropy [104.48511402784763]
SRモデルの性能法則は,モデルの性能とデータ品質の関係を理論的に調査し,モデル化することを目的としている。
データ品質を評価するために、従来のデータ量メトリクスと比較して、より曖昧なアプローチを示すために、近似エントロピー(ApEn)を提案する。
論文 参考訳(メタデータ) (2024-11-30T10:56:30Z) - Evaluating the Impact of Compression Techniques on Task-Specific Performance of Large Language Models [0.0]
大規模言語モデル(LLM)は強力な能力を提供するが、かなりの計算コストがかかる。
本研究では,LLaMA-2-7Bモデルに対する圧縮法の影響について検討した。
SparseGPTとWandaは50%の間隔でも難易度を保っているが,下流タスクでは著しく低下している。
論文 参考訳(メタデータ) (2024-09-17T14:34:11Z) - Dynamics of Instruction Fine-Tuning for Chinese Large Language Models [19.832906541004114]
本研究では,中国語大言語モデルの指導指導におけるデータ量,モデルサイズ,データ構築方法の影響を体系的に検討する。
実験では,7bから33bパラメータのモデルを用いて3つの重要な結果を得た。
論文 参考訳(メタデータ) (2023-10-30T15:37:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。