論文の概要: Compression Represents Intelligence Linearly
- arxiv url: http://arxiv.org/abs/2404.09937v2
- Date: Mon, 19 Aug 2024 13:55:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 02:58:10.058284
- Title: Compression Represents Intelligence Linearly
- Title(参考訳): 圧縮はインテリジェンスをリニアに表現する
- Authors: Yuzhen Huang, Jinghan Zhang, Zifei Shan, Junxian He,
- Abstract要約: 大規模言語モデル(LLM)は圧縮と等価であることが示されている。
このような魅力的な議論にもかかわらず、圧縮と知性の間の相互作用には実証的な証拠はほとんど存在しない。
12のベンチマークで、さまざまな組織から生まれた31のパブリックLLMをまとめました。
注目すべきは、LLMのインテリジェンスは、外部テキストコーパスを圧縮する能力とほぼ線形に相関していることである。
- 参考スコア(独自算出の注目度): 14.651664954289354
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There is a belief that learning to compress well will lead to intelligence. Recently, language modeling has been shown to be equivalent to compression, which offers a compelling rationale for the success of large language models (LLMs): the development of more advanced language models is essentially enhancing compression which facilitates intelligence. Despite such appealing discussions, little empirical evidence is present for the interplay between compression and intelligence. In this work, we examine their relationship in the context of LLMs, treating LLMs as data compressors. Given the abstract concept of "intelligence", we adopt the average downstream benchmark scores as a surrogate, specifically targeting intelligence related to knowledge and commonsense, coding, and mathematical reasoning. Across 12 benchmarks, our study brings together 31 public LLMs that originate from diverse organizations. Remarkably, we find that LLMs' intelligence -- reflected by average benchmark scores -- almost linearly correlates with their ability to compress external text corpora. These results provide concrete evidence supporting the belief that superior compression indicates greater intelligence. Furthermore, our findings suggest that compression efficiency, as an unsupervised metric derived from raw text corpora, serves as a reliable evaluation measure that is linearly associated with the model capabilities. We open-source our compression datasets as well as our data collection pipelines to facilitate future researchers to assess compression properly.
- Abstract(参考訳): うまく圧縮する学習が知性につながるという信念がある。
近年、言語モデリングは圧縮と等価であることが示されており、これは大規模言語モデル(LLM)の成功に対する説得力のある根拠となっている。
このような魅力的な議論にもかかわらず、圧縮と知性の間の相互作用には実証的な証拠はほとんど存在しない。
本研究では, LLMをデータ圧縮機として扱うことで, LLMの文脈におけるそれらの関係を考察する。
インテリジェンス」という抽象的な概念を考えると、平均ダウンストリームベンチマークスコアは、知識や常識、コーディング、数学的推論に関連するインテリジェンスを特に対象とするサロゲートとして採用する。
12のベンチマークで、さまざまな組織から生まれた31のパブリックLLMをまとめました。
注目すべきは、平均ベンチマークスコアによって反映されるLCMのインテリジェンスが、外部テキストコーパスを圧縮する能力とほぼ線形に相関していることである。
これらの結果は、優れた圧縮はより大きな知性を示すという信念を裏付ける具体的な証拠を提供する。
さらに, 圧縮効率は, 原文コーパスから導出される教師なしの指標として, モデル能力に線形に関連付けられた信頼性評価指標として機能することが示唆された。
我々は、将来の研究者が圧縮を適切に評価できるように、圧縮データセットとデータ収集パイプラインをオープンソース化しました。
関連論文リスト
- Ranking LLMs by compression [13.801767671391604]
圧縮の先駆けとして5つの大きな言語モデルを使用し、課題のある自然言語処理タスクのパフォーマンスを比較します。
実験の結果,圧縮比とモデル性能は正の相関関係にあることが明らかとなった。
論文 参考訳(メタデータ) (2024-06-20T10:23:38Z) - LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。
本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。
論文 参考訳(メタデータ) (2024-05-09T11:49:05Z) - ExaRanker-Open: Synthetic Explanation for IR using Open-Source LLMs [60.81649785463651]
ExaRanker-Openを導入し、オープンソース言語モデルを適用して、説明を生成する。
以上の結果から,LLMのサイズが大きくなるにつれて,説明の組み込みが神経ランク付けを継続的に促進することが明らかとなった。
論文 参考訳(メタデータ) (2024-02-09T11:23:14Z) - The Cost of Compression: Investigating the Impact of Compression on
Parametric Knowledge in Language Models [11.156816338995503]
大規模言語モデル(LLM)は、より高速な推論、メモリフットプリントの縮小、ローカルデプロイメントを可能にする。
2つの標準的な圧縮手法はプルーニングと量子化であり、前者はモデル層における冗長な接続を排除し、後者はより少ないビットでモデルパラメータを表現する。
LLM圧縮に関する既存の研究は、主にパープレキシティやダウンストリームタスクの精度といった一般的な指標のパフォーマンスに焦点を当てている。
パラメトリックな知識を測定するような、よりきめ細かいメトリクスは、いまだにかなり過小評価されている。
論文 参考訳(メタデータ) (2023-12-01T22:27:12Z) - Bridging Information-Theoretic and Geometric Compression in Language
Models [11.96710733444808]
言語モデルが人間の言語を忠実にモデル化するには、膨大な無限の情報を比較的少数の次元に圧縮する必要がある。
言語データセットの高圧縮は,そのデータセットへの迅速な適応を予測できることを示す。
本分析の実践的副産物として,言語データを用いた本質的次元推定器の電池評価を行った。
論文 参考訳(メタデータ) (2023-10-20T16:12:13Z) - Compressing LLMs: The Truth is Rarely Pure and Never Simple [90.05366363633568]
Knowledge-Intensive Compressed LLM BenchmarKは、圧縮された大言語モデルの評価プロトコルを再定義することを目的としている。
LLM-KICKは、現在のSoTA圧縮方式の多くの有利な利点と不運な点を明らかにしている。
LLM-KICKは、言語理解、推論、生成、テキスト内検索、テキスト内要約などのための圧縮LLMの能力に一様にアクセスできるように設計されている。
論文 参考訳(メタデータ) (2023-10-02T17:42:37Z) - Do Compressed LLMs Forget Knowledge? An Experimental Study with
Practical Implications [63.29358103217275]
大規模言語モデル(LLM)は、特に知識集約的なタスクにおいて、パフォーマンスを低下させることが多い。
損傷の性質に関する2つの予想を提案する。1つは、圧縮後に忘れられた(または消された)知識である。
Inference-time Dynamic Prompting (IDP)と呼ばれる変種を導入し、推論オーバーヘッドを発生させることなく、迅速な多様性を効果的に向上させることができる。
論文 参考訳(メタデータ) (2023-10-02T03:12:06Z) - In-context Autoencoder for Context Compression in a Large Language Model [70.7621953091318]
In-context Autoencoder (ICAE) を提案し、長いコンテキストを短いメモリスロットに圧縮する。
ICAEは、大量のテキストデータに基づく自動符号化と言語モデリングの両方の目的を用いて、まず事前訓練を行う。
論文 参考訳(メタデータ) (2023-07-13T17:59:21Z) - Great Truths are Always Simple: A Rather Simple Knowledge Encoder for
Enhancing the Commonsense Reasoning Capacity of Pre-Trained Models [89.98762327725112]
自然言語における常識推論は、人工知能システムの望ましい能力である。
複雑なコモンセンス推論タスクを解決するための典型的な解決策は、知識対応グラフニューラルネットワーク(GNN)エンコーダで事前訓練された言語モデル(PTM)を強化することである。
有効性にもかかわらず、これらのアプローチは重いアーキテクチャ上に構築されており、外部知識リソースがPTMの推論能力をどのように改善するかを明確に説明できない。
論文 参考訳(メタデータ) (2022-05-04T01:27:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。