論文の概要: Bridging Information-Theoretic and Geometric Compression in Language
Models
- arxiv url: http://arxiv.org/abs/2310.13620v2
- Date: Thu, 9 Nov 2023 14:03:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-10 17:35:04.205622
- Title: Bridging Information-Theoretic and Geometric Compression in Language
Models
- Title(参考訳): 言語モデルにおける情報理論と幾何圧縮の橋渡し
- Authors: Emily Cheng, Corentin Kervadec, and Marco Baroni
- Abstract要約: 言語モデルが人間の言語を忠実にモデル化するには、膨大な無限の情報を比較的少数の次元に圧縮する必要がある。
言語データセットの高圧縮は,そのデータセットへの迅速な適応を予測できることを示す。
本分析の実践的副産物として,言語データを用いた本質的次元推定器の電池評価を行った。
- 参考スコア(独自算出の注目度): 11.96710733444808
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: For a language model (LM) to faithfully model human language, it must
compress vast, potentially infinite information into relatively few dimensions.
We propose analyzing compression in (pre-trained) LMs from two points of view:
geometric and information-theoretic. We demonstrate that the two views are
highly correlated, such that the intrinsic geometric dimension of linguistic
data predicts their coding length under the LM. We then show that, in turn,
high compression of a linguistic dataset predicts rapid adaptation to that
dataset, confirming that being able to compress linguistic information is an
important part of successful LM performance. As a practical byproduct of our
analysis, we evaluate a battery of intrinsic dimension estimators for the first
time on linguistic data, showing that only some encapsulate the relationship
between information-theoretic compression, geometric compression, and
ease-of-adaptation.
- Abstract(参考訳): 言語モデル(LM)が人間の言語を忠実にモデル化するには、膨大な無限の情報を比較的少数の次元に圧縮する必要がある。
本稿では,(事前学習された)LMの圧縮を幾何学的および情報理論の2点から解析する。
言語データの内在的な幾何学的次元は, LMの下での符号化長を予測する。
次に,言語データセットの高圧縮は,そのデータセットへの迅速な適応を予測し,言語情報を圧縮できることがLM性能の重要な部分であることを確認した。
本分析の実践的副産物として,言語データから本質的次元推定器の電池を初めて評価し,情報理論的圧縮,幾何学的圧縮,適応の容易性の関係をカプセル化したもののみを示した。
関連論文リスト
- Decomposition of surprisal: Unified computational model of ERP components in language processing [7.760815504640362]
脳内の人間の言語処理に関する情報理論モデルを構築し、入力された言語入力を最初は浅瀬で処理し、その後はより深く処理する。
単語の文脈における情報内容(副次的)は、(A)単語の浅い処理困難を知らせ、N400信号に対応する浅層代名詞と、(B)浅い表現と深い表現との相違を反映し、P600信号に対応する深部代名詞の2つに分解できることを示す。
論文 参考訳(メタデータ) (2024-09-10T18:14:02Z) - Compression Represents Intelligence Linearly [14.651664954289354]
大規模言語モデル(LLM)は圧縮と等価であることが示されている。
このような魅力的な議論にもかかわらず、圧縮と知性の間の相互作用には実証的な証拠はほとんど存在しない。
12のベンチマークで、さまざまな組織から生まれた31のパブリックLLMをまとめました。
注目すべきは、LLMのインテリジェンスは、外部テキストコーパスを圧縮する能力とほぼ線形に相関していることである。
論文 参考訳(メタデータ) (2024-04-15T17:03:41Z) - TexShape: Information Theoretic Sentence Embedding for Language Models [5.265661844206274]
本稿では,情報理論のレンズを用いて,文を最適化された表現に符号化する際の課題について論じる。
我々は、Kulback-Leibler分散のDonsker-Varadhan定義を用いて、相互情報の実証的な推定を行う。
本実験は, 最大目標情報と最小機密情報を, 負圧縮比で保持する上で, 顕著な進歩を示すものである。
論文 参考訳(メタデータ) (2024-02-05T22:48:28Z) - Evaluating Neural Language Models as Cognitive Models of Language
Acquisition [4.779196219827507]
我々は、ニューラルネットワークモデルの構文能力を評価するための最も顕著なベンチマークは、十分に厳密でないかもしれないと論じる。
小規模データモデリングによる子言語習得を訓練すると、LMは単純なベースラインモデルで容易にマッチングできる。
子どもの言語習得に関する実証的研究と、LMをよりよく結びつけるための提案をまとめて締めくくった。
論文 参考訳(メタデータ) (2023-10-31T00:16:17Z) - RegaVAE: A Retrieval-Augmented Gaussian Mixture Variational Auto-Encoder
for Language Modeling [79.56442336234221]
可変オートエンコーダ(VAE)に基づく検索拡張言語モデルであるRegaVAEを紹介する。
テキストコーパスを潜在空間にエンコードし、ソースとターゲットの両方のテキストから現在と将来の情報をキャプチャする。
各種データセットに対する実験結果から,テキスト生成品質と幻覚除去の大幅な改善が示された。
論文 参考訳(メタデータ) (2023-10-16T16:42:01Z) - In-context Autoencoder for Context Compression in a Large Language Model [70.7621953091318]
In-context Autoencoder (ICAE) を提案し、長いコンテキストを短いメモリスロットに圧縮する。
ICAEは、大量のテキストデータに基づく自動符号化と言語モデリングの両方の目的を用いて、まず事前訓練を行う。
論文 参考訳(メタデータ) (2023-07-13T17:59:21Z) - Synthetic Pre-Training Tasks for Neural Machine Translation [16.6378815054841]
我々のゴールは、合成資源を使用する場合の事前学習モデルの有効性に寄与する要因を理解することである。
本稿では,語彙的および構造的知識のレベルが異なる事前学習型翻訳モデルを提案する。
複数の言語ペアに対する実験により,高レベルの難読化や純粋に合成された並列データであっても,事前学習のメリットが実現できることが明らかになった。
論文 参考訳(メタデータ) (2022-12-19T21:34:00Z) - What Do Compressed Multilingual Machine Translation Models Forget? [102.50127671423752]
平均BLEUはわずかに減少するが,表現不足言語の性能は著しく低下する。
圧縮は,高リソース言語においても,本質的な性差や意味バイアスを増幅することを示した。
論文 参考訳(メタデータ) (2022-05-22T13:54:44Z) - A Latent-Variable Model for Intrinsic Probing [93.62808331764072]
固有プローブ構築のための新しい潜在変数定式化を提案する。
我々は、事前訓練された表現が言語間交互に絡み合ったモルフォシンタクスの概念を発達させる経験的証拠を見出した。
論文 参考訳(メタデータ) (2022-01-20T15:01:12Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - Data Augmentation for Spoken Language Understanding via Pretrained
Language Models [113.56329266325902]
音声言語理解(SLU)モデルの訓練は、しばしばデータ不足の問題に直面している。
我々は,事前学習言語モデルを用いたデータ拡張手法を提案し,生成した発話の変動性と精度を向上した。
論文 参考訳(メタデータ) (2020-04-29T04:07:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。