論文の概要: Approximating Human-Like Few-shot Learning with GPT-based Compression
- arxiv url: http://arxiv.org/abs/2308.06942v1
- Date: Mon, 14 Aug 2023 05:22:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-15 14:25:52.234002
- Title: Approximating Human-Like Few-shot Learning with GPT-based Compression
- Title(参考訳): GPTに基づく圧縮による人型Few-shot学習の近似
- Authors: Cynthia Huang, Yuqing Xie, Zhiying Jiang, Jimmy Lin, Ming Li
- Abstract要約: 我々は、推論中にデータ圧縮を可能にする、人間のような学習能力を備えた生成事前学習モデルを提案する。
本稿では,GPT(Generative Pre-trained Transformer)を用いてコルモゴロフ複雑性を近似する手法を提案する。
- 参考スコア(独自算出の注目度): 55.699707962017975
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we conceptualize the learning process as information
compression. We seek to equip generative pre-trained models with human-like
learning capabilities that enable data compression during inference. We present
a novel approach that utilizes the Generative Pre-trained Transformer (GPT) to
approximate Kolmogorov complexity, with the aim of estimating the optimal
Information Distance for few-shot learning. We first propose using GPT as a
prior for lossless text compression, achieving a noteworthy compression ratio.
Experiment with LLAMA2-7B backbone achieves a compression ratio of 15.5 on
enwik9. We justify the pre-training objective of GPT models by demonstrating
its equivalence to the compression length, and, consequently, its ability to
approximate the information distance for texts. Leveraging the approximated
information distance, our method allows the direct application of GPT models in
quantitative text similarity measurements. Experiment results show that our
method overall achieves superior performance compared to embedding and prompt
baselines on challenging NLP tasks, including semantic similarity, zero and
one-shot text classification, and zero-shot text ranking.
- Abstract(参考訳): 本研究では,学習過程を情報圧縮として概念化する。
我々は、推論中にデータ圧縮を可能にする人間のような学習能力を備えた生成型事前学習モデルの実現を目指す。
本稿では, 生成前学習トランス(gpt)を用いてコルモゴロフの複雑性を近似し, 最小ショット学習のための最適情報距離を推定する新しい手法を提案する。
まず,gptをロスレステキスト圧縮の前処理として使用し,注目すべき圧縮率を達成することを提案する。
LLAMA2-7Bのバックボーンによる実験は、enwik9の圧縮比15.5に達する。
本稿では,gptモデルの事前学習目的を,圧縮長と等価性を示すことによって正当化し,テキストの情報距離を近似する能力を示す。
本手法は, 近似情報距離を利用して, 定量的テキスト類似度測定におけるGPTモデルの直接適用を可能にする。
実験の結果,提案手法は,意味的類似性,ゼロおよびワンショットテキスト分類,ゼロショットテキストランキングなどのnlp課題に対して,埋め込みおよびプロンプトベースラインよりも総合的に優れた性能が得られることがわかった。
関連論文リスト
- Selection-p: Self-Supervised Task-Agnostic Prompt Compression for Faithfulness and Transferability [67.77534983324229]
本稿では,非形式的トークンを識別する統一圧縮法を開発するために,大規模言語モデルの能力について検討する。
実験により、Selection-pは様々な分類タスクで最先端のパフォーマンスを達成することが示された。
以前の作業と比べて、異なるモデルに対して優れた転送性を示す。
論文 参考訳(メタデータ) (2024-10-15T17:05:25Z) - Point Cloud Compression with Bits-back Coding [32.9521748764196]
本稿では,深層学習に基づく確率モデルを用いて,点雲情報のシャノンエントロピーを推定する。
点雲データセットのエントロピーを推定すると、学習されたCVAEモデルを用いて点雲の幾何学的属性を圧縮する。
本手法の新規性は,CVAEの学習潜在変数モデルを用いて点雲データを圧縮することである。
論文 参考訳(メタデータ) (2024-10-09T06:34:48Z) - Ranking LLMs by compression [13.801767671391604]
圧縮の先駆けとして5つの大きな言語モデルを使用し、課題のある自然言語処理タスクのパフォーマンスを比較します。
実験の結果,圧縮比とモデル性能は正の相関関係にあることが明らかとなった。
論文 参考訳(メタデータ) (2024-06-20T10:23:38Z) - Information-Theoretic Distillation for Reference-less Summarization [67.51150817011617]
本稿では,要約のための情報理論的目的に基づいて,強力な要約器を蒸留する新しい枠組みを提案する。
我々は,教師モデルとしてPythia-2.8Bから出発する。
我々は,ChatGPTと競合する5億8800万のパラメータしか持たないコンパクトだが強力な要約器に到達した。
論文 参考訳(メタデータ) (2024-03-20T17:42:08Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - Selective In-Context Data Augmentation for Intent Detection using
Pointwise V-Information [100.03188187735624]
PLMとPVI(pointwise V-information)に基づく新しい手法を導入し,モデル学習におけるデータポイントの有用性を計測する。
提案手法はまず,学習データの小さなシード上でPLMを微調整し,与えられた意図に対応する発話を新たに生成する。
そこで本手法は,大規模言語モデルの表現力を活用し,多様な学習データを生成する。
論文 参考訳(メタデータ) (2023-02-10T07:37:49Z) - Test-Time Prompt Tuning for Zero-Shot Generalization in Vision-Language
Models [107.05966685291067]
テスト時間プロンプトチューニング (TPT) を提案し, 適応的なプロンプトを1つのテストサンプルで学習する。
TPTはCLIPのゼロショットトップ1の精度を平均3.6%改善する。
クロスデータセットの一般化を目に見えないカテゴリで評価する際、PTは追加のトレーニングデータを使用する最先端のアプローチと同等に機能する。
論文 参考訳(メタデータ) (2022-09-15T17:55:11Z) - End-to-end Learning of Compressible Features [35.40108701875527]
事前訓練された畳み込みニューラルネットワーク(CNN)は、市販の機能ジェネレータである。
CNNは、市販の強力な機能ジェネレータであり、様々なタスクで非常によく機能することが示されている。
残念ながら、生成された機能は高次元であり、保存するのにコストがかかる。
そこで本稿では, 圧縮性とタスク目標を協調的に最適化する学習手法を提案する。
論文 参考訳(メタデータ) (2020-07-23T05:17:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。