論文の概要: Approximating Human-Like Few-shot Learning with GPT-based Compression
- arxiv url: http://arxiv.org/abs/2308.06942v1
- Date: Mon, 14 Aug 2023 05:22:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-15 14:25:52.234002
- Title: Approximating Human-Like Few-shot Learning with GPT-based Compression
- Title(参考訳): GPTに基づく圧縮による人型Few-shot学習の近似
- Authors: Cynthia Huang, Yuqing Xie, Zhiying Jiang, Jimmy Lin, Ming Li
- Abstract要約: 我々は、推論中にデータ圧縮を可能にする、人間のような学習能力を備えた生成事前学習モデルを提案する。
本稿では,GPT(Generative Pre-trained Transformer)を用いてコルモゴロフ複雑性を近似する手法を提案する。
- 参考スコア(独自算出の注目度): 55.699707962017975
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we conceptualize the learning process as information
compression. We seek to equip generative pre-trained models with human-like
learning capabilities that enable data compression during inference. We present
a novel approach that utilizes the Generative Pre-trained Transformer (GPT) to
approximate Kolmogorov complexity, with the aim of estimating the optimal
Information Distance for few-shot learning. We first propose using GPT as a
prior for lossless text compression, achieving a noteworthy compression ratio.
Experiment with LLAMA2-7B backbone achieves a compression ratio of 15.5 on
enwik9. We justify the pre-training objective of GPT models by demonstrating
its equivalence to the compression length, and, consequently, its ability to
approximate the information distance for texts. Leveraging the approximated
information distance, our method allows the direct application of GPT models in
quantitative text similarity measurements. Experiment results show that our
method overall achieves superior performance compared to embedding and prompt
baselines on challenging NLP tasks, including semantic similarity, zero and
one-shot text classification, and zero-shot text ranking.
- Abstract(参考訳): 本研究では,学習過程を情報圧縮として概念化する。
我々は、推論中にデータ圧縮を可能にする人間のような学習能力を備えた生成型事前学習モデルの実現を目指す。
本稿では, 生成前学習トランス(gpt)を用いてコルモゴロフの複雑性を近似し, 最小ショット学習のための最適情報距離を推定する新しい手法を提案する。
まず,gptをロスレステキスト圧縮の前処理として使用し,注目すべき圧縮率を達成することを提案する。
LLAMA2-7Bのバックボーンによる実験は、enwik9の圧縮比15.5に達する。
本稿では,gptモデルの事前学習目的を,圧縮長と等価性を示すことによって正当化し,テキストの情報距離を近似する能力を示す。
本手法は, 近似情報距離を利用して, 定量的テキスト類似度測定におけるGPTモデルの直接適用を可能にする。
実験の結果,提案手法は,意味的類似性,ゼロおよびワンショットテキスト分類,ゼロショットテキストランキングなどのnlp課題に対して,埋め込みおよびプロンプトベースラインよりも総合的に優れた性能が得られることがわかった。
関連論文リスト
- Text me the data: Generating Ground Pressure Sequence from Textual
Descriptions for HAR [4.503003860563811]
Text-to-Pressure (T2P) は、テキスト記述から地圧シーケンスを生成するために設計されたフレームワークである。
センサデータのベクトル量子化と簡単なテキスト条件付き自己回帰戦略を組み合わせることで,高品質な圧力系列が得られることを示す。
論文 参考訳(メタデータ) (2024-02-22T10:14:59Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - Interactive Segmentation as Gaussian Process Classification [58.44673380545409]
クリックベースのインタラクティブセグメンテーション(IS)は、ユーザインタラクション下で対象オブジェクトを抽出することを目的としている。
現在のディープラーニング(DL)ベースの手法のほとんどは、主にセマンティックセグメンテーションの一般的なパイプラインに従っている。
本稿では,各画像上でガウス過程(GP)に基づく画素単位のバイナリ分類モデルとしてISタスクを定式化することを提案する。
論文 参考訳(メタデータ) (2023-02-28T14:01:01Z) - Selective In-Context Data Augmentation for Intent Detection using
Pointwise V-Information [100.03188187735624]
PLMとPVI(pointwise V-information)に基づく新しい手法を導入し,モデル学習におけるデータポイントの有用性を計測する。
提案手法はまず,学習データの小さなシード上でPLMを微調整し,与えられた意図に対応する発話を新たに生成する。
そこで本手法は,大規模言語モデルの表現力を活用し,多様な学習データを生成する。
論文 参考訳(メタデータ) (2023-02-10T07:37:49Z) - Test-Time Prompt Tuning for Zero-Shot Generalization in Vision-Language
Models [107.05966685291067]
テスト時間プロンプトチューニング (TPT) を提案し, 適応的なプロンプトを1つのテストサンプルで学習する。
TPTはCLIPのゼロショットトップ1の精度を平均3.6%改善する。
クロスデータセットの一般化を目に見えないカテゴリで評価する際、PTは追加のトレーニングデータを使用する最先端のアプローチと同等に機能する。
論文 参考訳(メタデータ) (2022-09-15T17:55:11Z) - Extreme Model Compression for On-device Natural Language Understanding [6.941609786551173]
我々は,大規模かつ商業的なNLUシステムにおいて,膨大な語彙サイズを持つ多種多様な意図に基づいて学習した結果を示す。
提案手法は, 予測性能が3.7%未満の圧縮速度で97.4%の圧縮性能を実現する。
論文 参考訳(メタデータ) (2020-11-30T21:47:48Z) - Compression-aware Continual Learning using Singular Value Decomposition [2.4283778735260686]
本稿では,ニューラルネットワークを動的に成長させる圧縮型連続タスク学習手法を提案する。
近年のモデル圧縮技術にインスパイアされた我々は、圧縮認識トレーニングを採用し、低ランク重量近似を行う。
本手法は,コストのかかる微調整を必要とせず,最小性能の圧縮表現を実現する。
論文 参考訳(メタデータ) (2020-09-03T23:29:50Z) - PowerGossip: Practical Low-Rank Communication Compression in
Decentralized Deep Learning [62.440827696638664]
本稿では,近隣労働者間のモデル差を直接圧縮する簡単なアルゴリズムを提案する。
中央集権的なディープラーニングのためにPowerSGDにインスパイアされたこのアルゴリズムは、パワーステップを使用して、1ビットあたりの転送情報を最大化する。
論文 参考訳(メタデータ) (2020-08-04T09:14:52Z) - End-to-end Learning of Compressible Features [35.40108701875527]
事前訓練された畳み込みニューラルネットワーク(CNN)は、市販の機能ジェネレータである。
CNNは、市販の強力な機能ジェネレータであり、様々なタスクで非常によく機能することが示されている。
残念ながら、生成された機能は高次元であり、保存するのにコストがかかる。
そこで本稿では, 圧縮性とタスク目標を協調的に最適化する学習手法を提案する。
論文 参考訳(メタデータ) (2020-07-23T05:17:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。