論文の概要: Standing on the Shoulders of Giant Frozen Language Models
- arxiv url: http://arxiv.org/abs/2204.10019v1
- Date: Thu, 21 Apr 2022 11:02:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-22 19:53:36.788783
- Title: Standing on the Shoulders of Giant Frozen Language Models
- Title(参考訳): 巨大な凍った言語モデルの肩の上に立つ
- Authors: Yoav Levine, Itay Dalmedigos, Ori Ram, Yoel Zeldes, Daniel Jannai, Dor
Muhlgay, Yoni Osin, Opher Lieber, Barak Lenz, Shai Shalev-Shwartz, Amnon
Shashua, Kevin Leyton-Brown, Yoav Shoham
- Abstract要約: 本稿では,凍結モデルを利用した3つの新しい手法を提案する。
それぞれが現在の凍結モデルアプローチを大幅に改善します。
我々の手法のいくつかは、現在後者が支配している領域における微調整アプローチよりも優れています。
- 参考スコア(独自算出の注目度): 33.901178596968464
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Huge pretrained language models (LMs) have demonstrated surprisingly good
zero-shot capabilities on a wide variety of tasks. This gives rise to the
appealing vision of a single, versatile model with a wide range of
functionalities across disparate applications. However, current leading
techniques for leveraging a "frozen" LM -- i.e., leaving its weights untouched
-- still often underperform fine-tuning approaches which modify these weights
in a task-dependent way. Those, in turn, suffer forgetfulness and compromise
versatility, suggesting a tradeoff between performance and versatility. The
main message of this paper is that current frozen-model techniques such as
prompt tuning are only the tip of the iceberg, and more powerful methods for
leveraging frozen LMs can do just as well as fine tuning in challenging domains
without sacrificing the underlying model's versatility. To demonstrate this, we
introduce three novel methods for leveraging frozen models: input-dependent
prompt tuning, frozen readers, and recursive LMs, each of which vastly improves
on current frozen-model approaches. Indeed, some of our methods even outperform
fine-tuning approaches in domains currently dominated by the latter. The
computational cost of each method is higher than that of existing frozen model
methods, but still negligible relative to a single pass through a huge frozen
LM. Each of these methods constitutes a meaningful contribution in its own
right, but by presenting these contributions together we aim to convince the
reader of a broader message that goes beyond the details of any given method:
that frozen models have untapped potential and that fine-tuning is often
unnecessary.
- Abstract(参考訳): 膨大な事前訓練言語モデル(LM)は、様々なタスクにおいて驚くほど優れたゼロショット機能を示している。
これにより、さまざまなアプリケーションにわたって幅広い機能を持つ単一の汎用モデルの魅力的なビジョンが生まれます。
しかしながら、現在の「凍った」LM(すなわち重量を触れずに残す)を活用するための先進的な技術は、タスク依存の方法でこれらの重量を変更する微調整アプローチを過小評価することが多い。
その結果として、これらは忘れられやすく、多様さを妥協させ、パフォーマンスと多様さのトレードオフを示唆します。
本論文の主なメッセージは, 急速チューニングのような現在の凍結モデル技術は氷山先端に過ぎず, より強力な LM の活用手法は, 基礎となるモデルの汎用性を犠牲にすることなく, 挑戦領域の微調整もできるということである。
これを実証するために、入力依存のプロンプトチューニング、フリーズリーダー、再帰的LMの3つの新しい手法を導入し、それぞれが現在のフリーズモデルアプローチを大幅に改善している。
実際、私たちの手法のいくつかは、現在後者が支配しているドメインにおける微調整アプローチよりも優れています。
各手法の計算コストは、既存の凍結モデル法よりも高いが、巨大な凍結LMを通る単一パスに対して無視可能である。
これらのメソッドはそれ自体で有意義な貢献をしているが、これらの貢献を一緒に提示することで、任意のメソッドの詳細を超えた、より広いメッセージを読者に納得させることを目指している。
関連論文リスト
- Multi-scale Diffusion Denoised Smoothing [79.95360025953931]
ランダムな平滑化は、大規模モデルに敵対的ロバスト性を提供する、いくつかの具体的なアプローチの1つになっている。
本報告では, 分割平滑化におけるロバスト性と精度との現在のトレードオフに対処するスケーラブルな手法を提案する。
提案手法と拡散微細調整を併用したマルチスケール平滑化手法により,高騒音レベルで高い信頼性のロバスト性が得られることを示す。
論文 参考訳(メタデータ) (2023-10-25T17:11:21Z) - FD-Align: Feature Discrimination Alignment for Fine-tuning Pre-Trained
Models in Few-Shot Learning [21.693779973263172]
本稿では,特徴識別アライメント(FD-Align)と呼ばれる微調整手法を提案する。
本手法は,突発的特徴の一貫性を保ち,モデルの一般化可能性を高めることを目的としている。
一度微調整すると、モデルは既存のメソッドとシームレスに統合され、パフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-10-23T17:12:01Z) - Generative Modeling on Manifolds Through Mixture of Riemannian Diffusion
Processes [67.80645464187688]
多様体上に生成過程を構築するための原理的枠組みを導入する。
混合プロセスは、最も可能性の高いエンドポイントに向かって漂流誘導することを特徴とする。
混合過程を学習するための簡易かつ効率的な学習目標を提案する。
論文 参考訳(メタデータ) (2023-10-11T06:04:40Z) - Sci-CoT: Leveraging Large Language Models for Enhanced Knowledge
Distillation in Small Models for Scientific QA [5.117094291273979]
大規模言語モデル(LLM)は、幅広い下流タスクで優れたパフォーマンスを示している。
本稿では2段階のフレームワークであるSci-CoTを提案する。
我々の8000万のパラメータモデルは、いくつかのショット設定の下でARC-EasyデータセットにおけるBLOOM-176Bの性能を上回ることができる。
論文 参考訳(メタデータ) (2023-08-09T03:18:07Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - FreeDoM: Training-Free Energy-Guided Conditional Diffusion Model [59.317041523253245]
本研究では, 各種条件に対する自由条件拡散モデル (FreeDoM) を提案する。
具体的には、オフザシェルフ事前学習ネットワーク(顔検出モデルなど)を活用して、時間に依存しないエネルギー関数を構築する。
提案するFreeDoMは,既存のトレーニングフリー手法よりも幅広い用途がある。
論文 参考訳(メタデータ) (2023-03-17T08:38:33Z) - Your Autoregressive Generative Model Can be Better If You Treat It as an
Energy-Based One [83.5162421521224]
本稿では,自己回帰生成モデルの学習のための独自のE-ARM法を提案する。
E-ARMは、よく設計されたエネルギーベースの学習目標を活用する。
我々は、E-ARMを効率的に訓練でき、露光バイアス問題を緩和できることを示した。
論文 参考訳(メタデータ) (2022-06-26T10:58:41Z) - The Power of Scale for Parameter-Efficient Prompt Tuning [4.481348281462904]
プロンプトチューニング」は、特定の下流タスクを実行するために、凍結した言語モデルに「ソフトプロンプト」を学習するための単純なメカニズムである。
我々のエンドツーエンドの学習アプローチは、GPT-3の「ファウショット」学習を大きなマージンで上回ります。
論文 参考訳(メタデータ) (2021-04-18T03:19:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。