論文の概要: Standing on the Shoulders of Giant Frozen Language Models
- arxiv url: http://arxiv.org/abs/2204.10019v1
- Date: Thu, 21 Apr 2022 11:02:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-22 19:53:36.788783
- Title: Standing on the Shoulders of Giant Frozen Language Models
- Title(参考訳): 巨大な凍った言語モデルの肩の上に立つ
- Authors: Yoav Levine, Itay Dalmedigos, Ori Ram, Yoel Zeldes, Daniel Jannai, Dor
Muhlgay, Yoni Osin, Opher Lieber, Barak Lenz, Shai Shalev-Shwartz, Amnon
Shashua, Kevin Leyton-Brown, Yoav Shoham
- Abstract要約: 本稿では,凍結モデルを利用した3つの新しい手法を提案する。
それぞれが現在の凍結モデルアプローチを大幅に改善します。
我々の手法のいくつかは、現在後者が支配している領域における微調整アプローチよりも優れています。
- 参考スコア(独自算出の注目度): 33.901178596968464
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Huge pretrained language models (LMs) have demonstrated surprisingly good
zero-shot capabilities on a wide variety of tasks. This gives rise to the
appealing vision of a single, versatile model with a wide range of
functionalities across disparate applications. However, current leading
techniques for leveraging a "frozen" LM -- i.e., leaving its weights untouched
-- still often underperform fine-tuning approaches which modify these weights
in a task-dependent way. Those, in turn, suffer forgetfulness and compromise
versatility, suggesting a tradeoff between performance and versatility. The
main message of this paper is that current frozen-model techniques such as
prompt tuning are only the tip of the iceberg, and more powerful methods for
leveraging frozen LMs can do just as well as fine tuning in challenging domains
without sacrificing the underlying model's versatility. To demonstrate this, we
introduce three novel methods for leveraging frozen models: input-dependent
prompt tuning, frozen readers, and recursive LMs, each of which vastly improves
on current frozen-model approaches. Indeed, some of our methods even outperform
fine-tuning approaches in domains currently dominated by the latter. The
computational cost of each method is higher than that of existing frozen model
methods, but still negligible relative to a single pass through a huge frozen
LM. Each of these methods constitutes a meaningful contribution in its own
right, but by presenting these contributions together we aim to convince the
reader of a broader message that goes beyond the details of any given method:
that frozen models have untapped potential and that fine-tuning is often
unnecessary.
- Abstract(参考訳): 膨大な事前訓練言語モデル(LM)は、様々なタスクにおいて驚くほど優れたゼロショット機能を示している。
これにより、さまざまなアプリケーションにわたって幅広い機能を持つ単一の汎用モデルの魅力的なビジョンが生まれます。
しかしながら、現在の「凍った」LM(すなわち重量を触れずに残す)を活用するための先進的な技術は、タスク依存の方法でこれらの重量を変更する微調整アプローチを過小評価することが多い。
その結果として、これらは忘れられやすく、多様さを妥協させ、パフォーマンスと多様さのトレードオフを示唆します。
本論文の主なメッセージは, 急速チューニングのような現在の凍結モデル技術は氷山先端に過ぎず, より強力な LM の活用手法は, 基礎となるモデルの汎用性を犠牲にすることなく, 挑戦領域の微調整もできるということである。
これを実証するために、入力依存のプロンプトチューニング、フリーズリーダー、再帰的LMの3つの新しい手法を導入し、それぞれが現在のフリーズモデルアプローチを大幅に改善している。
実際、私たちの手法のいくつかは、現在後者が支配しているドメインにおける微調整アプローチよりも優れています。
各手法の計算コストは、既存の凍結モデル法よりも高いが、巨大な凍結LMを通る単一パスに対して無視可能である。
これらのメソッドはそれ自体で有意義な貢献をしているが、これらの貢献を一緒に提示することで、任意のメソッドの詳細を超えた、より広いメッセージを読者に納得させることを目指している。
関連論文リスト
- SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - Derivative-Free Guidance in Continuous and Discrete Diffusion Models with Soft Value-Based Decoding [84.3224556294803]
拡散モデルは、画像、分子、DNA、RNA、タンパク質配列の自然なデザイン空間を捉えるのに優れている。
これらの設計空間の自然性を保ちながら、下流の報酬関数を最適化することを目指している。
提案アルゴリズムは,中間雑音状態が将来高い報酬をもたらすことの先駆けとして,ソフトバリュー関数を統合する。
論文 参考訳(メタデータ) (2024-08-15T16:47:59Z) - Adversarial Schrödinger Bridge Matching [66.39774923893103]
反復マルコフフィッティング(IMF)手順は、マルコフ過程の相互射影と相互射影を交互に交互に行う。
本稿では、プロセスの学習を離散時間でほんの少しの遷移確率の学習に置き換える新しい離散時間IMF(D-IMF)手順を提案する。
D-IMFの手続きは、数百ではなく数世代のステップで、IMFと同じ品質の未完成のドメイン翻訳を提供できることを示す。
論文 参考訳(メタデータ) (2024-05-23T11:29:33Z) - Interpretable Cross-Examination Technique (ICE-T): Using highly informative features to boost LLM performance [1.1961645395911131]
医学や法律など、解釈可能性が不可欠である領域では、標準モデルは「ブラックボックス」の性質のためにしばしば不足する。
ICE-Tは、LLMが複数の方向から問題にアプローチできるようにする一連のプロンプトを使用することで、これらの制限に対処する。
我々は、医療記録や法的文書など、さまざまなデータソースにまたがるICE-Tの有効性を実証する。
論文 参考訳(メタデータ) (2024-05-08T19:20:34Z) - Advancing the Robustness of Large Language Models through Self-Denoised Smoothing [50.54276872204319]
大規模言語モデル(LLM)は大きな成功を収めたが、敵の摂動に対する脆弱性は大きな懸念を引き起こしている。
本稿では,LLMのマルチタスク特性を活用して,まずノイズの入力を識別し,次にこれらの復号化バージョンに基づいて予測を行う。
LLMのロバスト性を高めるために個別のモデルを訓練する必要がある従来のコンピュータビジョンのスムース化技術とは異なり、本手法は効率と柔軟性を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-18T15:47:00Z) - FD-Align: Feature Discrimination Alignment for Fine-tuning Pre-Trained
Models in Few-Shot Learning [21.693779973263172]
本稿では,特徴識別アライメント(FD-Align)と呼ばれる微調整手法を提案する。
本手法は,突発的特徴の一貫性を保ち,モデルの一般化可能性を高めることを目的としている。
一度微調整すると、モデルは既存のメソッドとシームレスに統合され、パフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-10-23T17:12:01Z) - Your Autoregressive Generative Model Can be Better If You Treat It as an
Energy-Based One [83.5162421521224]
本稿では,自己回帰生成モデルの学習のための独自のE-ARM法を提案する。
E-ARMは、よく設計されたエネルギーベースの学習目標を活用する。
我々は、E-ARMを効率的に訓練でき、露光バイアス問題を緩和できることを示した。
論文 参考訳(メタデータ) (2022-06-26T10:58:41Z) - The Power of Scale for Parameter-Efficient Prompt Tuning [4.481348281462904]
プロンプトチューニング」は、特定の下流タスクを実行するために、凍結した言語モデルに「ソフトプロンプト」を学習するための単純なメカニズムである。
我々のエンドツーエンドの学習アプローチは、GPT-3の「ファウショット」学習を大きなマージンで上回ります。
論文 参考訳(メタデータ) (2021-04-18T03:19:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。