Fugu-MT 論文翻訳(概要): Standing on the Shoulders of Giant Frozen Language Models

論文の概要: Standing on the Shoulders of Giant Frozen Language Models

arxiv url: http://arxiv.org/abs/2204.10019v1
Date: Thu, 21 Apr 2022 11:02:09 GMT
ステータス: 翻訳完了
システム内更新日: 2022-04-22 19:53:36.788783
Title: Standing on the Shoulders of Giant Frozen Language Models
Title（参考訳）: 巨大な凍った言語モデルの肩の上に立つ
Authors: Yoav Levine, Itay Dalmedigos, Ori Ram, Yoel Zeldes, Daniel Jannai, Dor Muhlgay, Yoni Osin, Opher Lieber, Barak Lenz, Shai Shalev-Shwartz, Amnon Shashua, Kevin Leyton-Brown, Yoav Shoham
Abstract要約: 本稿では,凍結モデルを利用した3つの新しい手法を提案する。それぞれが現在の凍結モデルアプローチを大幅に改善します。我々の手法のいくつかは、現在後者が支配している領域における微調整アプローチよりも優れています。
参考スコア（独自算出の注目度）: 33.901178596968464
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Huge pretrained language models (LMs) have demonstrated surprisingly good zero-shot capabilities on a wide variety of tasks. This gives rise to the appealing vision of a single, versatile model with a wide range of functionalities across disparate applications. However, current leading techniques for leveraging a "frozen" LM -- i.e., leaving its weights untouched -- still often underperform fine-tuning approaches which modify these weights in a task-dependent way. Those, in turn, suffer forgetfulness and compromise versatility, suggesting a tradeoff between performance and versatility. The main message of this paper is that current frozen-model techniques such as prompt tuning are only the tip of the iceberg, and more powerful methods for leveraging frozen LMs can do just as well as fine tuning in challenging domains without sacrificing the underlying model's versatility. To demonstrate this, we introduce three novel methods for leveraging frozen models: input-dependent prompt tuning, frozen readers, and recursive LMs, each of which vastly improves on current frozen-model approaches. Indeed, some of our methods even outperform fine-tuning approaches in domains currently dominated by the latter. The computational cost of each method is higher than that of existing frozen model methods, but still negligible relative to a single pass through a huge frozen LM. Each of these methods constitutes a meaningful contribution in its own right, but by presenting these contributions together we aim to convince the reader of a broader message that goes beyond the details of any given method: that frozen models have untapped potential and that fine-tuning is often unnecessary.
Abstract（参考訳）: 膨大な事前訓練言語モデル(LM)は、様々なタスクにおいて驚くほど優れたゼロショット機能を示している。これにより、さまざまなアプリケーションにわたって幅広い機能を持つ単一の汎用モデルの魅力的なビジョンが生まれます。しかしながら、現在の「凍った」LM(すなわち重量を触れずに残す)を活用するための先進的な技術は、タスク依存の方法でこれらの重量を変更する微調整アプローチを過小評価することが多い。その結果として、これらは忘れられやすく、多様さを妥協させ、パフォーマンスと多様さのトレードオフを示唆します。本論文の主なメッセージは, 急速チューニングのような現在の凍結モデル技術は氷山先端に過ぎず, より強力な LM の活用手法は, 基礎となるモデルの汎用性を犠牲にすることなく, 挑戦領域の微調整もできるということである。これを実証するために、入力依存のプロンプトチューニング、フリーズリーダー、再帰的LMの3つの新しい手法を導入し、それぞれが現在のフリーズモデルアプローチを大幅に改善している。実際、私たちの手法のいくつかは、現在後者が支配しているドメインにおける微調整アプローチよりも優れています。各手法の計算コストは、既存の凍結モデル法よりも高いが、巨大な凍結LMを通る単一パスに対して無視可能である。これらのメソッドはそれ自体で有意義な貢献をしているが、これらの貢献を一緒に提示することで、任意のメソッドの詳細を超えた、より広いメッセージを読者に納得させることを目指している。

関連論文リスト

Hybrid Autoregressive-Diffusion Model for Real-Time Streaming Sign Language Production [0.0]
本稿では,自己回帰モデルと拡散モデルを組み合わせて手話生成(SLP)モデルを生成するハイブリッドアプローチを提案する。細かな体の動きを捉えるため,異なるアーティストから細かな特徴を別々に抽出するマルチスケール・ポース表現モジュールを設計した。また、連立レベルの信頼スコアを利用してポーズ生成過程を動的にガイドする信頼意識型因果注意機構も導入する。
論文参考訳（メタデータ） (2025-07-12T01:34:50Z)
Revisiting Diffusion Models: From Generative Pre-training to One-Step Generation [2.3359837623080613]
本研究は,拡散訓練を生成前訓練の一形態と見なすことができることを示す。パラメータの85%が凍結した事前学習モデルの微調整により、ワンステップ生成モデルを作成する。
論文参考訳（メタデータ） (2025-06-11T03:55:26Z)
ToMoE: Converting Dense Large Language Models to Mixture-of-Experts through Dynamic Structural Pruning [24.8038863056542]
大規模言語モデル(LLM)は、幅広い複雑なタスクに対処する際、顕著な能力を示した。その膨大な計算とメモリコストは、これらのモデルをリソース制約されたデバイスにデプロイする際の大きな課題を提起する。本研究では,高密度モデルに一定数のアクティブパラメータを保持するために,異なる動的プルーニング手法を提案する。
論文参考訳（メタデータ） (2025-01-25T20:01:42Z)
SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。 SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文参考訳（メタデータ） (2024-08-19T17:32:15Z)
Derivative-Free Guidance in Continuous and Discrete Diffusion Models with Soft Value-Based Decoding [84.3224556294803]
拡散モデルは、画像、分子、DNA、RNA、タンパク質配列の自然なデザイン空間を捉えるのに優れている。これらの設計空間の自然性を保ちながら、下流の報酬関数を最適化することを目指している。提案アルゴリズムは,中間雑音状態が将来高い報酬をもたらすことの先駆けとして,ソフトバリュー関数を統合する。
論文参考訳（メタデータ） (2024-08-15T16:47:59Z)
Ensembling Diffusion Models via Adaptive Feature Aggregation [14.663257610094625]
より強力な生成能力を生み出すために複数の高品質モデルを活用することは価値があるが、広く研究されていない。既存のメソッドは主にパラメータマージ戦略を採用して、新しい静的モデルを生成する。本稿では,様々な状態に応じて複数のモデルのコントリビューションを動的に調整するアダプティブ・フィーチャー・アグリゲーション(AFA)を提案する。
論文参考訳（メタデータ） (2024-05-27T11:55:35Z)
Adversarial Schrödinger Bridge Matching [66.39774923893103]
反復マルコフフィッティング(IMF)手順は、マルコフ過程の相互射影と相互射影を交互に交互に行う。本稿では、プロセスの学習を離散時間でほんの少しの遷移確率の学習に置き換える新しい離散時間IMF(D-IMF)手順を提案する。 D-IMFの手続きは、数百ではなく数世代のステップで、IMFと同じ品質の未完成のドメイン翻訳を提供できることを示す。
論文参考訳（メタデータ） (2024-05-23T11:29:33Z)
Interpretable Cross-Examination Technique (ICE-T): Using highly informative features to boost LLM performance [1.1961645395911131]
医学や法律など、解釈可能性が不可欠である領域では、標準モデルは「ブラックボックス」の性質のためにしばしば不足する。 ICE-Tは、LLMが複数の方向から問題にアプローチできるようにする一連のプロンプトを使用することで、これらの制限に対処する。我々は、医療記録や法的文書など、さまざまなデータソースにまたがるICE-Tの有効性を実証する。
論文参考訳（メタデータ） (2024-05-08T19:20:34Z)
Advancing the Robustness of Large Language Models through Self-Denoised Smoothing [50.54276872204319]
大規模言語モデル(LLM)は大きな成功を収めたが、敵の摂動に対する脆弱性は大きな懸念を引き起こしている。本稿では,LLMのマルチタスク特性を活用して,まずノイズの入力を識別し,次にこれらの復号化バージョンに基づいて予測を行う。 LLMのロバスト性を高めるために個別のモデルを訓練する必要がある従来のコンピュータビジョンのスムース化技術とは異なり、本手法は効率と柔軟性を著しく向上させる。
論文参考訳（メタデータ） (2024-04-18T15:47:00Z)
FD-Align: Feature Discrimination Alignment for Fine-tuning Pre-Trained Models in Few-Shot Learning [21.693779973263172]
本稿では,特徴識別アライメント(FD-Align)と呼ばれる微調整手法を提案する。本手法は,突発的特徴の一貫性を保ち,モデルの一般化可能性を高めることを目的としている。一度微調整すると、モデルは既存のメソッドとシームレスに統合され、パフォーマンスが向上する。
論文参考訳（メタデータ） (2023-10-23T17:12:01Z)
Your Autoregressive Generative Model Can be Better If You Treat It as an Energy-Based One [83.5162421521224]
本稿では,自己回帰生成モデルの学習のための独自のE-ARM法を提案する。 E-ARMは、よく設計されたエネルギーベースの学習目標を活用する。我々は、E-ARMを効率的に訓練でき、露光バイアス問題を緩和できることを示した。
論文参考訳（メタデータ） (2022-06-26T10:58:41Z)
The Power of Scale for Parameter-Efficient Prompt Tuning [4.481348281462904]
プロンプトチューニング」は、特定の下流タスクを実行するために、凍結した言語モデルに「ソフトプロンプト」を学習するための単純なメカニズムである。我々のエンドツーエンドの学習アプローチは、GPT-3の「ファウショット」学習を大きなマージンで上回ります。
論文参考訳（メタデータ） (2021-04-18T03:19:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。