論文の概要: Impossible Triangle: What's Next for Pre-trained Language Models?
- arxiv url: http://arxiv.org/abs/2204.06130v1
- Date: Wed, 13 Apr 2022 01:28:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-14 23:10:31.936625
- Title: Impossible Triangle: What's Next for Pre-trained Language Models?
- Title(参考訳): Impossible Triangle: 事前訓練された言語モデルの次は何か?
- Authors: Chenguang Zhu, Michael Zeng
- Abstract要約: 既存のPLMモデルは、Impossible Triangleの1つ以上の特性を欠いていると論じる。
次に,PLMの今後の研究方向性について考察し,Impossible Triangleを実現する。
- 参考スコア(独自算出の注目度): 53.99691912972306
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent development of large-scale pre-trained language models (PLM) have
significantly improved the capability of models in various NLP tasks, in terms
of performance after task-specific fine-tuning and zero-shot / few-shot
learning. However, many of such models come with a dauntingly huge size that
few institutions can afford to pre-train, fine-tune or even deploy, while
moderate-sized models usually lack strong generalized few-shot learning
capabilities. In this paper, we first elaborate the current obstacles of using
PLM models in terms of the Impossible Triangle: 1) moderate model size, 2)
state-of-the-art few-shot learning capability, and 3) state-of-the-art
fine-tuning capability. We argue that all existing PLM models lack one or more
properties from the Impossible Triangle. To remedy these missing properties of
PLMs, various techniques have been proposed, such as knowledge distillation,
data augmentation and prompt learning, which inevitably brings additional work
to the application of PLMs in real scenarios. We then offer insights into
future research directions of PLMs to achieve the Impossible Triangle, and
break down the task into several key phases.
- Abstract(参考訳): 大規模事前訓練型言語モデル(PLM)の最近の開発は、タスク固有の微調整やゼロショット/少数ショット学習のパフォーマンスの観点から、様々なNLPタスクにおけるモデルの能力を大幅に改善している。
しかし、そのようなモデルの多くは、少数の機関が事前訓練、微調整、さらには展開に使える巨大なサイズを伴っている。
本稿では,PLMモデルを用いた場合の現在の障害を,インポッシブル・トライアングルの観点から考察する。
1)適度なモデルサイズ、
2)最先端の数発学習能力、及び
3)最先端の微調整能力。
既存のPLMモデルは、Impossible Triangleの1つ以上の特性を欠いていると論じる。
これらのplmの欠落した特性を改善するために、知識蒸留、データ拡張、即興学習など様々な技術が提案されており、実シナリオにおけるplmの適用に必然的に追加の作業をもたらす。
次に、PLMの今後の研究方向性について考察を行い、Impossible Triangleを実現し、タスクをいくつかの重要なフェーズに分割する。
関連論文リスト
- LLAVADI: What Matters For Multimodal Large Language Models Distillation [77.73964744238519]
本研究では,新しい効率的なモデル構造を提案するのではなく,スクラッチから小規模MLLMを訓練する。
本研究は, 知識蒸留プロセスにおける学習戦略, モデル選択, 蒸留アルゴリズムに関するものである。
異なるベンチマークと適切な戦略を評価することで、2.7Bの小型モデルでも7Bまたは13Bのパラメータを持つ大型モデルと同等に動作することができる。
論文 参考訳(メタデータ) (2024-07-28T06:10:47Z) - LLM Augmented LLMs: Expanding Capabilities through Composition [56.40953749310957]
CALM -- 言語モデルの拡張のための構成 -- は、モデル間の相互アテンションを導入して、表現を構成し、新しい機能を有効にする。
低リソース言語で訓練されたより小さなモデルでPaLM2-Sを増強すると、英語への翻訳のようなタスクで最大13%の改善が達成される。
PaLM2-Sがコード固有モデルで拡張されると、コード生成や説明タスクのベースモデルよりも40%向上する。
論文 参考訳(メタデータ) (2024-01-04T18:53:01Z) - Make a Donut: Hierarchical EMD-Space Planning for Zero-Shot Deformable Manipulation with Tools [14.069149456110676]
本研究では,複雑な長期タスクに対処可能な実証自由階層型計画手法を提案する。
我々は,大規模言語モデル (LLMs) を用いて,特定のタスクに対応する高レベルステージ・バイ・ステージ・プランを記述している。
我々は、実世界のロボットプラットフォームの実験的な試行で、我々のアプローチをさらに裏付ける。
論文 参考訳(メタデータ) (2023-11-05T22:43:29Z) - Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning [52.29522018586365]
我々は,事前訓練された大規模モデルからより小型のLCMを開発するための効果的な方法として構造化プルーニングについて検討した。
提案手法では,(1)階層,頭部,中間および隠蔽次元をエンド・ツー・エンドに除去することで,より大きなモデルを特定のターゲット形状にプルーニングするターゲット構造化プルーニングと,(2)各トレーニングバッチにおけるサンプルデータの構成を,異なるドメイン間での損失に基づいて動的に更新する動的バッチローディングという2つの重要な手法を用いる。
論文 参考訳(メタデータ) (2023-10-10T15:13:30Z) - Mixture-of-Experts Meets Instruction Tuning:A Winning Combination for
Large Language Models [125.91897197446379]
MoEモデルは高密度モデルよりも命令チューニングの恩恵を受ける。
我々の最も強力なモデルであるFLAN-MOE-32Bは、4つのベンチマークタスクにおけるFLAN-PALM-62Bの性能を上回る。
論文 参考訳(メタデータ) (2023-05-24T04:22:26Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - WeLM: A Well-Read Pre-trained Language Model for Chinese [37.68378062625651]
WeLM: 中国語のためのよく読まれる事前学習型言語モデルを提案する。
WeLMには様々なドメインや言語に関する幅広い知識が備わっていることを示す。
論文 参考訳(メタデータ) (2022-09-21T14:05:30Z) - Mengzi: Towards Lightweight yet Ingenious Pre-trained Models for Chinese [33.83704598544326]
Mengziは、差別的、生成的、ドメイン固有、およびマルチモーダル事前訓練されたモデルの亜種である。
中国の公共のPLMと比較すると、メンジは単純だがより強力である。
我々の軽量モデルは、広く使われているCLUEベンチマークにおいて、最先端の新たな結果を得た。
論文 参考訳(メタデータ) (2021-10-13T13:14:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。