論文の概要: Pre-Trained Models: Past, Present and Future
- arxiv url: http://arxiv.org/abs/2106.07139v1
- Date: Mon, 14 Jun 2021 02:40:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-15 16:33:32.535737
- Title: Pre-Trained Models: Past, Present and Future
- Title(参考訳): 事前学習モデル:過去・現在・未来
- Authors: Han Xu, Zhang Zhengyan, Ding Ning, Gu Yuxian, Liu Xiao, Huo Yuqi, Qiu
Jiezhong, Zhang Liang, Han Wentao, Huang Minlie, Jin Qin, Lan Yanyan, Liu
Yang, Liu Zhiyuan, Lu Zhiwu, Qiu Xipeng, Song Ruihua, Tang Jie, Wen Ji-Rong,
Yuan Jinhui, Zhao Wayne Xin, Zhu Jun
- Abstract要約: 大規模事前訓練モデル(PTM)は近年大きな成功を収め、人工知能(AI)分野におけるマイルストーンとなった。
知識を巨大なパラメータに格納し、特定のタスクを微調整することで、巨大なパラメータに暗黙的にエンコードされた豊富な知識は、さまざまな下流タスクの恩恵を受けることができる。
AIコミュニティが、モデルをスクラッチから学習するのではなく、下流タスクのバックボーンとしてPTMを採用することは、今、コンセンサスになっている。
- 参考スコア(独自算出の注目度): 8.47937166760329
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale pre-trained models (PTMs) such as BERT and GPT have recently
achieved great success and become a milestone in the field of artificial
intelligence (AI). Owing to sophisticated pre-training objectives and huge
model parameters, large-scale PTMs can effectively capture knowledge from
massive labeled and unlabeled data. By storing knowledge into huge parameters
and fine-tuning on specific tasks, the rich knowledge implicitly encoded in
huge parameters can benefit a variety of downstream tasks, which has been
extensively demonstrated via experimental verification and empirical analysis.
It is now the consensus of the AI community to adopt PTMs as backbone for
downstream tasks rather than learning models from scratch. In this paper, we
take a deep look into the history of pre-training, especially its special
relation with transfer learning and self-supervised learning, to reveal the
crucial position of PTMs in the AI development spectrum. Further, we
comprehensively review the latest breakthroughs of PTMs. These breakthroughs
are driven by the surge of computational power and the increasing availability
of data, towards four important directions: designing effective architectures,
utilizing rich contexts, improving computational efficiency, and conducting
interpretation and theoretical analysis. Finally, we discuss a series of open
problems and research directions of PTMs, and hope our view can inspire and
advance the future study of PTMs.
- Abstract(参考訳): BERTやGPTのような大規模事前学習モデル(PTM)は、最近大きな成功を収め、人工知能(AI)分野におけるマイルストーンとなった。
高度な事前学習目標と巨大なモデルパラメータにより、大規模PTMは大量のラベル付きおよびラベルなしデータから知識を効果的に取得することができる。
知識を巨大なパラメータに格納し、特定のタスクを微調整することで、巨大なパラメータに暗黙的に符号化された豊富な知識は、様々な下流タスクの恩恵を受けることができる。
AIコミュニティが、モデルをスクラッチから学習するのではなく、下流タスクのバックボーンとしてPTMを採用することは、今や合意されている。
本稿では,プレトレーニングの歴史,特にトランスファーラーニングと自己教師型学習との関係を深く考察し,AI開発スペクトルにおけるPTMの重要位置を明らかにする。
さらに, PTMの最新のブレークスルーを概観する。
これらのブレークスルーは、効率的なアーキテクチャの設計、リッチなコンテキストの利用、計算効率の向上、解釈と理論解析の実行の4つの重要な方向に向かって、計算能力の急上昇とデータの可用性の向上によって引き起こされる。
最後に, PTM の一連のオープンな問題と研究方向性について論じるとともに, PTM の今後の研究に刺激を与え, 進展を期待する。
関連論文リスト
- Continual Learning with Pre-Trained Models: A Survey [66.49084129482239]
継続的な学習は、新しい知識を学ぶ際に、かつての知識の破滅的な忘れを克服することを目的としている。
本稿では, PTM を用いた CL の最近の進歩を包括的に調査する。
論文 参考訳(メタデータ) (2024-01-29T18:27:52Z) - PILOT: A Pre-Trained Model-Based Continual Learning Toolbox [71.63186089279218]
本稿では,PILOTとして知られるモデルベース連続学習ツールボックスについて紹介する。
一方、PILOTはL2P、DualPrompt、CODA-Promptといった事前学習モデルに基づいて、最先端のクラスインクリメンタル学習アルゴリズムを実装している。
一方、PILOTは、事前学習されたモデルの文脈に典型的なクラス増分学習アルゴリズムを適合させ、それらの効果を評価する。
論文 参考訳(メタデータ) (2023-09-13T17:55:11Z) - On the Predictive Accuracy of Neural Temporal Point Process Models for
Continuous-time Event Data [3.13468877208035]
時間的ポイントプロセス(TPP)は、非同期イベントシーケンスを連続的にモデル化するための標準的な数学的フレームワークとして機能する。
ニューラルネットワークのパラメトリゼーションを活用し、より柔軟で効率的なモデリングを提供するNeural TPPを提案する。
本研究では,最先端のニューラルTPPモデルの予測精度を系統的に評価する。
論文 参考訳(メタデータ) (2023-06-29T16:14:43Z) - Large-scale Multi-Modal Pre-trained Models: A Comprehensive Survey [69.03538086844516]
本稿では, 自然言語処理, コンピュータビジョン, 音声処理における従来のディープラーニング, 事前学習の成果を概観することにより, マルチモーダル事前学習の背景を紹介する。
次に,マルチモーダル事前学習モデル(MM-PTM)のタスク定義,課題,メリットを紹介し,データ,目的,ネットワークアーキテクチャ,知識強化事前学習に着目して,MM-PTMについて議論する。
論文 参考訳(メタデータ) (2023-02-20T15:34:03Z) - Deep networks for system identification: a Survey [56.34005280792013]
システム識別は、入力出力データから動的システムの数学的記述を学習する。
同定されたモデルの主な目的は、以前の観測から新しいデータを予測することである。
我々は、フィードフォワード、畳み込み、リカレントネットワークなどの文献で一般的に採用されているアーキテクチャについて論じる。
論文 参考訳(メタデータ) (2023-01-30T12:38:31Z) - PI-QT-Opt: Predictive Information Improves Multi-Task Robotic
Reinforcement Learning at Scale [14.444439310266873]
予測情報QT-Optは、予測情報の表現を学習し、シミュレーションおよび実世界における最大297個の視覚に基づくロボット操作タスクを解決する。
予測情報のモデリングはトレーニング作業の成功率を大幅に向上させ,未知の新規タスクへのゼロショット転送を改善することを実証する。
論文 参考訳(メタデータ) (2022-10-15T07:30:31Z) - Great Truths are Always Simple: A Rather Simple Knowledge Encoder for
Enhancing the Commonsense Reasoning Capacity of Pre-Trained Models [89.98762327725112]
自然言語における常識推論は、人工知能システムの望ましい能力である。
複雑なコモンセンス推論タスクを解決するための典型的な解決策は、知識対応グラフニューラルネットワーク(GNN)エンコーダで事前訓練された言語モデル(PTM)を強化することである。
有効性にもかかわらず、これらのアプローチは重いアーキテクチャ上に構築されており、外部知識リソースがPTMの推論能力をどのように改善するかを明確に説明できない。
論文 参考訳(メタデータ) (2022-05-04T01:27:36Z) - Do we need to go Deep? Knowledge Tracing with Big Data [5.218882272051637]
教育分野で公開されている最大の学生インタラクションデータセットであるEdNetを使用して、深層モデルと従来のモデルの両方が将来の学生のパフォーマンスを正確に予測する方法を理解しています。
我々の研究は、慎重に設計された特徴を持つロジスティック回帰モデルが広範な実験から深いモデルよりも優れていることを観察する。
論文 参考訳(メタデータ) (2021-01-20T22:40:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。