Fugu-MT 論文翻訳(概要): Pre-Trained Models: Past, Present and Future

論文の概要: Pre-Trained Models: Past, Present and Future

arxiv url: http://arxiv.org/abs/2106.07139v1
Date: Mon, 14 Jun 2021 02:40:32 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-15 16:33:32.535737
Title: Pre-Trained Models: Past, Present and Future
Title（参考訳）: 事前学習モデル:過去・現在・未来
Authors: Han Xu, Zhang Zhengyan, Ding Ning, Gu Yuxian, Liu Xiao, Huo Yuqi, Qiu Jiezhong, Zhang Liang, Han Wentao, Huang Minlie, Jin Qin, Lan Yanyan, Liu Yang, Liu Zhiyuan, Lu Zhiwu, Qiu Xipeng, Song Ruihua, Tang Jie, Wen Ji-Rong, Yuan Jinhui, Zhao Wayne Xin, Zhu Jun
Abstract要約: 大規模事前訓練モデル(PTM)は近年大きな成功を収め、人工知能(AI)分野におけるマイルストーンとなった。知識を巨大なパラメータに格納し、特定のタスクを微調整することで、巨大なパラメータに暗黙的にエンコードされた豊富な知識は、さまざまな下流タスクの恩恵を受けることができる。 AIコミュニティが、モデルをスクラッチから学習するのではなく、下流タスクのバックボーンとしてPTMを採用することは、今、コンセンサスになっている。
参考スコア（独自算出の注目度）: 8.47937166760329
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large-scale pre-trained models (PTMs) such as BERT and GPT have recently achieved great success and become a milestone in the field of artificial intelligence (AI). Owing to sophisticated pre-training objectives and huge model parameters, large-scale PTMs can effectively capture knowledge from massive labeled and unlabeled data. By storing knowledge into huge parameters and fine-tuning on specific tasks, the rich knowledge implicitly encoded in huge parameters can benefit a variety of downstream tasks, which has been extensively demonstrated via experimental verification and empirical analysis. It is now the consensus of the AI community to adopt PTMs as backbone for downstream tasks rather than learning models from scratch. In this paper, we take a deep look into the history of pre-training, especially its special relation with transfer learning and self-supervised learning, to reveal the crucial position of PTMs in the AI development spectrum. Further, we comprehensively review the latest breakthroughs of PTMs. These breakthroughs are driven by the surge of computational power and the increasing availability of data, towards four important directions: designing effective architectures, utilizing rich contexts, improving computational efficiency, and conducting interpretation and theoretical analysis. Finally, we discuss a series of open problems and research directions of PTMs, and hope our view can inspire and advance the future study of PTMs.
Abstract（参考訳）: BERTやGPTのような大規模事前学習モデル(PTM)は、最近大きな成功を収め、人工知能(AI)分野におけるマイルストーンとなった。高度な事前学習目標と巨大なモデルパラメータにより、大規模PTMは大量のラベル付きおよびラベルなしデータから知識を効果的に取得することができる。知識を巨大なパラメータに格納し、特定のタスクを微調整することで、巨大なパラメータに暗黙的に符号化された豊富な知識は、様々な下流タスクの恩恵を受けることができる。 AIコミュニティが、モデルをスクラッチから学習するのではなく、下流タスクのバックボーンとしてPTMを採用することは、今や合意されている。本稿では,プレトレーニングの歴史,特にトランスファーラーニングと自己教師型学習との関係を深く考察し,AI開発スペクトルにおけるPTMの重要位置を明らかにする。さらに, PTMの最新のブレークスルーを概観する。これらのブレークスルーは、効率的なアーキテクチャの設計、リッチなコンテキストの利用、計算効率の向上、解釈と理論解析の実行の4つの重要な方向に向かって、計算能力の急上昇とデータの可用性の向上によって引き起こされる。最後に, PTM の一連のオープンな問題と研究方向性について論じるとともに, PTM の今後の研究に刺激を与え, 進展を期待する。

関連論文リスト

Parameter-Efficient Continual Fine-Tuning: A Survey [5.59258786465086]
AIの次のブレークスルーは、進化する環境への効率的な適応を可能にすることです。これらの大規模モデルを効率的に適応させる方法の1つが知られている。 PEFT(Efficient Fine-Tuning)
論文参考訳（メタデータ） (2025-04-18T17:51:51Z)
Intellectual Property Protection for Deep Learning Model and Dataset Intelligence [21.757997058357]
この研究は、一般的な、スキーム固有のパフォーマンス評価指標を体系的に要約する。プロアクティブIP侵害防止とリアクティブIP所有権検証の観点から、既存のIPP手法を包括的に調査し分析する。最後に、革新的な研究のガイドとして機能するであろう将来的な方向性の見通しを概説する。
論文参考訳（メタデータ） (2024-11-07T09:02:41Z)
Long Term Memory: The Foundation of AI Self-Evolution [48.52678410533424]
GPTのような大規模な言語モデル(LLM)は、膨大なデータセットに基づいてトレーニングされており、言語理解、推論、計画において印象的な能力を示している。ほとんどの研究は、より強力な基盤モデルを構築するために、より大規模なデータセットをトレーニングすることで、これらのモデルを強化することに重点を置いている。大規模なトレーニングとは異なり、推論中にモデルを進化させることは、AIの自己進化(self-evolution)と呼ばれるプロセスと同等に重要である。
論文参考訳（メタデータ） (2024-10-21T06:09:30Z)
Relational Learning in Pre-Trained Models: A Theory from Hypergraph Recovery Perspective [60.64922606733441]
我々は,関係学習をハイパーグラフリカバリとして形式化する数学的モデルを導入し,基礎モデル(FM)の事前学習について検討する。我々のフレームワークでは、世界はハイパーグラフとして表現され、データはハイパーエッジからランダムなサンプルとして抽象化される。我々は、このハイパーグラフを復元するための事前学習モデル(PTM)の有効性を理論的に検証し、ミニマックスに近い最適スタイルでデータ効率を解析する。
論文参考訳（メタデータ） (2024-06-17T06:20:39Z)
Integrating LSTM and BERT for Long-Sequence Data Analysis in Intelligent Tutoring Systems [4.359769884713738]
長周期データ処理,すなわちLBKTのためのLSTM BERTに基づく知識追跡モデルを提案する。その結果、LBKTはより高速で解釈可能であり、従来のディープラーニングベースの知識追跡手法よりもメモリコストが低いことが示唆された。
論文参考訳（メタデータ） (2024-04-24T18:19:44Z)
SPOT: Scalable 3D Pre-training via Occupancy Prediction for Learning Transferable 3D Representations [76.45009891152178]
トレーニング-ファインタニングアプローチは、さまざまな下流データセットとタスクをまたいだトレーニング済みのバックボーンを微調整することで、ラベル付けの負担を軽減することができる。本稿では, 一般表現学習が, 占領予測のタスクを通じて達成できることを, 初めて示す。本研究は,LiDAR 点の理解を促進するとともに,LiDAR の事前訓練における今後の進歩の道を開くことを目的とする。
論文参考訳（メタデータ） (2023-09-19T11:13:01Z)
PILOT: A Pre-Trained Model-Based Continual Learning Toolbox [71.63186089279218]
本稿では,PILOTとして知られるモデルベース連続学習ツールボックスについて紹介する。一方、PILOTはL2P、DualPrompt、CODA-Promptといった事前学習モデルに基づいて、最先端のクラスインクリメンタル学習アルゴリズムを実装している。一方、PILOTは、事前学習されたモデルの文脈に典型的なクラス増分学習アルゴリズムを適合させ、それらの効果を評価する。
論文参考訳（メタデータ） (2023-09-13T17:55:11Z)
On the Predictive Accuracy of Neural Temporal Point Process Models for Continuous-time Event Data [3.13468877208035]
時間的ポイントプロセス(TPP)は、非同期イベントシーケンスを連続的にモデル化するための標準的な数学的フレームワークとして機能する。ニューラルネットワークのパラメトリゼーションを活用し、より柔軟で効率的なモデリングを提供するNeural TPPを提案する。本研究では,最先端のニューラルTPPモデルの予測精度を系統的に評価する。
論文参考訳（メタデータ） (2023-06-29T16:14:43Z)
Large-scale Multi-Modal Pre-trained Models: A Comprehensive Survey [66.18478838828231]
マルチモーダルな事前訓練型大型モデルは近年ますます注目を集めている。本稿では, 自然言語処理, コンピュータビジョン, 音声処理における従来の深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・次に,マルチモーダル・プレトレーニング・モデル(MM-PTM)のタスク定義,課題,メリットを紹介し,データ,目的,ネットワーク,知識強化による事前トレーニングに着目して,MM-PTMについて議論する。
論文参考訳（メタデータ） (2023-02-20T15:34:03Z)
PI-QT-Opt: Predictive Information Improves Multi-Task Robotic Reinforcement Learning at Scale [14.444439310266873]
予測情報QT-Optは、予測情報の表現を学習し、シミュレーションおよび実世界における最大297個の視覚に基づくロボット操作タスクを解決する。予測情報のモデリングはトレーニング作業の成功率を大幅に向上させ,未知の新規タスクへのゼロショット転送を改善することを実証する。
論文参考訳（メタデータ） (2022-10-15T07:30:31Z)
Do we need to go Deep? Knowledge Tracing with Big Data [5.218882272051637]
教育分野で公開されている最大の学生インタラクションデータセットであるEdNetを使用して、深層モデルと従来のモデルの両方が将来の学生のパフォーマンスを正確に予測する方法を理解しています。我々の研究は、慎重に設計された特徴を持つロジスティック回帰モデルが広範な実験から深いモデルよりも優れていることを観察する。
論文参考訳（メタデータ） (2021-01-20T22:40:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。