論文の概要: A Comprehensive Survey on Pretrained Foundation Models: A History from
BERT to ChatGPT
- arxiv url: http://arxiv.org/abs/2302.09419v1
- Date: Sat, 18 Feb 2023 20:51:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-21 18:35:11.539610
- Title: A Comprehensive Survey on Pretrained Foundation Models: A History from
BERT to ChatGPT
- Title(参考訳): 事前学習基礎モデルに関する総合的調査:BERTからChatGPTへ
- Authors: Ce Zhou (1), Qian Li (2), Chen Li (2), Jun Yu (3), Yixin Liu (3),
Guangjing Wang (1), Kai Zhang (3), Cheng Ji (2), Qiben Yan (1), Lifang He
(3), Hao Peng (2), Jianxin Li (2), Jia Wu (4), Ziwei Liu (5), Pengtao Xie
(6), Caiming Xiong (9), Jian Pei (7), Philip S. Yu (8), Lichao Sun (3) ((1)
Michigan State University, (2) Beihang University, (3) Lehigh University, (4)
Macquarie University, (5) Nanyang Technological University, (6) University of
California San Diego, (7) Duke University, (8) University of Illinois at
Chicago, (9) Salesforce AI Research)
- Abstract要約: BERT、GPT-3、MAE、DALLE-E、ChatGPTといった事前訓練された基礎モデルは、大規模データに基づいて訓練される。
PFMの驚異的な成功により、AIはここ数年、さまざまな分野に波を広げてきた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Pretrained Foundation Models (PFMs) are regarded as the foundation for
various downstream tasks with different data modalities. A pretrained
foundation model, such as BERT, GPT-3, MAE, DALLE-E, and ChatGPT, is trained on
large-scale data which provides a reasonable parameter initialization for a
wide range of downstream applications. The idea of pretraining behind PFMs
plays an important role in the application of large models. Different from
previous methods that apply convolution and recurrent modules for feature
extractions, the generative pre-training (GPT) method applies Transformer as
the feature extractor and is trained on large datasets with an autoregressive
paradigm. Similarly, the BERT apples transformers to train on large datasets as
a contextual language model. Recently, the ChatGPT shows promising success on
large language models, which applies an autoregressive language model with zero
shot or few show prompting. With the extraordinary success of PFMs, AI has made
waves in a variety of fields over the past few years. Considerable methods,
datasets, and evaluation metrics have been proposed in the literature, the need
is raising for an updated survey. This study provides a comprehensive review of
recent research advancements, current and future challenges, and opportunities
for PFMs in text, image, graph, as well as other data modalities. We first
review the basic components and existing pretraining in natural language
processing, computer vision, and graph learning. We then discuss other advanced
PFMs for other data modalities and unified PFMs considering the data quality
and quantity. Besides, we discuss relevant research about the fundamentals of
the PFM, including model efficiency and compression, security, and privacy.
Finally, we lay out key implications, future research directions, challenges,
and open problems.
- Abstract(参考訳): Pretrained Foundation Models (PFM) は、異なるデータモダリティを持つ様々な下流タスクの基礎と見なされている。
BERT, GPT-3, MAE, DALLE-E, ChatGPT などの事前訓練された基礎モデルは、広範囲の下流アプリケーションに対して合理的なパラメータ初期化を提供する大規模データに基づいて訓練される。
PFMの背景にある事前訓練という考え方は、大規模モデルの適用において重要な役割を担っている。
特徴抽出に畳み込みと再帰モジュールを適用する従来の方法とは異なり、生成前訓練(gpt)法は特徴抽出器としてtransformerを適用し、自己回帰パラダイムで大規模データセット上でトレーニングされる。
同様に、BERTは変換器をコンテキスト言語モデルとして大きなデータセットでトレーニングする。
最近、chatgptは大きな言語モデルで有望な成功を収めており、ゼロショットまたは少ないショープロンプトで自己回帰型言語モデルを適用する。
PFMの驚異的な成功により、AIはここ数年、さまざまな分野に波を広げてきた。
文献では、かなりの方法、データセット、評価指標が提案されており、最新の調査の必要性が高まっている。
本研究では,最近の研究動向,現状と今後の課題,テキスト,画像,グラフ,その他のデータモダリティにおけるpfmsの機会について,総合的なレビューを行う。
まず,自然言語処理,コンピュータビジョン,グラフ学習における基本コンポーネントと既存の事前学習について概説する。
次に,データ品質と量を考慮した他のデータモダリティおよび統一pfmについて検討する。
さらに,モデル効率や圧縮,セキュリティ,プライバシなど,pfmの基本に関する関連する研究についても論じる。
最後に、重要な意味、将来の研究の方向性、課題、オープンな問題について述べます。
関連論文リスト
- Empowering Large Language Models in Wireless Communication: A Novel Dataset and Fine-Tuning Framework [81.29965270493238]
我々は,無線通信アプリケーションのための大規模言語モデル(LLM)の評価と微調整を目的とした,特殊なデータセットを開発した。
データセットには、真/偽と複数選択型を含む、さまざまなマルチホップ質問が含まれている。
本稿では,PVI(Pointwise V-Information)に基づく微調整手法を提案する。
論文 参考訳(メタデータ) (2025-01-16T16:19:53Z) - Language Modeling on Tabular Data: A Survey of Foundations, Techniques and Evolution [7.681258910515419]
タブラルデータは、その異種の性質と複雑な構造的関係により、固有の課題を示す。
表型データ解析における高い予測性能とロバスト性は、多くのアプリケーションにとって大きな可能性を秘めている。
GPTやLLaMAといった最近の大規模言語モデルの出現はこの分野にさらなる革命をもたらし、最小限の微調整でより高度で多様なアプリケーションを容易にした。
論文 参考訳(メタデータ) (2024-08-20T04:59:19Z) - Synergizing Foundation Models and Federated Learning: A Survey [23.416321895575507]
本稿では,フェデレートラーニング(FL)とファンデーションモデル(FM)の融合の可能性と課題について論じる。
FLは、さまざまな参加者からのデータ可用性の障壁を破る、共同学習パラダイムである。
プライバシを保護しながら、分散データセットを使用して、幅広いドメイン固有のタスクにFMをカスタマイズし、適応する有望なソリューションを提供する。
論文 参考訳(メタデータ) (2024-06-18T17:58:09Z) - Progress and Opportunities of Foundation Models in Bioinformatics [77.74411726471439]
基礎モデル(FM)は、特に深層学習の領域において、計算生物学の新しい時代に定着した。
我々の焦点は、特定の生物学的問題にFMを応用することであり、研究ニーズに適切なFMを選択するために研究コミュニティを指導することを目的としています。
データノイズ、モデル説明可能性、潜在的なバイアスなど、生物学においてFMが直面する課題と限界を分析します。
論文 参考訳(メタデータ) (2024-02-06T02:29:17Z) - Few-shot learning for automated content analysis: Efficient coding of
arguments and claims in the debate on arms deliveries to Ukraine [0.9576975587953563]
トランスフォーマーニューラルネットワークに基づく事前学習言語モデル(PLM)は、通信科学における自動コンテンツ分析を改善する大きな機会を提供する。
これまでの3つの特徴は、NLP研究における英語モデルの優位性、必要な計算資源、微調整 PLM の訓練データ作成に必要な労力など、適用分野における手法の普及を妨げている。
我々は、われわれのアプローチを、コミュニケーション科学の現実的なユースケースで試し、主張や議論を自動的に検出し、ドイツによるウクライナへの武器の配達に関する議論におけるスタンスと合わせて検証する。
論文 参考訳(メタデータ) (2023-12-28T11:39:08Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - Learning from models beyond fine-tuning [78.20895343699658]
Learn From Model (LFM) は、モデルインターフェースに基づいた基礎モデル(FM)の研究、修正、設計に焦点を当てている。
LFM技術の研究は、モデルチューニング、モデル蒸留、モデル再利用、メタラーニング、モデル編集の5つの分野に大別できる。
本稿では, LFM の観点から, FM に基づく現在の手法を概観する。
論文 参考訳(メタデータ) (2023-10-12T10:20:36Z) - Large Language Model as Attributed Training Data Generator: A Tale of
Diversity and Bias [92.41919689753051]
大規模言語モデル(LLM)は、最近、様々な自然言語処理(NLP)タスクのためのトレーニングデータジェネレータとして活用されている。
本稿では,多様な属性を持つプロンプトを用いたトレーニングデータ生成について検討する。
属性付きプロンプトは、結果のモデルの性能の観点から、単純なクラス条件プロンプトより優れていることを示す。
論文 参考訳(メタデータ) (2023-06-28T03:31:31Z) - Evaluating Prompt-based Question Answering for Object Prediction in the
Open Research Knowledge Graph [0.0]
本研究は,テクスチャ学習用グラフオブジェクト予測のためのトランスフォーマーの即時学習導入に関する成果を報告する。
学術知識グラフのオブジェクトを予測するためにエンティティと関係抽出パイプラインを提案する他の研究から逸脱する。
i) 期待値当たり、(i) 新たなデータ領域でテストされた場合のトランスフォーマーモデル、(ii) モデルの迅速なトレーニングにより、緩和された評価設定で最大40%の性能向上が達成されることがわかった。
論文 参考訳(メタデータ) (2023-05-22T10:35:18Z) - Pre-Trained Models: Past, Present and Future [126.21572378910746]
大規模事前訓練モデル(PTM)は近年大きな成功を収め、人工知能(AI)分野におけるマイルストーンとなった。
知識を巨大なパラメータに格納し、特定のタスクを微調整することで、巨大なパラメータに暗黙的にエンコードされた豊富な知識は、さまざまな下流タスクの恩恵を受けることができる。
AIコミュニティが、モデルをスクラッチから学習するのではなく、下流タスクのバックボーンとしてPTMを採用することは、今、コンセンサスになっている。
論文 参考訳(メタデータ) (2021-06-14T02:40:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。