論文の概要: Can Foundation Models Wrangle Your Data?
- arxiv url: http://arxiv.org/abs/2205.09911v1
- Date: Fri, 20 May 2022 00:53:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-24 08:25:53.733339
- Title: Can Foundation Models Wrangle Your Data?
- Title(参考訳): ファンデーションモデルはデータを乱すことができるか?
- Authors: Avanika Narayan, Ines Chami, Laurel Orr, Christopher R\'e
- Abstract要約: ファンデーションモデル(ファンデーションモデル、FM)は、タスク固有の微調整なしで新しいタスクに一般化できる大規模なデータコーパスに基づいて訓練されたモデルである。
本稿では,FMの未探索領域であるクリーニングや統合といった古典的なデータタスクを理解することを目的としている。
大規模なFMは,データ処理の訓練を受けなくても,データのクリーニングや統合作業において,SoTAのパフォーマンスを一般化し,達成できることがわかった。
- 参考スコア(独自算出の注目度): 13.11923018654058
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Foundation Models (FMs) are models trained on large corpora of data that, at
very large scale, can generalize to new tasks without any task-specific
finetuning. As these models continue to grow in size, innovations continue to
push the boundaries of what these models can do on language and image tasks.
This paper aims to understand an underexplored area of FMs: classical data
tasks like cleaning and integration. As a proof-of-concept, we cast three data
cleaning and integration tasks as prompting tasks and evaluate the performance
of FMs on these tasks. We find that large FMs generalize and achieve SoTA
performance on data cleaning and integration tasks, even though they are not
trained for these data tasks. We identify specific research challenges and
opportunities that these models present, including challenges with private and
temporal data, and opportunities to make data driven systems more accessible to
non-experts. We make our code and experiments publicly available at:
https://github.com/HazyResearch/fm_data_tasks.
- Abstract(参考訳): ファンデーションモデル(FM)は、大規模なデータコーパスに基づいて訓練されたモデルであり、非常に大規模に、タスク固有の微調整なしで新しいタスクに一般化することができる。
これらのモデルのサイズが拡大するにつれて、イノベーションはこれらのモデルが言語やイメージタスクでできることの境界を推し進めています。
本稿では,FMの未探索領域であるクリーニングや統合といった古典的なデータタスクを理解することを目的とする。
概念実証として,3つのデータクリーニングと統合タスクをタスクのプロンプトとして使用し,これらのタスク上でのFMの性能を評価する。
大規模なFMは,データ処理の訓練を受けなくても,データのクリーニングや統合作業において,SoTAのパフォーマンスを一般化し,達成している。
我々は、これらのモデルが提示する特定の研究課題と機会を特定し、プライベートデータや時間データによる課題、データ駆動システムが非専門家によりアクセスしやすくする機会を含む。
コードと実験はhttps://github.com/hazyresearch/fm_data_tasksで公開しています。
関連論文リスト
- Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - Unified machine learning tasks and datasets for enhancing renewable
energy [0.8356833388425764]
ETT-17(Energy Transition Tasks-17)は再生可能エネルギーの増強に関連する17のデータセットの集合である。
すべてのタスクとデータセットを統一し、単一のマルチタスクMLモデルで解決できるようにします。
論文 参考訳(メタデータ) (2023-11-12T15:30:44Z) - Learn From Model Beyond Fine-Tuning: A Survey [78.80920533793595]
Learn From Model (LFM) は、モデルインターフェースに基づいた基礎モデル(FM)の研究、修正、設計に焦点を当てている。
LFM技術の研究は、モデルチューニング、モデル蒸留、モデル再利用、メタラーニング、モデル編集の5つの分野に大別できる。
本稿では, LFM の観点から, FM に基づく現在の手法を概観する。
論文 参考訳(メタデータ) (2023-10-12T10:20:36Z) - An Efficient General-Purpose Modular Vision Model via Multi-Task
Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。
提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文 参考訳(メタデータ) (2023-06-29T17:59:57Z) - CHORUS: Foundation Models for Unified Data Discovery and Exploration [7.263122361958941]
ファンデーションモデルは、トレーニングとは無関係なさまざまなタスクにおいて、有望なパフォーマンスを示す大きな言語モデルである。
これらのモデルは、データ発見およびデータ探索領域に非常に適用可能であることを示す。
これら3つの課題において,基礎モデルに基づくアプローチがタスク固有のモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T03:58:42Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z) - Preventing Catastrophic Forgetting in Continual Learning of New Natural
Language Tasks [17.879087904904935]
マルチタスク学習(MTL)は、自然言語処理において、1つのモデルで複数の関連するタスクを学習するための標準技術として広く受け入れられている。
通常、システムは時間とともに進化するので、既存のMTLモデルに新しいタスクを追加するには、通常、すべてのタスクをスクラッチから再トレーニングする必要があります。
本稿では、n+1タスクを解くための新しいタスクに、既に訓練済みのnタスクに関するモデルの知識を蒸留することにより、MTLモデルの能力を漸進的に拡張し、新しいタスクを時間とともに解決する問題にアプローチする。
論文 参考訳(メタデータ) (2023-02-22T00:18:25Z) - Hierarchical Few-Shot Imitation with Skill Transition Models [66.81252581083199]
FIST(Few-shot Imitation with Skill Transition Models)は、オフラインデータからスキルを抽出し、それらを利用して見えないタスクに一般化するアルゴリズムである。
本稿では,FISTが新たなタスクに一般化し,ナビゲーション実験において従来のベースラインを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2021-07-19T15:56:01Z) - When Can Models Learn From Explanations? A Formal Framework for
Understanding the Roles of Explanation Data [84.87772675171412]
個々のデータポイントの説明がモデリング性能を向上させる状況について検討する。
e-SNLI、TACRED、SemEvalの3つの既存のデータセットを使って説明します。
論文 参考訳(メタデータ) (2021-02-03T18:57:08Z) - Fuzzy Simplicial Networks: A Topology-Inspired Model to Improve Task
Generalization in Few-shot Learning [1.0062040918634414]
少ないショット学習アルゴリズムは、限られたデータで新しいタスクをうまく一般化するように設計されている。
本稿では,Fizzy Simplicial Networks (FSN) と呼ばれる,トポロジから構築したモデルを用いて,限られたデータから各クラスをより柔軟に表現する手法を提案する。
論文 参考訳(メタデータ) (2020-09-23T17:01:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。