論文の概要: Can Foundation Models Wrangle Your Data?
- arxiv url: http://arxiv.org/abs/2205.09911v1
- Date: Fri, 20 May 2022 00:53:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-24 08:25:53.733339
- Title: Can Foundation Models Wrangle Your Data?
- Title(参考訳): ファンデーションモデルはデータを乱すことができるか?
- Authors: Avanika Narayan, Ines Chami, Laurel Orr, Christopher R\'e
- Abstract要約: ファンデーションモデル(ファンデーションモデル、FM)は、タスク固有の微調整なしで新しいタスクに一般化できる大規模なデータコーパスに基づいて訓練されたモデルである。
本稿では,FMの未探索領域であるクリーニングや統合といった古典的なデータタスクを理解することを目的としている。
大規模なFMは,データ処理の訓練を受けなくても,データのクリーニングや統合作業において,SoTAのパフォーマンスを一般化し,達成できることがわかった。
- 参考スコア(独自算出の注目度): 13.11923018654058
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Foundation Models (FMs) are models trained on large corpora of data that, at
very large scale, can generalize to new tasks without any task-specific
finetuning. As these models continue to grow in size, innovations continue to
push the boundaries of what these models can do on language and image tasks.
This paper aims to understand an underexplored area of FMs: classical data
tasks like cleaning and integration. As a proof-of-concept, we cast three data
cleaning and integration tasks as prompting tasks and evaluate the performance
of FMs on these tasks. We find that large FMs generalize and achieve SoTA
performance on data cleaning and integration tasks, even though they are not
trained for these data tasks. We identify specific research challenges and
opportunities that these models present, including challenges with private and
temporal data, and opportunities to make data driven systems more accessible to
non-experts. We make our code and experiments publicly available at:
https://github.com/HazyResearch/fm_data_tasks.
- Abstract(参考訳): ファンデーションモデル(FM)は、大規模なデータコーパスに基づいて訓練されたモデルであり、非常に大規模に、タスク固有の微調整なしで新しいタスクに一般化することができる。
これらのモデルのサイズが拡大するにつれて、イノベーションはこれらのモデルが言語やイメージタスクでできることの境界を推し進めています。
本稿では,FMの未探索領域であるクリーニングや統合といった古典的なデータタスクを理解することを目的とする。
概念実証として,3つのデータクリーニングと統合タスクをタスクのプロンプトとして使用し,これらのタスク上でのFMの性能を評価する。
大規模なFMは,データ処理の訓練を受けなくても,データのクリーニングや統合作業において,SoTAのパフォーマンスを一般化し,達成している。
我々は、これらのモデルが提示する特定の研究課題と機会を特定し、プライベートデータや時間データによる課題、データ駆動システムが非専門家によりアクセスしやすくする機会を含む。
コードと実験はhttps://github.com/hazyresearch/fm_data_tasksで公開しています。
関連論文リスト
- Specialized Foundation Models Struggle to Beat Supervised Baselines [60.23386520331143]
ゲノミクス、衛星画像、時系列の3つのモードを最近のFMで調べ、それらを標準的な教師付き学習ワークフローと比較する。
最新のファンデーションモデルにマッチしたり、性能を上回るような、シンプルな教師付きモデルのトレーニングが一貫して可能であることが分かりました。
論文 参考訳(メタデータ) (2024-11-05T04:10:59Z) - Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Foundation Model or Finetune? Evaluation of few-shot semantic segmentation for river pollution [16.272314073324626]
ファンデーションモデル(FM)はAIの研究の一般的なトピックである。
本研究では,FMの性能を,セマンティックセグメンテーションのタスクにおける微調整された教師付きモデルと比較する。
微調整されたモデルは、データが不足している場合でも、テスト対象のFMより一貫して優れています。
論文 参考訳(メタデータ) (2024-09-05T17:59:32Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - Unified machine learning tasks and datasets for enhancing renewable
energy [0.8356833388425764]
ETT-17(Energy Transition Tasks-17)は再生可能エネルギーの増強に関連する17のデータセットの集合である。
すべてのタスクとデータセットを統一し、単一のマルチタスクMLモデルで解決できるようにします。
論文 参考訳(メタデータ) (2023-11-12T15:30:44Z) - Learn From Model Beyond Fine-Tuning: A Survey [78.80920533793595]
Learn From Model (LFM) は、モデルインターフェースに基づいた基礎モデル(FM)の研究、修正、設計に焦点を当てている。
LFM技術の研究は、モデルチューニング、モデル蒸留、モデル再利用、メタラーニング、モデル編集の5つの分野に大別できる。
本稿では, LFM の観点から, FM に基づく現在の手法を概観する。
論文 参考訳(メタデータ) (2023-10-12T10:20:36Z) - CHORUS: Foundation Models for Unified Data Discovery and Exploration [6.85448651843431]
基礎モデルは,データ発見およびデータ探索領域に適用可能であることを示す。
基礎モデルに基づくアプローチは,タスク固有のモデルよりも優れており,その技術の現状を示す。
これは、異なるデータ管理タスクを基礎モデルの下で統一できる将来的な方向性を示唆している。
論文 参考訳(メタデータ) (2023-06-16T03:58:42Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z) - Hierarchical Few-Shot Imitation with Skill Transition Models [66.81252581083199]
FIST(Few-shot Imitation with Skill Transition Models)は、オフラインデータからスキルを抽出し、それらを利用して見えないタスクに一般化するアルゴリズムである。
本稿では,FISTが新たなタスクに一般化し,ナビゲーション実験において従来のベースラインを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2021-07-19T15:56:01Z) - Fuzzy Simplicial Networks: A Topology-Inspired Model to Improve Task
Generalization in Few-shot Learning [1.0062040918634414]
少ないショット学習アルゴリズムは、限られたデータで新しいタスクをうまく一般化するように設計されている。
本稿では,Fizzy Simplicial Networks (FSN) と呼ばれる,トポロジから構築したモデルを用いて,限られたデータから各クラスをより柔軟に表現する手法を提案する。
論文 参考訳(メタデータ) (2020-09-23T17:01:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。