論文の概要: CHORUS: Foundation Models for Unified Data Discovery and Exploration
- arxiv url: http://arxiv.org/abs/2306.09610v2
- Date: Wed, 27 Sep 2023 02:02:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-28 21:55:16.559896
- Title: CHORUS: Foundation Models for Unified Data Discovery and Exploration
- Title(参考訳): CHORUS: 統一データ発見と探索のための基盤モデル
- Authors: Moe Kayali, Anton Lykov, Ilias Fountalis, Nikolaos Vasiloglou, Dan
Olteanu, Dan Suciu
- Abstract要約: ファンデーションモデルは、トレーニングとは無関係なさまざまなタスクにおいて、有望なパフォーマンスを示す大きな言語モデルである。
これらのモデルは、データ発見およびデータ探索領域に非常に適用可能であることを示す。
これら3つの課題において,基礎モデルに基づくアプローチがタスク固有のモデルよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 7.263122361958941
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We apply foundation models to data discovery and exploration tasks.
Foundation models are large language models (LLMs) that show promising
performance on a range of diverse tasks unrelated to their training. We show
that these models are highly applicable to the data discovery and data
exploration domain. When carefully used, they have superior capability on three
representative tasks: table-class detection, column-type annotation and
join-column prediction. On all three tasks, we show that a
foundation-model-based approach outperforms the task-specific models and so the
state of the art. Further, our approach often surpasses human-expert task
performance. We investigate the fundamental characteristics of this approach
including generalizability to several foundation models, impact of
non-determinism on the outputs and syntactic/semantic signals. All in all, this
suggests a future direction in which disparate data management tasks can be
unified under foundation models.
- Abstract(参考訳): データ発見と探索のタスクに基礎モデルを適用します。
基礎モデルは大規模言語モデル(llm)であり、トレーニングとは無関係な様々なタスクで有望なパフォーマンスを示す。
これらのモデルは、データ発見およびデータ探索領域に非常に適用可能であることを示す。
注意深く使うと、テーブルクラス検出、列型アノテーション、結合列予測という3つの典型的なタスクで優れた能力を発揮する。
これら3つの課題において,基礎モデルに基づくアプローチがタスク固有のモデルよりも優れていることを示す。
さらに、我々のアプローチは、しばしば人間の熟練したタスクパフォーマンスを超えます。
本稿では,いくつかの基礎モデルの一般化可能性,出力に対する非決定性の影響,統語的/意味的信号など,このアプローチの基本特性について検討する。
全体として、これは基盤モデルの下で異なるデータ管理タスクを統一できる将来の方向性を示唆している。
関連論文リスト
- Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Evaluating and Benchmarking Foundation Models for Earth Observation and Geospatial AI [26.986832126456413]
我々は、地球観測のための基礎モデル(EO)と地理空間AIのコンピュータビジョン応用に焦点を当てた。
限られたラベル付きデータに対して、ファンデーションモデルは問題固有モデルと比較して性能が向上することを示す。
本稿では,EOファンデーションモデルの評価ベンチマークを用いて,下流タスクにおいて,ファンデーションモデルがラベル効率が高いことを示す。
論文 参考訳(メタデータ) (2024-06-26T12:27:06Z) - Universal Domain Adaptation from Foundation Models: A Baseline Study [58.51162198585434]
基礎モデルを用いた最先端UniDA手法の実証的研究を行った。
CLIPモデルからターゲット知識を抽出するためのパラメータフリーな手法であるtextitCLIP 蒸留を導入する。
単純な手法ではあるが、ほとんどのベンチマークタスクでは従来の手法よりも優れている。
論文 参考訳(メタデータ) (2023-05-18T16:28:29Z) - LLM2Loss: Leveraging Language Models for Explainable Model Diagnostics [5.33024001730262]
我々は、失敗とバイアスのモデルパターンに関するセマンティックな洞察を提供するアプローチを提案する。
このような軽量モデルのアンサンブルを用いて,ブラックボックスモデルの性能に関する洞察を得られることを示す。
論文 参考訳(メタデータ) (2023-05-04T23:54:37Z) - A Billion-scale Foundation Model for Remote Sensing Images [5.065947993017157]
基礎モデルの事前学習における3つの重要な要因は、事前学習方法、事前学習データセットのサイズ、モデルパラメータの数である。
本稿では,下流タスクにおける基礎モデルの性能に及ぼすモデルパラメータ数の増加の影響について検討する。
我々の知る限りでは、これはリモートセンシング分野における最初の10億ドル規模の基礎モデルである。
論文 参考訳(メタデータ) (2023-04-11T13:33:45Z) - Towards Efficient Task-Driven Model Reprogramming with Foundation Models [52.411508216448716]
ビジョンファウンデーションモデルは、非常に大きなモデルキャパシティと幅広いトレーニングデータから恩恵を受け、印象的なパワーを示す。
しかし、実際には、下流のシナリオは限られた計算資源や効率上の考慮のため、小さなモデルしかサポートできない。
これは、ファンデーションモデルの現実的な応用に重要な課題をもたらします。
論文 参考訳(メタデータ) (2023-04-05T07:28:33Z) - PAMI: partition input and aggregate outputs for model interpretation [69.42924964776766]
本研究では、深層学習モデルが局所的な特徴を集約してモデル予測を行うという観察に基づいて、PAMIと呼ばれるシンプルで効果的な可視化フレームワークを提案する。
基本的な考え方は、入力の大多数を隠蔽し、元のモデル予測に対する保存された入力部の相対的な寄与として対応するモデル出力を使用することである。
複数のタスクに対する大規模な実験により,提案手法は,クラス固有の入力領域をより正確に見つけるために,既存の可視化手法よりも優れていることを確認した。
論文 参考訳(メタデータ) (2023-02-07T08:48:34Z) - Making Table Understanding Work in Practice [9.352813774921655]
表理解モデルをデプロイする上での3つの課題について論じ,それに対応するためのフレームワークを提案する。
本稿では、GitTablesでトレーニングされたハイブリッドモデルをカプセル化し、軽量なHuman-in-the-loopアプローチを統合してモデルをカスタマイズするSigmaTyperを提案する。
論文 参考訳(メタデータ) (2021-09-11T03:38:24Z) - When Can Models Learn From Explanations? A Formal Framework for
Understanding the Roles of Explanation Data [84.87772675171412]
個々のデータポイントの説明がモデリング性能を向上させる状況について検討する。
e-SNLI、TACRED、SemEvalの3つの既存のデータセットを使って説明します。
論文 参考訳(メタデータ) (2021-02-03T18:57:08Z) - Models, Pixels, and Rewards: Evaluating Design Trade-offs in Visual
Model-Based Reinforcement Learning [109.74041512359476]
視覚的MBRLアルゴリズムにおける予測モデルの設計決定について検討する。
潜在空間の使用など、しばしば重要と見なされる設計上の決定は、タスクのパフォーマンスにはほとんど影響しないことが分かりました。
我々は,この現象が探索とどのように関係しているか,および標準ベンチマークにおける下位スコーリングモデルのいくつかが,同じトレーニングデータでトレーニングされた場合のベストパフォーマンスモデルと同等の性能を発揮するかを示す。
論文 参考訳(メタデータ) (2020-12-08T18:03:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。