論文の概要: METAM: Goal-Oriented Data Discovery
- arxiv url: http://arxiv.org/abs/2304.09068v1
- Date: Tue, 18 Apr 2023 15:42:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-19 14:14:19.130915
- Title: METAM: Goal-Oriented Data Discovery
- Title(参考訳): METAM: 目標指向データディスカバリ
- Authors: Sainyam Galhotra and Yue Gong and Raul Castro Fernandez
- Abstract要約: METAMは目標指向のフレームワークで、下流タスクを候補データセットでクエリし、フィードバックループを形成して、発見と拡張プロセスを自動的に管理する。
我々はMETAMの理論的保証を示し、それらを幅広いタスクセットで実証的に示す。
- 参考スコア(独自算出の注目度): 9.73435089036831
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data is a central component of machine learning and causal inference tasks.
The availability of large amounts of data from sources such as open data
repositories, data lakes and data marketplaces creates an opportunity to
augment data and boost those tasks' performance. However, augmentation
techniques rely on a user manually discovering and shortlisting useful
candidate augmentations. Existing solutions do not leverage the synergy between
discovery and augmentation, thus under exploiting data.
In this paper, we introduce METAM, a novel goal-oriented framework that
queries the downstream task with a candidate dataset, forming a feedback loop
that automatically steers the discovery and augmentation process. To select
candidates efficiently, METAM leverages properties of the: i) data, ii) utility
function, and iii) solution set size. We show METAM's theoretical guarantees
and demonstrate those empirically on a broad set of tasks. All in all, we
demonstrate the promise of goal-oriented data discovery to modern data science
applications.
- Abstract(参考訳): データは機械学習と因果推論タスクの中心的なコンポーネントである。
オープンデータレポジトリやデータレイク、データマーケットプレースといったソースからの大量のデータの提供は、データの拡大とそれらのタスクのパフォーマンス向上の機会を生み出します。
しかし、拡張技術はユーザーが手動で有用な候補追加を発見・短縮することに依存している。
既存のソリューションは発見と拡張の相乗効果を活用せず、データを利用する。
本稿では,下流タスクと候補データセットを問合せする新たな目標指向フレームワークであるMETAMを紹介し,発見・拡張プロセスを自動的に制御するフィードバックループを形成する。
効率よく候補を選択するために、METAMは以下の特性を利用する。
i) データ
二 実用機能及び実用機能
三 ソリューションセットのサイズ
我々はMETAMの理論的保証を示し、それらを幅広いタスクセットで実証的に示す。
全体として、近代データサイエンスアプリケーションにおける目標指向データディスカバリの可能性を実証する。
関連論文リスト
- LESS: Selecting Influential Data for Targeted Instruction Tuning [69.50855460630105]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - Capture the Flag: Uncovering Data Insights with Large Language Models [90.47038584812925]
本研究では,Large Language Models (LLMs) を用いてデータの洞察の発見を自動化する可能性について検討する。
そこで本稿では,データセット内の意味的かつ関連する情報(フラグ)を識別する能力を測定するために,フラグを捕捉する原理に基づく新しい評価手法を提案する。
論文 参考訳(メタデータ) (2023-12-21T14:20:06Z) - Utilising a Large Language Model to Annotate Subject Metadata: A Case
Study in an Australian National Research Data Catalogue [18.325675189960833]
オープンで再現可能な研究をサポートするために、研究のために利用可能なデータセットが急速に増えている。
データセットの可用性が向上するにつれて、それらの発見と再利用のための品質メタデータを持つことがより重要になる。
本稿では,LLMに基づくインコンテキスト学習を通じて,大規模言語モデル(LLM)を用いて,主題メタデータのコスト効率のよいアノテーションを提案する。
論文 参考訳(メタデータ) (2023-10-17T14:52:33Z) - STAR: Boosting Low-Resource Information Extraction by Structure-to-Text
Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。
我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。
実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-24T12:15:19Z) - Demonstration of InsightPilot: An LLM-Empowered Automated Data
Exploration System [48.62158108517576]
本稿では,データ探索プロセスの簡略化を目的とした自動データ探索システムであるInsightPilotを紹介する。
InsightPilotは、理解、要約、説明などの適切な分析意図を自動的に選択する。
簡単に言うと、IQueryはデータ分析操作の抽象化と自動化であり、データアナリストのアプローチを模倣しています。
論文 参考訳(メタデータ) (2023-04-02T07:27:49Z) - DataPerf: Benchmarks for Data-Centric AI Development [81.03754002516862]
DataPerfは、MLデータセットとデータ中心アルゴリズムを評価するための、コミュニティ主導のベンチマークスイートである。
私たちは、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。
ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースである。
論文 参考訳(メタデータ) (2022-07-20T17:47:54Z) - Generative Conversational Networks [67.13144697969501]
本稿では,対話エージェントが独自のラベル付き学習データを生成することを学習する,生成会話ネットワーク(Generative Conversational Networks)というフレームワークを提案する。
そこで本研究では,シードデータから学習したベースラインモデルに対して,意図検出が平均35%,スロットタグが平均21%向上したことを示す。
論文 参考訳(メタデータ) (2021-06-15T23:19:37Z) - On the Use of Interpretable Machine Learning for the Management of Data
Quality [13.075880857448059]
我々は、解釈可能な機械学習を用いて、あらゆるデータ処理アクティビティをベースとした重要な機能を提供する。
私たちの目標は、少なくとも、収集されたデータセットで重要なものとして検出される機能に対して、データ品質を確保することです。
論文 参考訳(メタデータ) (2020-07-29T08:49:32Z) - Mining Implicit Entity Preference from User-Item Interaction Data for
Knowledge Graph Completion via Adversarial Learning [82.46332224556257]
本稿では,知識グラフ補完タスクにおけるユーザインタラクションデータを活用することで,新たな逆学習手法を提案する。
我々のジェネレータはユーザインタラクションデータから分離されており、識別器の性能を向上させるのに役立ちます。
利用者の暗黙の実体的嗜好を発見するために,グラフニューラルネットワークに基づく精巧な協調学習アルゴリズムを設計する。
論文 参考訳(メタデータ) (2020-03-28T05:47:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。