論文の概要: Data-driven Discovery with Large Generative Models
- arxiv url: http://arxiv.org/abs/2402.13610v1
- Date: Wed, 21 Feb 2024 08:26:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 16:18:30.628749
- Title: Data-driven Discovery with Large Generative Models
- Title(参考訳): 大規模生成モデルによるデータ駆動ディスカバリ
- Authors: Bodhisattwa Prasad Majumder, Harshit Surana, Dhruv Agarwal, Sanchaita
Hazra, Ashish Sabharwal, Peter Clark
- Abstract要約: このポジションペーパーは、機械学習(ML)コミュニティに、大規模生成モデル(LGM)の能力を活用するよう促す。
我々は、LGMが理想的なデータ駆動探索システムのために、どのようにいくつかのデシラタを満たすかを実証する。
我々は,フィードバック機構によるアクティブなユーザモデレーションとともに,フェールプロテクションツールの統合を提唱する。
- 参考スコア(独自算出の注目度): 47.324203863823335
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the accumulation of data at an unprecedented rate, its potential to fuel
scientific discovery is growing exponentially. This position paper urges the
Machine Learning (ML) community to exploit the capabilities of large generative
models (LGMs) to develop automated systems for end-to-end data-driven discovery
-- a paradigm encompassing the search and verification of hypotheses purely
from a set of provided datasets, without the need for additional data
collection or physical experiments. We first outline several desiderata for an
ideal data-driven discovery system. Then, through DATAVOYAGER, a
proof-of-concept utilizing GPT-4, we demonstrate how LGMs fulfill several of
these desiderata -- a feat previously unattainable -- while also highlighting
important limitations in the current system that open up opportunities for
novel ML research. We contend that achieving accurate, reliable, and robust
end-to-end discovery systems solely through the current capabilities of LGMs is
challenging. We instead advocate for fail-proof tool integration, along with
active user moderation through feedback mechanisms, to foster data-driven
scientific discoveries with efficiency and reproducibility.
- Abstract(参考訳): データの蓄積は前例のないペースで進み、科学的な発見を加速させる可能性が高まっている。
本稿では、機械学習(ml)コミュニティに対して、大規模生成モデル(lgms)の機能を利用して、エンドツーエンドのデータ駆動ディスカバリのための自動化システムを開発するよう促す。
まず、理想的なデータ駆動探索システムのためのデシラタについて概説する。
次に、GPT-4を利用した概念実証であるDateVOYAGERを通じて、LGMがこれらのデシダラタ(以前は達成不可能な成果)のいくつかをいかに満たしているかを実証するとともに、新しいML研究の機会を開く現在のシステムにおける重要な制限を強調します。
LGMの現在の能力によってのみ、正確で信頼性があり、堅牢なエンドツーエンド発見システムを実現することは困難である、と我々は主張する。
フィードバック機構によるアクティブなユーザモデレーションとともに、フェールセーフなツール統合を提唱し、効率性と再現性を備えたデータ駆動型科学的発見を育む。
関連論文リスト
- Generative Fuzzy System for Sequence Generation [16.20988290308979]
本稿では,データと知識駆動型メカニズムを組み合わせたファジィ・システムを提案する。
我々はFuzzyS2Sと呼ばれるシーケンス生成のためのエンドツーエンドのGenFSモデルを提案する。
12のデータセットに対して,3つの異なる生成タスクのカテゴリを網羅した一連の実験を行った。
論文 参考訳(メタデータ) (2024-11-21T06:03:25Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - Dataset Regeneration for Sequential Recommendation [69.93516846106701]
DR4SRと呼ばれるモデルに依存しないデータセット再生フレームワークを用いて、理想的なトレーニングデータセットを開発するためのデータ中心のパラダイムを提案する。
データ中心のパラダイムの有効性を示すために、我々はフレームワークを様々なモデル中心の手法と統合し、4つの広く採用されているデータセット間で大きなパフォーマンス改善を観察する。
論文 参考訳(メタデータ) (2024-05-28T03:45:34Z) - SubjectDrive: Scaling Generative Data in Autonomous Driving via Subject Control [59.20038082523832]
我々は、自動走行アプリケーションの改善を継続的に行う方法で、生成データ生産を拡大することが証明された最初のモデルであるSubjectDriveを提案する。
本研究では, 多様なデータを生成するために, 多様な外部データソースを活用可能な, 主観制御機構を備えた新しいモデルを開発する。
論文 参考訳(メタデータ) (2024-03-28T14:07:13Z) - Filling the Missing: Exploring Generative AI for Enhanced Federated
Learning over Heterogeneous Mobile Edge Devices [72.61177465035031]
ローカルデータのFIMI(FIlling the MIssing)部分を活用することにより,これらの課題に対処する,AIを活用した創発的なフェデレーション学習を提案する。
実験の結果,FIMIはデバイス側エネルギーの最大50%を節約し,目標とするグローバルテスト精度を達成できることがわかった。
論文 参考訳(メタデータ) (2023-10-21T12:07:04Z) - TSGM: A Flexible Framework for Generative Modeling of Synthetic Time Series [61.436361263605114]
時系列データは、研究者と産業組織間のデータの共有を妨げるため、しばしば不足または非常に敏感である。
本稿では,合成時系列の生成モデリングのためのオープンソースフレームワークである時系列生成モデリング(TSGM)を紹介する。
論文 参考訳(メタデータ) (2023-05-19T10:11:21Z) - How Can Subgroup Discovery Help AIOps? [0.0]
サブグループディスカバリがAIOpsにどのように役立つかを研究する。
このプロジェクトには、フランスのソフトウェアエディタであるInfologicalのデータマイニングの研究者と実践者の両方が含まれる。
論文 参考訳(メタデータ) (2021-09-10T14:41:02Z) - INODE: Building an End-to-End Data Exploration System in Practice
[Extended Vision] [30.411996388471817]
INODEはエンドツーエンドのデータ探索システムです。
私達は癌のバイオマーカーのReearch、研究および革新の方針の作成および天体物理学の分野の3つの重要な使用例でそれを実証します。
論文 参考訳(メタデータ) (2021-04-09T05:04:04Z) - From Data to Actions in Intelligent Transportation Systems: a
Prescription of Functional Requirements for Model Actionability [10.27718355111707]
この研究は、多種多様なソースから得られたデータが、その資産やシステム、プロセスの効率的な運用のために、データ駆動モデルを学び、適応するためにどのように使用できるかを説明することを目的としている。
ITSのデータモデリングパイプラインでは、データ融合、適応学習、モデル評価という3つの複合ステージに対して、特性、エンジニアリング要件、本質的な課題を定義します。
論文 参考訳(メタデータ) (2020-02-06T12:02:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。