論文の概要: Data-driven Discovery with Large Generative Models
- arxiv url: http://arxiv.org/abs/2402.13610v1
- Date: Wed, 21 Feb 2024 08:26:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 16:18:30.628749
- Title: Data-driven Discovery with Large Generative Models
- Title(参考訳): 大規模生成モデルによるデータ駆動ディスカバリ
- Authors: Bodhisattwa Prasad Majumder, Harshit Surana, Dhruv Agarwal, Sanchaita
Hazra, Ashish Sabharwal, Peter Clark
- Abstract要約: このポジションペーパーは、機械学習(ML)コミュニティに、大規模生成モデル(LGM)の能力を活用するよう促す。
我々は、LGMが理想的なデータ駆動探索システムのために、どのようにいくつかのデシラタを満たすかを実証する。
我々は,フィードバック機構によるアクティブなユーザモデレーションとともに,フェールプロテクションツールの統合を提唱する。
- 参考スコア(独自算出の注目度): 47.324203863823335
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the accumulation of data at an unprecedented rate, its potential to fuel
scientific discovery is growing exponentially. This position paper urges the
Machine Learning (ML) community to exploit the capabilities of large generative
models (LGMs) to develop automated systems for end-to-end data-driven discovery
-- a paradigm encompassing the search and verification of hypotheses purely
from a set of provided datasets, without the need for additional data
collection or physical experiments. We first outline several desiderata for an
ideal data-driven discovery system. Then, through DATAVOYAGER, a
proof-of-concept utilizing GPT-4, we demonstrate how LGMs fulfill several of
these desiderata -- a feat previously unattainable -- while also highlighting
important limitations in the current system that open up opportunities for
novel ML research. We contend that achieving accurate, reliable, and robust
end-to-end discovery systems solely through the current capabilities of LGMs is
challenging. We instead advocate for fail-proof tool integration, along with
active user moderation through feedback mechanisms, to foster data-driven
scientific discoveries with efficiency and reproducibility.
- Abstract(参考訳): データの蓄積は前例のないペースで進み、科学的な発見を加速させる可能性が高まっている。
本稿では、機械学習(ml)コミュニティに対して、大規模生成モデル(lgms)の機能を利用して、エンドツーエンドのデータ駆動ディスカバリのための自動化システムを開発するよう促す。
まず、理想的なデータ駆動探索システムのためのデシラタについて概説する。
次に、GPT-4を利用した概念実証であるDateVOYAGERを通じて、LGMがこれらのデシダラタ(以前は達成不可能な成果)のいくつかをいかに満たしているかを実証するとともに、新しいML研究の機会を開く現在のシステムにおける重要な制限を強調します。
LGMの現在の能力によってのみ、正確で信頼性があり、堅牢なエンドツーエンド発見システムを実現することは困難である、と我々は主張する。
フィードバック機構によるアクティブなユーザモデレーションとともに、フェールセーフなツール統合を提唱し、効率性と再現性を備えたデータ駆動型科学的発見を育む。
関連論文リスト
- Autonomous LLM-driven research from data to human-verifiable research papers [0.0]
完全なステップワイズプロセスを通じてインタラクションをガイドする自動化プラットフォームを構築しています。
注釈付きデータのみを提供するモードでは、データペーパーは仮説を立て、計画を立て、分析コードを書き、解釈し、結果を生成し、解釈した。
我々は、トレーサビリティ、透明性、妥当性を高めながら、AIによる科学的発見の加速の可能性を示す。
論文 参考訳(メタデータ) (2024-04-24T23:15:49Z) - SubjectDrive: Scaling Generative Data in Autonomous Driving via Subject Control [59.20038082523832]
我々は、自動走行アプリケーションの改善を継続的に行う方法で、生成データ生産を拡大することが証明された最初のモデルであるSubjectDriveを提案する。
本研究では, 多様なデータを生成するために, 多様な外部データソースを活用可能な, 主観制御機構を備えた新しいモデルを開発する。
論文 参考訳(メタデータ) (2024-03-28T14:07:13Z) - Open-sourced Data Ecosystem in Autonomous Driving: the Present and Future [130.87142103774752]
このレビューは、70以上のオープンソースの自動運転データセットを体系的に評価する。
高品質なデータセットの作成の基礎となる原則など、さまざまな側面に関する洞察を提供する。
また、解決を保障する科学的、技術的課題も検討している。
論文 参考訳(メタデータ) (2023-12-06T10:46:53Z) - Filling the Missing: Exploring Generative AI for Enhanced Federated
Learning over Heterogeneous Mobile Edge Devices [72.61177465035031]
ローカルデータのFIMI(FIlling the MIssing)部分を活用することにより,これらの課題に対処する,AIを活用した創発的なフェデレーション学習を提案する。
実験の結果,FIMIはデバイス側エネルギーの最大50%を節約し,目標とするグローバルテスト精度を達成できることがわかった。
論文 参考訳(メタデータ) (2023-10-21T12:07:04Z) - A spectrum of physics-informed Gaussian processes for regression in
engineering [0.0]
センサとデータ全般の可用性は向上していますが、純粋なデータ駆動アプローチから多くのサービス内エンジニアリングシステムや構造を完全に特徴づけることはできません。
本稿では、限られたデータで予測モデルを作成する能力を高めるために、機械学習技術と物理に基づく推論の組み合わせを追求する。
論文 参考訳(メタデータ) (2023-09-19T14:39:03Z) - Integration of Domain Expert-Centric Ontology Design into the CRISP-DM
for Cyber-Physical Production Systems [63.62764375279861]
機械学習(ML)とデータマイニング(DM)の手法は、収集されたデータから複雑で隠れたパターンを抽出する上で有望であることが証明されている。
しかし、このようなデータ駆動プロジェクトは、通常、CRISPDM(Cross-Industry Standard Process for Data Mining)で実行され、データの理解と準備に要する時間の不均等さのために失敗することが多い。
このコントリビューションは、データサイエンティストがCPPSの課題に対してより迅速かつ確実に洞察を得ることができるように、統合されたアプローチを提供することを目的としている。
論文 参考訳(メタデータ) (2023-07-21T15:04:00Z) - TSGM: A Flexible Framework for Generative Modeling of Synthetic Time
Series [79.64785804590821]
時系列データは、研究者と産業組織間のデータの共有を妨げるため、しばしば不足または非常に敏感である。
本稿では,合成時系列の生成モデリングのためのオープンソースフレームワークである時系列生成モデリング(TSGM)を紹介する。
論文 参考訳(メタデータ) (2023-05-19T10:11:21Z) - How Can Subgroup Discovery Help AIOps? [0.0]
サブグループディスカバリがAIOpsにどのように役立つかを研究する。
このプロジェクトには、フランスのソフトウェアエディタであるInfologicalのデータマイニングの研究者と実践者の両方が含まれる。
論文 参考訳(メタデータ) (2021-09-10T14:41:02Z) - INODE: Building an End-to-End Data Exploration System in Practice
[Extended Vision] [30.411996388471817]
INODEはエンドツーエンドのデータ探索システムです。
私達は癌のバイオマーカーのReearch、研究および革新の方針の作成および天体物理学の分野の3つの重要な使用例でそれを実証します。
論文 参考訳(メタデータ) (2021-04-09T05:04:04Z) - From Data to Actions in Intelligent Transportation Systems: a
Prescription of Functional Requirements for Model Actionability [10.27718355111707]
この研究は、多種多様なソースから得られたデータが、その資産やシステム、プロセスの効率的な運用のために、データ駆動モデルを学び、適応するためにどのように使用できるかを説明することを目的としている。
ITSのデータモデリングパイプラインでは、データ融合、適応学習、モデル評価という3つの複合ステージに対して、特性、エンジニアリング要件、本質的な課題を定義します。
論文 参考訳(メタデータ) (2020-02-06T12:02:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。