Fugu-MT 論文翻訳(概要): Data-driven Discovery with Large Generative Models

論文の概要: Data-driven Discovery with Large Generative Models

arxiv url: http://arxiv.org/abs/2402.13610v1
Date: Wed, 21 Feb 2024 08:26:43 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-22 16:18:30.628749
Title: Data-driven Discovery with Large Generative Models
Title（参考訳）: 大規模生成モデルによるデータ駆動ディスカバリ
Authors: Bodhisattwa Prasad Majumder, Harshit Surana, Dhruv Agarwal, Sanchaita Hazra, Ashish Sabharwal, Peter Clark
Abstract要約: このポジションペーパーは、機械学習(ML)コミュニティに、大規模生成モデル(LGM)の能力を活用するよう促す。我々は、LGMが理想的なデータ駆動探索システムのために、どのようにいくつかのデシラタを満たすかを実証する。我々は,フィードバック機構によるアクティブなユーザモデレーションとともに,フェールプロテクションツールの統合を提唱する。
参考スコア（独自算出の注目度）: 47.324203863823335
License: http://creativecommons.org/licenses/by/4.0/
Abstract: With the accumulation of data at an unprecedented rate, its potential to fuel scientific discovery is growing exponentially. This position paper urges the Machine Learning (ML) community to exploit the capabilities of large generative models (LGMs) to develop automated systems for end-to-end data-driven discovery -- a paradigm encompassing the search and verification of hypotheses purely from a set of provided datasets, without the need for additional data collection or physical experiments. We first outline several desiderata for an ideal data-driven discovery system. Then, through DATAVOYAGER, a proof-of-concept utilizing GPT-4, we demonstrate how LGMs fulfill several of these desiderata -- a feat previously unattainable -- while also highlighting important limitations in the current system that open up opportunities for novel ML research. We contend that achieving accurate, reliable, and robust end-to-end discovery systems solely through the current capabilities of LGMs is challenging. We instead advocate for fail-proof tool integration, along with active user moderation through feedback mechanisms, to foster data-driven scientific discoveries with efficiency and reproducibility.
Abstract（参考訳）: データの蓄積は前例のないペースで進み、科学的な発見を加速させる可能性が高まっている。本稿では、機械学習(ml)コミュニティに対して、大規模生成モデル(lgms)の機能を利用して、エンドツーエンドのデータ駆動ディスカバリのための自動化システムを開発するよう促す。まず、理想的なデータ駆動探索システムのためのデシラタについて概説する。次に、GPT-4を利用した概念実証であるDateVOYAGERを通じて、LGMがこれらのデシダラタ(以前は達成不可能な成果)のいくつかをいかに満たしているかを実証するとともに、新しいML研究の機会を開く現在のシステムにおける重要な制限を強調します。 LGMの現在の能力によってのみ、正確で信頼性があり、堅牢なエンドツーエンド発見システムを実現することは困難である、と我々は主張する。フィードバック機構によるアクティブなユーザモデレーションとともに、フェールセーフなツール統合を提唱し、効率性と再現性を備えたデータ駆動型科学的発見を育む。

関連論文リスト

Reinforcement Learning-based Feature Generation Algorithm for Scientific Data [6.449769135199048]
特徴生成(FG)は、高次特徴の組み合わせを構築し、冗長な特徴を取り除くことにより、元のデータの予測可能性を高めることを目的としている。本稿では、マルチエージェント特徴生成(MAFG)フレームワークを提案する。具体的には、マルチエージェントは、協調的に数学的変換方程式を構築し、高情報コンテンツを禁止した特徴組合せを合成し、識別し、強化学習機構を利用して戦略を進化させる。
論文参考訳（メタデータ） (2025-07-04T11:52:09Z)
Data Heterogeneity Modeling for Trustworthy Machine Learning [25.732841312561586]
データの不均一性は、機械学習(ML)システムの性能を決定する上で重要な役割を果たす。伝統的なアルゴリズムは、しばしばデータセットの固有の多様性を見落としている。データ多様性の深い理解によって、モデルの堅牢性、公正性、信頼性が向上することを示す。
論文参考訳（メタデータ） (2025-06-01T11:36:56Z)
Exploring Training and Inference Scaling Laws in Generative Retrieval [50.82554729023865]
モデルサイズ,トレーニングデータスケール,推論時間計算が生成的検索性能にどのように影響するかを検討する。実験の結果,n-gram-based method はトレーニング法と推論法の両方と強く一致していることがわかった。 LLaMAモデルはT5モデルより一貫して優れており、生成検索におけるデコーダのみの大きなモデルに対して特に有利であることが示唆された。
論文参考訳（メタデータ） (2025-03-24T17:59:03Z)
GDM4MMIMO: Generative Diffusion Models for Massive MIMO Communications [61.56610953012228]
生成拡散モデル (generative diffusion model, GDM) は、生成モデルの最先端のファミリーの一つである。 GDMは、暗黙の事前知識と堅牢な一般化能力を学ぶ能力を示す。ケーススタディは、GDMが有望な、効率的な超次元チャネルステートメント情報取得を促進する可能性を示唆している。
論文参考訳（メタデータ） (2024-12-24T08:42:01Z)
Generative Fuzzy System for Sequence Generation [16.20988290308979]
本稿では,データと知識駆動型メカニズムを組み合わせたファジィ・システムを提案する。我々はFuzzyS2Sと呼ばれるシーケンス生成のためのエンドツーエンドのGenFSモデルを提案する。 12のデータセットに対して,3つの異なる生成タスクのカテゴリを網羅した一連の実験を行った。
論文参考訳（メタデータ） (2024-11-21T06:03:25Z)
DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文参考訳（メタデータ） (2024-07-01T18:58:22Z)
Dataset Regeneration for Sequential Recommendation [69.93516846106701]
DR4SRと呼ばれるモデルに依存しないデータセット再生フレームワークを用いて、理想的なトレーニングデータセットを開発するためのデータ中心のパラダイムを提案する。データ中心のパラダイムの有効性を示すために、我々はフレームワークを様々なモデル中心の手法と統合し、4つの広く採用されているデータセット間で大きなパフォーマンス改善を観察する。
論文参考訳（メタデータ） (2024-05-28T03:45:34Z)
SubjectDrive: Scaling Generative Data in Autonomous Driving via Subject Control [59.20038082523832]
我々は、自動走行アプリケーションの改善を継続的に行う方法で、生成データ生産を拡大することが証明された最初のモデルであるSubjectDriveを提案する。本研究では, 多様なデータを生成するために, 多様な外部データソースを活用可能な, 主観制御機構を備えた新しいモデルを開発する。
論文参考訳（メタデータ） (2024-03-28T14:07:13Z)
Filling the Missing: Exploring Generative AI for Enhanced Federated Learning over Heterogeneous Mobile Edge Devices [72.61177465035031]
ローカルデータのFIMI(FIlling the MIssing)部分を活用することにより,これらの課題に対処する,AIを活用した創発的なフェデレーション学習を提案する。実験の結果,FIMIはデバイス側エネルギーの最大50%を節約し,目標とするグローバルテスト精度を達成できることがわかった。
論文参考訳（メタデータ） (2023-10-21T12:07:04Z)
TSGM: A Flexible Framework for Generative Modeling of Synthetic Time Series [61.436361263605114]
時系列データは、研究者と産業組織間のデータの共有を妨げるため、しばしば不足または非常に敏感である。本稿では,合成時系列の生成モデリングのためのオープンソースフレームワークである時系列生成モデリング(TSGM)を紹介する。
論文参考訳（メタデータ） (2023-05-19T10:11:21Z)
How Can Subgroup Discovery Help AIOps? [0.0]
サブグループディスカバリがAIOpsにどのように役立つかを研究する。このプロジェクトには、フランスのソフトウェアエディタであるInfologicalのデータマイニングの研究者と実践者の両方が含まれる。
論文参考訳（メタデータ） (2021-09-10T14:41:02Z)
INODE: Building an End-to-End Data Exploration System in Practice [Extended Vision] [30.411996388471817]
INODEはエンドツーエンドのデータ探索システムです。私達は癌のバイオマーカーのReearch、研究および革新の方針の作成および天体物理学の分野の3つの重要な使用例でそれを実証します。
論文参考訳（メタデータ） (2021-04-09T05:04:04Z)
From Data to Actions in Intelligent Transportation Systems: a Prescription of Functional Requirements for Model Actionability [10.27718355111707]
この研究は、多種多様なソースから得られたデータが、その資産やシステム、プロセスの効率的な運用のために、データ駆動モデルを学び、適応するためにどのように使用できるかを説明することを目的としている。 ITSのデータモデリングパイプラインでは、データ融合、適応学習、モデル評価という3つの複合ステージに対して、特性、エンジニアリング要件、本質的な課題を定義します。
論文参考訳（メタデータ） (2020-02-06T12:02:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。