論文の概要: Position Paper on Dataset Engineering to Accelerate Science
- arxiv url: http://arxiv.org/abs/2303.05545v1
- Date: Thu, 9 Mar 2023 19:07:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-13 16:52:40.264956
- Title: Position Paper on Dataset Engineering to Accelerate Science
- Title(参考訳): 科学を加速するデータセット工学に関する位置論文
- Authors: Emilio Vital Brazil, Eduardo Soares, Lucas Villa Real, Leonardo
Azevedo, Vinicius Segura, Luiz Zerkowski, and Renato Cerqueira
- Abstract要約: この作業では、トークン ittextdataset を使用して、明確に定義されたタスクを実行するために構築されたデータの構造化セットを指定する。
具体的には、科学において、各領域にはデータセットを整理、収集、処理するためのユニークな形態がある。
科学と工学の発見プロセスは、データセット上のそのような組織の必要性の極端な例である、と我々は主張する。
- 参考スコア(独自算出の注目度): 1.952708415083428
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data is a critical element in any discovery process. In the last decades, we
observed exponential growth in the volume of available data and the technology
to manipulate it. However, data is only practical when one can structure it for
a well-defined task. For instance, we need a corpus of text broken into
sentences to train a natural language machine-learning model. In this work, we
will use the token \textit{dataset} to designate a structured set of data built
to perform a well-defined task. Moreover, the dataset will be used in most
cases as a blueprint of an entity that at any moment can be stored as a table.
Specifically, in science, each area has unique forms to organize, gather and
handle its datasets. We believe that datasets must be a first-class entity in
any knowledge-intensive process, and all workflows should have exceptional
attention to datasets' lifecycle, from their gathering to uses and evolution.
We advocate that science and engineering discovery processes are extreme
instances of the need for such organization on datasets, claiming for new
approaches and tooling. Furthermore, these requirements are more evident when
the discovery workflow uses artificial intelligence methods to empower the
subject-matter expert. In this work, we discuss an approach to bringing
datasets as a critical entity in the discovery process in science. We
illustrate some concepts using material discovery as a use case. We chose this
domain because it leverages many significant problems that can be generalized
to other science fields.
- Abstract(参考訳): データはどんな発見プロセスにおいても重要な要素です。
過去数十年間、利用可能なデータ量とそれを操作するテクノロジーの指数関数的な増加が観察された。
しかし、データは明確に定義されたタスクのためにそれを構成できる場合にのみ実用的です。
例えば、自然言語機械学習モデルをトレーニングするには、テキストのコーパスを文に分割する必要がある。
この作業では、トークン \textit{dataset} を使用して、明確に定義されたタスクを実行するために構築されたデータの構造化セットを指定する。
さらに、データセットは、ほとんどの場合、いつでもテーブルとして保存できるエンティティのブループリントとして使用される。
特に科学では、各領域には独自の形式があり、データセットを整理し、収集し、処理する。
私たちは、データセットはあらゆる知識集約的なプロセスにおいて第一級のエンティティでなければならないと信じており、すべてのワークフローはデータセットの収集から使用や進化に至るまで、データセットのライフサイクルに非常に注意を払うべきです。
科学とエンジニアリングの発見プロセスは、データセット上のそのような組織の必要性の極端な例であり、新しいアプローチとツーリングを主張します。
さらに、これらの要件は、発見ワークフローが人工知能メソッドを使用して被写体の専門家を強化することでより明確になる。
本研究では,科学における発見プロセスにおいて,データセットを重要な実体とするアプローチについて論じる。
材料発見をユースケースとして,いくつかの概念を解説する。
この領域を選んだのは、他の科学分野に一般化できる多くの重要な問題を活用するためです。
関連論文リスト
- The Future of Data Science Education [0.11566458078238004]
バージニア大学のデータサイエンススクールは、データサイエンスの定義のための新しいモデルを開発した。
本稿では、モデルの中核となる特徴を説明し、AIの分析コンポーネントを超えて、さまざまな概念を統合する方法について説明する。
論文 参考訳(メタデータ) (2024-07-16T15:11:54Z) - Capture the Flag: Uncovering Data Insights with Large Language Models [90.47038584812925]
本研究では,Large Language Models (LLMs) を用いてデータの洞察の発見を自動化する可能性について検討する。
そこで本稿では,データセット内の意味的かつ関連する情報(フラグ)を識別する能力を測定するために,フラグを捕捉する原理に基づく新しい評価手法を提案する。
論文 参考訳(メタデータ) (2023-12-21T14:20:06Z) - On Responsible Machine Learning Datasets with Fairness, Privacy, and Regulatory Norms [56.119374302685934]
AI技術の信頼性に関する深刻な懸念があった。
機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。
本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-24T14:01:53Z) - Interactive Distillation of Large Single-Topic Corpora of Scientific
Papers [1.2954493726326113]
より堅牢だが時間を要するアプローチは、主題の専門家が文書を手書きするデータセットを構成的に構築することである。
ここでは,学術文献のターゲットデータセットを構築的に生成するための,機械学習に基づく新しいツールを紹介する。
論文 参考訳(メタデータ) (2023-09-19T17:18:36Z) - KGLiDS: A Platform for Semantic Abstraction, Linking, and Automation of Data Science [4.120803087965204]
本稿では、機械学習と知識グラフ技術を用いて、データサイエンスアーティファクトのセマンティクスとその接続を抽象化し、キャプチャするスケーラブルなプラットフォームKGLiDSを提案する。
この情報に基づいて、KGLiDSはデータディスカバリやパイプライン自動化など、さまざまなダウンストリームアプリケーションを可能にする。
論文 参考訳(メタデータ) (2023-03-03T20:31:04Z) - A Vision for Semantically Enriched Data Science [19.604667287258724]
ドメイン知識の活用やデータセマンティクスといった重要な分野は、ほとんど自動化されていない分野です。
データサイエンスの自動化のための新しいツールと組み合わせて、データに対する“セマンティック”な理解と推論を活用することが、一貫性と説明可能なデータ拡張と変換にどのように役立つか、私たちは考えています。
論文 参考訳(メタデータ) (2023-03-02T16:03:12Z) - Understanding the World Through Action [91.3755431537592]
ラベルのないデータを利用するための汎用的で原則的で強力なフレームワークは、強化学習から導き出すことができると私は主張する。
このような手順が、下流の潜在的なタスクとどのように密接に一致しているかについて論じます。
論文 参考訳(メタデータ) (2021-10-24T22:33:52Z) - Bridge Data: Boosting Generalization of Robotic Skills with Cross-Domain
Datasets [122.85598648289789]
マルチドメインとマルチタスクのデータセットが、新しい環境における新しいタスクの学習を改善する方法について検討する。
また、新しいドメイン内の少数のタスクのみのデータによって、ドメインギャップを埋めることができ、ロボットが他のドメインでしか見られなかったさまざまなタスクを実行できることもわかりました。
論文 参考訳(メタデータ) (2021-09-27T23:42:12Z) - REGRAD: A Large-Scale Relational Grasp Dataset for Safe and
Object-Specific Robotic Grasping in Clutter [52.117388513480435]
本稿では,オブジェクト間の関係のモデル化を継続するregradという新しいデータセットを提案する。
データセットは2D画像と3Dポイントクラウドの両方で収集されます。
ユーザは、好きなだけ多くのデータを生成するために、自由に独自のオブジェクトモデルをインポートできる。
論文 参考訳(メタデータ) (2021-04-29T05:31:21Z) - Latent Feature Representation via Unsupervised Learning for Pattern
Discovery in Massive Electron Microscopy Image Volumes [4.278591555984395]
特に,データセットにおける意味的類似性を捉える潜在表現を学ぶための教師なしのディープラーニングアプローチを提案する。
動物脳の比較的小さな部分でもテラバイトの画像を要求できるナノスケールの電子顕微鏡データに適用する手法の有用性を実証する。
論文 参考訳(メタデータ) (2020-12-22T17:14:19Z) - COG: Connecting New Skills to Past Experience with Offline Reinforcement
Learning [78.13740204156858]
我々は、動的プログラミングによって新しいスキルを拡張するために、事前データを再利用できることを示します。
我々は、新しいタスクを解決するために、以前のデータセットに見られるいくつかの動作をチェーンすることで、アプローチの有効性を実証する。
我々は、高次元画像観察を低レベルのロボット制御コマンドにマッピングし、エンドツーエンドでポリシーを訓練する。
論文 参考訳(メタデータ) (2020-10-27T17:57:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。