論文の概要: Insights from Publishing Open Data in Industry-Academia Collaboration
- arxiv url: http://arxiv.org/abs/2501.14841v1
- Date: Fri, 24 Jan 2025 07:30:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 14:00:21.809896
- Title: Insights from Publishing Open Data in Industry-Academia Collaboration
- Title(参考訳): 産学連携におけるオープンデータ公開の展望
- Authors: Per Erik Strandberg, Philipp Peterseil, Julian Karoliny, Johanna Kallio, Johannes Peltola,
- Abstract要約: 本稿では,オープンデータセットの公開から学んだモチベーションと教訓について考察する。
13のデータセットを公開している欧州の研究プロジェクトの参加者を調査した。
データ収集の計画が不可欠であること、そして再利用を改善するためのスクリプトに付随するデータセットはごくわずかであることがわかった。
- 参考スコア(独自算出の注目度): 3.458783333044753
- License:
- Abstract: Effective data management and sharing are critical success factors in industry-academia collaboration. This paper explores the motivations and lessons learned from publishing open data sets in such collaborations. Through a survey of participants in a European research project that published 13 data sets, and an analysis of metadata from almost 281 thousand datasets in Zenodo, we collected qualitative and quantitative results on motivations, achievements, research questions, licences and file types. Through inductive reasoning and statistical analysis we found that planning the data collection is essential, and that only few datasets (2.4%) had accompanying scripts for improved reuse. We also found that authors are not well aware of the importance of licences or which licence to choose. Finally, we found that data with a synthetic origin, collected with simulations and potentially mixed with real measurements, can be very meaningful, as predicted by Gartner and illustrated by many datasets collected in our research project.
- Abstract(参考訳): 効果的なデータ管理と共有は、産学連携において重要な成功要因である。
本稿では,オープンデータセットの公開から学んだモチベーションと教訓について考察する。
13のデータセットを公開した欧州の研究プロジェクトの参加者の調査と、ゼノドの約28万のデータセットからのメタデータの分析を通じて、モチベーション、成果、研究課題、ライセンス、ファイルタイプに関する質的、定量的な結果を収集した。
帰納的推論と統計分析により、データ収集の計画が不可欠であり、再利用を改善するためのスクリプトに付随するデータセット(2.4%)はわずかであることがわかった。
また,著者はライセンスの重要性や,どのライセンスを選択するべきかをよく知らないことがわかった。
最後に、Gartnerが予測し、我々の研究プロジェクトで収集した多くのデータセットによって示されるように、シミュレーションで収集され、実測値と混在する可能性がある合成起源のデータは非常に有意義であることが判明した。
関連論文リスト
- SciER: An Entity and Relation Extraction Dataset for Datasets, Methods, and Tasks in Scientific Documents [49.54155332262579]
我々は,科学論文のデータセット,メソッド,タスクに関連するエンティティに対して,新たなエンティティと関係抽出データセットをリリースする。
我々のデータセットには、24k以上のエンティティと12kの関係を持つ106の注釈付きフルテキストの科学出版物が含まれています。
論文 参考訳(メタデータ) (2024-10-28T15:56:49Z) - Data-Centric AI in the Age of Large Language Models [51.20451986068925]
本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。
本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。
データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
論文 参考訳(メタデータ) (2024-06-20T16:34:07Z) - Using Large Language Models to Enrich the Documentation of Datasets for Machine Learning [1.8270184406083445]
大規模言語モデル(LLM)を用いて,文書から次元を自動的に抽出する戦略について検討する。
当社のアプローチは、データパブリッシャや実践者がマシン可読なドキュメントを作成するのに役立ちます。
我々は、我々のアプローチを実装するオープンソースツールと、実験のコードと結果を含むレプリケーションパッケージをリリースした。
論文 参考訳(メタデータ) (2024-04-04T10:09:28Z) - A Survey on Data Selection for Language Models [148.300726396877]
データ選択方法は、トレーニングデータセットに含まれるデータポイントを決定することを目的としている。
ディープラーニングは、主に実証的な証拠によって駆動され、大規模なデータに対する実験は高価である。
広範なデータ選択研究のリソースを持つ組織はほとんどない。
論文 参考訳(メタデータ) (2024-02-26T18:54:35Z) - Capture the Flag: Uncovering Data Insights with Large Language Models [90.47038584812925]
本研究では,Large Language Models (LLMs) を用いてデータの洞察の発見を自動化する可能性について検討する。
そこで本稿では,データセット内の意味的かつ関連する情報(フラグ)を識別する能力を測定するために,フラグを捕捉する原理に基づく新しい評価手法を提案する。
論文 参考訳(メタデータ) (2023-12-21T14:20:06Z) - Assessing Scientific Contributions in Data Sharing Spaces [64.16762375635842]
本稿では、研究者の科学的貢献を測定するブロックチェーンベースのメトリクスであるSCIENCE-indexを紹介する。
研究者にデータ共有のインセンティブを与えるため、SCIENCE-indexはデータ共有パラメータを含むように拡張されている。
本モデルは, 地理的に多様な研究者の出力分布とh-indexの分布を比較して評価する。
論文 参考訳(メタデータ) (2023-03-18T19:17:47Z) - Documenting Data Production Processes: A Participatory Approach for Data
Work [4.811554861191618]
機械学習データの不透明さは 倫理的なデータ処理と 知的なシステムにとって 重大な脅威です
これまでの研究では、データセットを文書化するための標準化されたチェックリストが提案されている。
本稿では,データセットのドキュメンテーションからデータ生成のドキュメンテーションへの視点転換を提案する。
論文 参考訳(メタデータ) (2022-07-11T15:39:02Z) - Unsupervised Opinion Summarization with Content Planning [58.5308638148329]
要約モデルにコンテンツプランニングを明示的に組み込むことで、より高い品質のアウトプットが得られることを示す。
また、より自然な合成データセットを作成し、実世界の文書と要約のペアに似ている。
当社のアプローチは,情報的,一貫性,流動的な要約を生成する上で,競争モデルよりも優れています。
論文 参考訳(メタデータ) (2020-12-14T18:41:58Z) - Extracting Entities and Topics from News and Connecting Criminal Records [6.685013315842082]
本稿では,犯罪記録データベースや新聞データベースからエンティティやトピックを抽出する手法を要約する。
統計モデルは、約30,000のニューヨーク・タイムズの記事のトピックの研究に成功している。
分析的アプローチ、特にホットスポットマッピングは、将来犯罪の場所や状況を予測するためにいくつかの研究で使用された。
論文 参考訳(メタデータ) (2020-05-03T00:06:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。