論文の概要: Insights from Publishing Open Data in Industry-Academia Collaboration
- arxiv url: http://arxiv.org/abs/2501.14841v1
- Date: Fri, 24 Jan 2025 07:30:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 21:57:03.391833
- Title: Insights from Publishing Open Data in Industry-Academia Collaboration
- Title(参考訳): 産学連携におけるオープンデータ公開の展望
- Authors: Per Erik Strandberg, Philipp Peterseil, Julian Karoliny, Johanna Kallio, Johannes Peltola,
- Abstract要約: 本稿では,オープンデータセットの公開から学んだモチベーションと教訓について考察する。
13のデータセットを公開している欧州の研究プロジェクトの参加者を調査した。
データ収集の計画が不可欠であること、そして再利用を改善するためのスクリプトに付随するデータセットはごくわずかであることがわかった。
- 参考スコア(独自算出の注目度): 3.458783333044753
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effective data management and sharing are critical success factors in industry-academia collaboration. This paper explores the motivations and lessons learned from publishing open data sets in such collaborations. Through a survey of participants in a European research project that published 13 data sets, and an analysis of metadata from almost 281 thousand datasets in Zenodo, we collected qualitative and quantitative results on motivations, achievements, research questions, licences and file types. Through inductive reasoning and statistical analysis we found that planning the data collection is essential, and that only few datasets (2.4%) had accompanying scripts for improved reuse. We also found that authors are not well aware of the importance of licences or which licence to choose. Finally, we found that data with a synthetic origin, collected with simulations and potentially mixed with real measurements, can be very meaningful, as predicted by Gartner and illustrated by many datasets collected in our research project.
- Abstract(参考訳): 効果的なデータ管理と共有は、産学連携において重要な成功要因である。
本稿では,オープンデータセットの公開から学んだモチベーションと教訓について考察する。
13のデータセットを公開した欧州の研究プロジェクトの参加者の調査と、ゼノドの約28万のデータセットからのメタデータの分析を通じて、モチベーション、成果、研究課題、ライセンス、ファイルタイプに関する質的、定量的な結果を収集した。
帰納的推論と統計分析により、データ収集の計画が不可欠であり、再利用を改善するためのスクリプトに付随するデータセット(2.4%)はわずかであることがわかった。
また,著者はライセンスの重要性や,どのライセンスを選択するべきかをよく知らないことがわかった。
最後に、Gartnerが予測し、我々の研究プロジェクトで収集した多くのデータセットによって示されるように、シミュレーションで収集され、実測値と混在する可能性がある合成起源のデータは非常に有意義であることが判明した。
関連論文リスト
- Open Datasets in Learning Analytics: Trends, Challenges, and Best PRACTICE [0.4666493857924357]
オープンデータセットは、学習分析、教育データマイニング、教育における人工知能という3つの研究領域において重要な役割を果たす。
研究論文とともにオープンデータセットの提供は、研究成果のサポート、コラボレーション、信頼を提供する。
これらの利点にもかかわらず、学習分析研究コミュニティ、特に彼らの旗艦カンファレンス会場で、オープンデータセットと関連するプラクティスが利用可能であることは、いまだ不明である。
論文 参考訳(メタデータ) (2026-02-19T12:23:25Z) - Multi-Disciplinary Dataset Discovery from Citation-Verified Literature Contexts [0.0]
本稿では,学術論文の引用文脈からデータセットを抽出する文献駆動フレームワークを提案する。
提案手法は,大規模引用コンテキスト抽出,スキーマ誘導型データセット認識,証明保存エンティティ解決を併用する。
コード、評価データセット、結果はGitHubで公開しています。
論文 参考訳(メタデータ) (2026-01-08T16:46:06Z) - OpenDataArena: A Fair and Open Arena for Benchmarking Post-Training Dataset Value [74.80873109856563]
OpenDataArena(ODA)は、トレーニング後のデータの本質的な価値をベンチマークするために設計された、総合的でオープンなプラットフォームである。
ODAは4つの主要な柱からなる包括的なエコシステムを確立している。 (i) 多様なモデル間で公平でオープンな比較を保証する統一的なトレーニング評価パイプライン、 (ii) 異なる軸数に沿ってデータ品質をプロファイリングする多次元スコアリングフレームワーク、 (iii) データセットの系図を視覚化してコンポーネントソースを識別するインタラクティブなデータ系統探索である。
論文 参考訳(メタデータ) (2025-12-16T03:33:24Z) - ForensicsData: A Digital Forensics Dataset for Large Language Models [0.0]
ForensicsDataは、実際のマルウェア分析レポートから得られた広範囲なQ-C-Aデータセットである。
ユニークなワークフローを使用してデータセットを生成し、構造化されたデータを抽出した。
Gemini 2 Flashは、生成されたコンテンツを法医学用語と整合させる上で、最高のパフォーマンスを示した。
論文 参考訳(メタデータ) (2025-08-31T19:58:24Z) - A Systematic Review of Open Datasets Used in Text-to-Image (T2I) Gen AI Model Safety [0.0]
テキスト・ツー・イメージ(T2I)生成AIの安全性を目的とした新しい研究は、しばしばトレーニングと評価のために公開されているデータセットに依存している。
本稿では,T2I研究で使用される主要なデータセットについて,その収集方法,構成,意味的および統語的多様性,およびデータセットにおける害タイプの品質,カバレッジ,分布について概説する。
論文 参考訳(メタデータ) (2025-02-23T00:59:04Z) - SciER: An Entity and Relation Extraction Dataset for Datasets, Methods, and Tasks in Scientific Documents [49.54155332262579]
我々は,科学論文のデータセット,メソッド,タスクに関連するエンティティに対して,新たなエンティティと関係抽出データセットをリリースする。
我々のデータセットには、24k以上のエンティティと12kの関係を持つ106の注釈付きフルテキストの科学出版物が含まれています。
論文 参考訳(メタデータ) (2024-10-28T15:56:49Z) - Data-Centric AI in the Age of Large Language Models [51.20451986068925]
本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。
本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。
データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
論文 参考訳(メタデータ) (2024-06-20T16:34:07Z) - Using Large Language Models to Enrich the Documentation of Datasets for Machine Learning [1.8270184406083445]
大規模言語モデル(LLM)を用いて,文書から次元を自動的に抽出する戦略について検討する。
当社のアプローチは、データパブリッシャや実践者がマシン可読なドキュメントを作成するのに役立ちます。
我々は、我々のアプローチを実装するオープンソースツールと、実験のコードと結果を含むレプリケーションパッケージをリリースした。
論文 参考訳(メタデータ) (2024-04-04T10:09:28Z) - A Survey on Data Selection for Language Models [148.300726396877]
データ選択方法は、トレーニングデータセットに含まれるデータポイントを決定することを目的としている。
ディープラーニングは、主に実証的な証拠によって駆動され、大規模なデータに対する実験は高価である。
広範なデータ選択研究のリソースを持つ組織はほとんどない。
論文 参考訳(メタデータ) (2024-02-26T18:54:35Z) - Capture the Flag: Uncovering Data Insights with Large Language Models [90.47038584812925]
本研究では,Large Language Models (LLMs) を用いてデータの洞察の発見を自動化する可能性について検討する。
そこで本稿では,データセット内の意味的かつ関連する情報(フラグ)を識別する能力を測定するために,フラグを捕捉する原理に基づく新しい評価手法を提案する。
論文 参考訳(メタデータ) (2023-12-21T14:20:06Z) - Assessing Scientific Contributions in Data Sharing Spaces [64.16762375635842]
本稿では、研究者の科学的貢献を測定するブロックチェーンベースのメトリクスであるSCIENCE-indexを紹介する。
研究者にデータ共有のインセンティブを与えるため、SCIENCE-indexはデータ共有パラメータを含むように拡張されている。
本モデルは, 地理的に多様な研究者の出力分布とh-indexの分布を比較して評価する。
論文 参考訳(メタデータ) (2023-03-18T19:17:47Z) - Documenting Data Production Processes: A Participatory Approach for Data
Work [4.811554861191618]
機械学習データの不透明さは 倫理的なデータ処理と 知的なシステムにとって 重大な脅威です
これまでの研究では、データセットを文書化するための標準化されたチェックリストが提案されている。
本稿では,データセットのドキュメンテーションからデータ生成のドキュメンテーションへの視点転換を提案する。
論文 参考訳(メタデータ) (2022-07-11T15:39:02Z) - Unsupervised Opinion Summarization with Content Planning [58.5308638148329]
要約モデルにコンテンツプランニングを明示的に組み込むことで、より高い品質のアウトプットが得られることを示す。
また、より自然な合成データセットを作成し、実世界の文書と要約のペアに似ている。
当社のアプローチは,情報的,一貫性,流動的な要約を生成する上で,競争モデルよりも優れています。
論文 参考訳(メタデータ) (2020-12-14T18:41:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。