論文の概要: From Data Creator to Data Reuser: Distance Matters
- arxiv url: http://arxiv.org/abs/2402.07926v2
- Date: Wed, 28 Aug 2024 18:53:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-30 19:28:43.923948
- Title: From Data Creator to Data Reuser: Distance Matters
- Title(参考訳): データクリエータからデータリユーザへ:距離の問題
- Authors: Christine L. Borgman, Paul T. Groth,
- Abstract要約: オープンサイエンスの政策は再利用よりもデータ共有に重点を置いている。
データ再利用の価値は、クリエータと再利用者の関係にあります。
我々は,データ作成者とデータ再使用者の間の距離の理論的構成を開発する。
- 参考スコア(独自算出の注目度): 0.847136673632881
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Sharing research data is necessary, but not sufficient, for data reuse. Open science policies focus more heavily on data sharing than on reuse, yet both are complex, labor-intensive, expensive, and require infrastructure investments by multiple stakeholders. The value of data reuse lies in relationships between creators and reusers. By addressing knowledge exchange, rather than mere transactions between stakeholders, investments in data management and knowledge infrastructures can be made more wisely. Drawing upon empirical studies of data sharing and reuse, we develop the theoretical construct of distance between data creator and data reuser, identifying six distance dimensions that influence the ability to transfer knowledge effectively: domain, methods, collaboration, curation, purposes, and time and temporality. We address the social and socio-technical aspects of these dimensions, exploring ways in which they may decrease -- or increase -- distances between creators and reusers. Our theoretical framing of the distance between data creators and prospective reusers leads to recommendations to four categories of stakeholders on how to make data sharing and reuse more effective: data creators, data reusers, data archivists, and funding agencies. 'It takes a village' to share research data -- and a village to reuse data. Our aim is to provoke new research questions, new research, and new investments in effective and efficient circulation of research data; and to identify criteria for investments at each stage of data and research life cycles.
- Abstract(参考訳): 研究データの共有は、データの再利用には必要だが、十分ではない。
オープンサイエンスの政策は再利用よりもデータ共有に重点を置いているが、どちらも複雑で労働集約的で高価であり、複数の利害関係者によるインフラ投資を必要としている。
データ再利用の価値は、クリエータと再利用者の関係にあります。
利害関係者間の取引ではなく、知識交換に対処することで、データ管理と知識基盤への投資をより賢明に行うことができる。
データ共有と再利用に関する実証的研究に基づいて、データ作成者とデータ再使用者の間の距離の理論的構成を開発し、ドメイン、メソッド、コラボレーション、キュレーション、目的、時間、時間、時間といった知識を効果的に伝達する能力に影響を与える6つの距離次元を同定する。
我々は、これらの次元の社会的・社会的技術的側面に対処し、創造者と再利用者の間の距離を減らし、あるいは増加させる方法を探求する。
データ作成者と将来的な再利用者の間の距離に関する理論的フレーミングは、データの共有と再利用をより効果的にする方法に関するステークホルダーの4つのカテゴリ – データ作成者、データ再利用者、データアーキビスト、資金提供機関 – に推奨を与えます。
「村」は研究データを共有するのに「村」であり、村はデータを再利用する。
本研究の目的は、研究データの効果的かつ効率的な流通に新たな研究課題や新たな研究、新たな投資を促すことであり、データおよび研究ライフサイクルの各段階における投資基準を特定することである。
関連論文リスト
- Insights from an experiment crowdsourcing data from thousands of US Amazon users: The importance of transparency, money, and data use [6.794366017852433]
本稿は、米国5000人以上のユーザーから5年間にわたる、アクセス不能なAmazon購入履歴をクラウドソーシングする革新的なアプローチを共有する。
我々は参加者の同意を優先し、実験的な研究デザインを含むデータ収集ツールを開発した。
実験結果(N=6325)は、金銭的インセンティブと透明性の両方がデータ共有を大幅に増加させることを示している。
論文 参考訳(メタデータ) (2024-04-19T20:45:19Z) - Efficient Data Collection for Robotic Manipulation via Compositional Generalization [70.76782930312746]
本研究では, 環境要因をデータから構成し, 未確認の要因の組み合わせに遭遇した場合に成功できることを示す。
コンポジションを利用したドメイン内データ収集手法を提案する。
ビデオはhttp://iliad.stanford.edu/robot-data-comp/で公開しています。
論文 参考訳(メタデータ) (2024-03-08T07:15:38Z) - A Survey on Data Selection for Language Models [151.6210632830082]
データ選択方法は、トレーニングデータセットに含まれるデータポイントを決定することを目的としている。
ディープラーニングは、主に実証的な証拠によって駆動され、大規模なデータに対する実験は高価である。
広範なデータ選択研究のリソースを持つ組織はほとんどない。
論文 参考訳(メタデータ) (2024-02-26T18:54:35Z) - Ontologies for increasing the FAIRness of plant research data [0.0]
オンロジーは特定の領域の概念と概念間の関係を提供する。
データ用語でタグ付けすることで、データはヒューマンマシンの解釈可能になり、再利用と相互運用性が向上する。
植物科学の根本的研究と、植物固有の実験に関するデータのアノテートにどのように使用できるかについて概説する。
論文 参考訳(メタデータ) (2023-08-25T13:08:26Z) - Privacy-Preserving Graph Machine Learning from Data to Computation: A
Survey [67.7834898542701]
我々は,グラフ機械学習のプライバシ保護手法の見直しに重点を置いている。
まずプライバシ保護グラフデータを生成する方法を検討する。
次に,プライバシ保護情報を送信する方法について述べる。
論文 参考訳(メタデータ) (2023-07-10T04:30:23Z) - The Dimensions of Data Labor: A Road Map for Researchers, Activists, and
Policymakers to Empower Data Producers [14.392208044851976]
データプロデューサは、取得したデータ、使用方法、あるいはそのメリットについてはほとんど言及していません。
このデータにアクセスし、処理する能力を持つ組織、例えばOpenAIやGoogleは、テクノロジーのランドスケープを形成する上で大きな力を持っている。
研究者,政策立案者,活動家がデータ生産者に力を与える機会を概説する。
論文 参考訳(メタデータ) (2023-05-22T17:11:22Z) - Beyond Privacy: Navigating the Opportunities and Challenges of Synthetic
Data [91.52783572568214]
合成データは、機械学習の世界において支配的な力となり、データセットを個々のニーズに合わせて調整できる未来を約束する。
合成データのより広範な妥当性と適用のために,コミュニティが克服すべき根本的な課題について論じる。
論文 参考訳(メタデータ) (2023-04-07T16:38:40Z) - Towards Avoiding the Data Mess: Industry Insights from Data Mesh Implementations [1.5029560229270191]
Data Meshは、企業データ管理のための、社会技術的、分散化されたコンセプトである。
業界の専門家との15の半構造化インタビューを行います。
本研究は,業界の専門家による知見を総合し,データメッシュの採用を成功させるための予備的ガイドラインを研究者や専門家に提供する。
論文 参考訳(メタデータ) (2023-02-03T13:09:57Z) - DataPerf: Benchmarks for Data-Centric AI Development [81.03754002516862]
DataPerfは、MLデータセットとデータ中心アルゴリズムを評価するための、コミュニティ主導のベンチマークスイートである。
私たちは、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。
ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースである。
論文 参考訳(メタデータ) (2022-07-20T17:47:54Z) - From Data to Knowledge to Action: A Global Enabler for the 21st Century [26.32590947516587]
コンピュータと数理科学の進歩が相まって、真の証拠に基づく意思決定を可能にする前例のない能力がもたらされた。
これらの機能は、データの大規模なキャプチャと、そのデータの洞察とレコメンデーションへの変換を可能にする。
商業、科学、教育、芸術、エンターテイメントのWebへの移行により、人間の活動に関する構造化された、非構造化されたデータベースが、これまで例のない量で利用可能になった。
論文 参考訳(メタデータ) (2020-07-31T19:19:42Z) - DeGAN : Data-Enriching GAN for Retrieving Representative Samples from a
Trained Classifier [58.979104709647295]
我々は、トレーニングされたネットワークの将来の学習タスクのために、利用可能なデータの豊富さと関連するデータの欠如の間のギャップを埋める。
利用可能なデータは、元のトレーニングデータセットまたは関連するドメインデータセットの不均衡なサブセットである可能性があるため、代表サンプルを検索するために使用します。
関連ドメインからのデータを活用して最先端のパフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2019-12-27T02:05:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。