論文の概要: From Data Creator to Data Reuser: Distance Matters
- arxiv url: http://arxiv.org/abs/2402.07926v2
- Date: Wed, 28 Aug 2024 18:53:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-30 19:28:43.923948
- Title: From Data Creator to Data Reuser: Distance Matters
- Title(参考訳): データクリエータからデータリユーザへ:距離の問題
- Authors: Christine L. Borgman, Paul T. Groth,
- Abstract要約: オープンサイエンスの政策は再利用よりもデータ共有に重点を置いている。
データ再利用の価値は、クリエータと再利用者の関係にあります。
我々は,データ作成者とデータ再使用者の間の距離の理論的構成を開発する。
- 参考スコア(独自算出の注目度): 0.847136673632881
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Sharing research data is necessary, but not sufficient, for data reuse. Open science policies focus more heavily on data sharing than on reuse, yet both are complex, labor-intensive, expensive, and require infrastructure investments by multiple stakeholders. The value of data reuse lies in relationships between creators and reusers. By addressing knowledge exchange, rather than mere transactions between stakeholders, investments in data management and knowledge infrastructures can be made more wisely. Drawing upon empirical studies of data sharing and reuse, we develop the theoretical construct of distance between data creator and data reuser, identifying six distance dimensions that influence the ability to transfer knowledge effectively: domain, methods, collaboration, curation, purposes, and time and temporality. We address the social and socio-technical aspects of these dimensions, exploring ways in which they may decrease -- or increase -- distances between creators and reusers. Our theoretical framing of the distance between data creators and prospective reusers leads to recommendations to four categories of stakeholders on how to make data sharing and reuse more effective: data creators, data reusers, data archivists, and funding agencies. 'It takes a village' to share research data -- and a village to reuse data. Our aim is to provoke new research questions, new research, and new investments in effective and efficient circulation of research data; and to identify criteria for investments at each stage of data and research life cycles.
- Abstract(参考訳): 研究データの共有は、データの再利用には必要だが、十分ではない。
オープンサイエンスの政策は再利用よりもデータ共有に重点を置いているが、どちらも複雑で労働集約的で高価であり、複数の利害関係者によるインフラ投資を必要としている。
データ再利用の価値は、クリエータと再利用者の関係にあります。
利害関係者間の取引ではなく、知識交換に対処することで、データ管理と知識基盤への投資をより賢明に行うことができる。
データ共有と再利用に関する実証的研究に基づいて、データ作成者とデータ再使用者の間の距離の理論的構成を開発し、ドメイン、メソッド、コラボレーション、キュレーション、目的、時間、時間、時間といった知識を効果的に伝達する能力に影響を与える6つの距離次元を同定する。
我々は、これらの次元の社会的・社会的技術的側面に対処し、創造者と再利用者の間の距離を減らし、あるいは増加させる方法を探求する。
データ作成者と将来的な再利用者の間の距離に関する理論的フレーミングは、データの共有と再利用をより効果的にする方法に関するステークホルダーの4つのカテゴリ – データ作成者、データ再利用者、データアーキビスト、資金提供機関 – に推奨を与えます。
「村」は研究データを共有するのに「村」であり、村はデータを再利用する。
本研究の目的は、研究データの効果的かつ効率的な流通に新たな研究課題や新たな研究、新たな投資を促すことであり、データおよび研究ライフサイクルの各段階における投資基準を特定することである。
関連論文リスト
- Data-Centric AI in the Age of Large Language Models [51.20451986068925]
本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。
本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。
データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
論文 参考訳(メタデータ) (2024-06-20T16:34:07Z) - Insights from an experiment crowdsourcing data from thousands of US Amazon users: The importance of transparency, money, and data use [6.794366017852433]
本稿は、米国5000人以上のユーザーから5年間にわたる、アクセス不能なAmazon購入履歴をクラウドソーシングする革新的なアプローチを共有する。
我々は参加者の同意を優先し、実験的な研究デザインを含むデータ収集ツールを開発した。
実験結果(N=6325)は、金銭的インセンティブと透明性の両方がデータ共有を大幅に増加させることを示している。
論文 参考訳(メタデータ) (2024-04-19T20:45:19Z) - A Survey on Data Selection for Language Models [148.300726396877]
データ選択方法は、トレーニングデータセットに含まれるデータポイントを決定することを目的としている。
ディープラーニングは、主に実証的な証拠によって駆動され、大規模なデータに対する実験は高価である。
広範なデータ選択研究のリソースを持つ組織はほとんどない。
論文 参考訳(メタデータ) (2024-02-26T18:54:35Z) - Ontologies for increasing the FAIRness of plant research data [0.0]
オンロジーは特定の領域の概念と概念間の関係を提供する。
データ用語でタグ付けすることで、データはヒューマンマシンの解釈可能になり、再利用と相互運用性が向上する。
植物科学の根本的研究と、植物固有の実験に関するデータのアノテートにどのように使用できるかについて概説する。
論文 参考訳(メタデータ) (2023-08-25T13:08:26Z) - The Dimensions of Data Labor: A Road Map for Researchers, Activists, and
Policymakers to Empower Data Producers [14.392208044851976]
データプロデューサは、取得したデータ、使用方法、あるいはそのメリットについてはほとんど言及していません。
このデータにアクセスし、処理する能力を持つ組織、例えばOpenAIやGoogleは、テクノロジーのランドスケープを形成する上で大きな力を持っている。
研究者,政策立案者,活動家がデータ生産者に力を与える機会を概説する。
論文 参考訳(メタデータ) (2023-05-22T17:11:22Z) - Assessing Scientific Contributions in Data Sharing Spaces [64.16762375635842]
本稿では、研究者の科学的貢献を測定するブロックチェーンベースのメトリクスであるSCIENCE-indexを紹介する。
研究者にデータ共有のインセンティブを与えるため、SCIENCE-indexはデータ共有パラメータを含むように拡張されている。
本モデルは, 地理的に多様な研究者の出力分布とh-indexの分布を比較して評価する。
論文 参考訳(メタデータ) (2023-03-18T19:17:47Z) - Towards Avoiding the Data Mess: Industry Insights from Data Mesh Implementations [1.5029560229270191]
Data Meshは、企業データ管理のための、社会技術的、分散化されたコンセプトである。
業界の専門家との15の半構造化インタビューを行います。
本研究は,業界の専門家による知見を総合し,データメッシュの採用を成功させるための予備的ガイドラインを研究者や専門家に提供する。
論文 参考訳(メタデータ) (2023-02-03T13:09:57Z) - DataPerf: Benchmarks for Data-Centric AI Development [81.03754002516862]
DataPerfは、MLデータセットとデータ中心アルゴリズムを評価するための、コミュニティ主導のベンチマークスイートである。
私たちは、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。
ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースである。
論文 参考訳(メタデータ) (2022-07-20T17:47:54Z) - Research Trends and Applications of Data Augmentation Algorithms [77.34726150561087]
我々は,データ拡張アルゴリズムの適用分野,使用するアルゴリズムの種類,重要な研究動向,時間経過に伴う研究の進展,およびデータ拡張文学における研究ギャップを同定する。
我々は、読者がデータ拡張の可能性を理解し、将来の研究方向を特定し、データ拡張研究の中で質問を開くことを期待する。
論文 参考訳(メタデータ) (2022-07-18T11:38:32Z) - Subdivisions and Crossroads: Identifying Hidden Community Structures in
a Data Archive's Citation Network [1.6631602844999724]
本稿では学術出版物に引用されるデータセットの権威ネットワークのコミュニティ構造を解析する。
共有データを用いた社会科学データセットと研究分野のコミュニティを同定する。
本研究は、データ再利用の隠れ構造を明らかにし、学際的な研究コミュニティがデータセットを共有科学的なインプットとして構成する方法を実証する。
論文 参考訳(メタデータ) (2022-05-17T14:18:49Z) - DeGAN : Data-Enriching GAN for Retrieving Representative Samples from a
Trained Classifier [58.979104709647295]
我々は、トレーニングされたネットワークの将来の学習タスクのために、利用可能なデータの豊富さと関連するデータの欠如の間のギャップを埋める。
利用可能なデータは、元のトレーニングデータセットまたは関連するドメインデータセットの不均衡なサブセットである可能性があるため、代表サンプルを検索するために使用します。
関連ドメインからのデータを活用して最先端のパフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2019-12-27T02:05:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。