論文の概要: From Data Creator to Data Reuser: Distance Matters
- arxiv url: http://arxiv.org/abs/2402.07926v1
- Date: Mon, 5 Feb 2024 18:16:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-18 13:27:08.975352
- Title: From Data Creator to Data Reuser: Distance Matters
- Title(参考訳): data creatorからdata reuserへ: 距離が重要
- Authors: Christine L. Borgman, Paul T. Groth
- Abstract要約: データ管理への投資は、誰がデータを再利用できるか、どのように、なぜ、いつ、どのように再利用するかを考えることで、より賢明に行うことができる。
データクリエータは、すべての再利用や再利用を期待することはできない。
我々は,データ作成者とデータ再使用者の間の距離の理論的構成を開発する。
- 参考スコア(独自算出の注目度): 1.000779758350696
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sharing research data is complex, labor-intensive, expensive, and requires
infrastructure investments by multiple stakeholders. Open science policies
focus on data release rather than on data reuse, yet reuse is also difficult,
expensive, and may never occur. Investments in data management could be made
more wisely by considering who might reuse data, how, why, for what purposes,
and when. Data creators cannot anticipate all possible reuses or reusers; our
goal is to identify factors that may aid stakeholders in deciding how to invest
in research data, how to identify potential reuses and reusers, and how to
improve data exchange processes. Drawing upon empirical studies of data sharing
and reuse, we develop the theoretical construct of distance between data
creator and data reuser, identifying six distance dimensions that influence the
ability to transfer knowledge effectively: domain, methods, collaboration,
curation, purposes, and time and temporality. These dimensions are primarily
social in character, with associated technical aspects that can decrease - or
increase - distances between creators and reusers. We identify the order of
expected influence on data reuse and ways in which the six dimensions are
interdependent. Our theoretical framing of the distance between data creators
and prospective reusers leads to recommendations to four categories of
stakeholders on how to make data sharing and reuse more effective: data
creators, data reusers, data archivists, and funding agencies.
- Abstract(参考訳): 研究データの共有は複雑で、労働集約的で、高価であり、複数の利害関係者によるインフラ投資を必要とする。
オープンサイエンスのポリシーはデータの再利用よりもデータリリースにフォーカスしているが、再利用もまた難しく、費用がかかり、決して起こり得ない。
データ管理への投資は、誰がデータを再利用できるか、どのように、なぜ、どのような目的のために、いつ、どのように再利用するかを考えることでより賢明に行うことができる。
我々の目標は、ステークホルダーが研究データに投資する方法、潜在的な再利用や再利用者を特定する方法、データ交換プロセスを改善する方法を決定するのに役立つ要因を特定することです。
データ共有と再利用に関する経験的研究をもとに,データクリエータとデータリユーザとの間の距離に関する理論的構成を開発し,知識を効果的に伝達する能力に影響を与える6つの距離次元(ドメイン,メソッド,コラボレーション,キュレーション,目的,時間と時間)を同定する。
これらの次元は主に社会的性格であり、関連する技術的側面はクリエーターと再利用者の間の距離を減らしたり、増やしたりすることができる。
データ再利用における期待される影響の順序と、6次元が相互依存する方法を特定する。
データ作成者と将来的な再利用者の間の距離に関する理論的枠組みは、データの共有と再利用をより効果的にする方法に関するステークホルダーの4つのカテゴリ – データ作成者、データ再利用者、データアーキビスト、資金提供機関 – に推奨を与えます。
関連論文リスト
- Data-Centric AI in the Age of Large Language Models [51.20451986068925]
本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。
本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。
データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
論文 参考訳(メタデータ) (2024-06-20T16:34:07Z) - Insights from an experiment crowdsourcing data from thousands of US Amazon users: The importance of transparency, money, and data use [6.794366017852433]
本稿は、米国5000人以上のユーザーから5年間にわたる、アクセス不能なAmazon購入履歴をクラウドソーシングする革新的なアプローチを共有する。
我々は参加者の同意を優先し、実験的な研究デザインを含むデータ収集ツールを開発した。
実験結果(N=6325)は、金銭的インセンティブと透明性の両方がデータ共有を大幅に増加させることを示している。
論文 参考訳(メタデータ) (2024-04-19T20:45:19Z) - A Survey on Data Selection for Language Models [148.300726396877]
データ選択方法は、トレーニングデータセットに含まれるデータポイントを決定することを目的としている。
ディープラーニングは、主に実証的な証拠によって駆動され、大規模なデータに対する実験は高価である。
広範なデータ選択研究のリソースを持つ組織はほとんどない。
論文 参考訳(メタデータ) (2024-02-26T18:54:35Z) - Ontologies for increasing the FAIRness of plant research data [0.0]
オンロジーは特定の領域の概念と概念間の関係を提供する。
データ用語でタグ付けすることで、データはヒューマンマシンの解釈可能になり、再利用と相互運用性が向上する。
植物科学の根本的研究と、植物固有の実験に関するデータのアノテートにどのように使用できるかについて概説する。
論文 参考訳(メタデータ) (2023-08-25T13:08:26Z) - The Dimensions of Data Labor: A Road Map for Researchers, Activists, and
Policymakers to Empower Data Producers [14.392208044851976]
データプロデューサは、取得したデータ、使用方法、あるいはそのメリットについてはほとんど言及していません。
このデータにアクセスし、処理する能力を持つ組織、例えばOpenAIやGoogleは、テクノロジーのランドスケープを形成する上で大きな力を持っている。
研究者,政策立案者,活動家がデータ生産者に力を与える機会を概説する。
論文 参考訳(メタデータ) (2023-05-22T17:11:22Z) - Assessing Scientific Contributions in Data Sharing Spaces [64.16762375635842]
本稿では、研究者の科学的貢献を測定するブロックチェーンベースのメトリクスであるSCIENCE-indexを紹介する。
研究者にデータ共有のインセンティブを与えるため、SCIENCE-indexはデータ共有パラメータを含むように拡張されている。
本モデルは, 地理的に多様な研究者の出力分布とh-indexの分布を比較して評価する。
論文 参考訳(メタデータ) (2023-03-18T19:17:47Z) - Towards Avoiding the Data Mess: Industry Insights from Data Mesh Implementations [1.5029560229270191]
Data Meshは、企業データ管理のための、社会技術的、分散化されたコンセプトである。
業界の専門家との15の半構造化インタビューを行います。
本研究は,業界の専門家による知見を総合し,データメッシュの採用を成功させるための予備的ガイドラインを研究者や専門家に提供する。
論文 参考訳(メタデータ) (2023-02-03T13:09:57Z) - DataPerf: Benchmarks for Data-Centric AI Development [81.03754002516862]
DataPerfは、MLデータセットとデータ中心アルゴリズムを評価するための、コミュニティ主導のベンチマークスイートである。
私たちは、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。
ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースである。
論文 参考訳(メタデータ) (2022-07-20T17:47:54Z) - Research Trends and Applications of Data Augmentation Algorithms [77.34726150561087]
我々は,データ拡張アルゴリズムの適用分野,使用するアルゴリズムの種類,重要な研究動向,時間経過に伴う研究の進展,およびデータ拡張文学における研究ギャップを同定する。
我々は、読者がデータ拡張の可能性を理解し、将来の研究方向を特定し、データ拡張研究の中で質問を開くことを期待する。
論文 参考訳(メタデータ) (2022-07-18T11:38:32Z) - Subdivisions and Crossroads: Identifying Hidden Community Structures in
a Data Archive's Citation Network [1.6631602844999724]
本稿では学術出版物に引用されるデータセットの権威ネットワークのコミュニティ構造を解析する。
共有データを用いた社会科学データセットと研究分野のコミュニティを同定する。
本研究は、データ再利用の隠れ構造を明らかにし、学際的な研究コミュニティがデータセットを共有科学的なインプットとして構成する方法を実証する。
論文 参考訳(メタデータ) (2022-05-17T14:18:49Z) - DeGAN : Data-Enriching GAN for Retrieving Representative Samples from a
Trained Classifier [58.979104709647295]
我々は、トレーニングされたネットワークの将来の学習タスクのために、利用可能なデータの豊富さと関連するデータの欠如の間のギャップを埋める。
利用可能なデータは、元のトレーニングデータセットまたは関連するドメインデータセットの不均衡なサブセットである可能性があるため、代表サンプルを検索するために使用します。
関連ドメインからのデータを活用して最先端のパフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2019-12-27T02:05:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。