論文の概要: Packaging code for reproducible research in the public sector
- arxiv url: http://arxiv.org/abs/2305.16205v1
- Date: Thu, 25 May 2023 16:07:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 14:00:04.373487
- Title: Packaging code for reproducible research in the public sector
- Title(参考訳): 公共部門における再現性研究のためのパッケージコード
- Authors: Federico Botta, Robin Lovelace, Laura Gilbert, Arthur Turrell
- Abstract要約: jtstatsプロジェクトは、大規模で複雑なデータセットをインポート、処理、視覚化するためのRとPythonパッケージで構成されている。
Jtstatsは、パブリックセクター内外において、ドメイン固有のパッケージが再現可能な研究を可能にする方法を示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The effective and ethical use of data to inform decision-making offers huge
value to the public sector, especially when delivered by transparent,
reproducible, and robust data processing workflows. One way that governments
are unlocking this value is through making their data publicly available,
allowing more people and organisations to derive insights. However, open data
is not enough in many cases: publicly available datasets need to be accessible
in an analysis-ready form from popular data science tools, such as R and
Python, for them to realise their full potential.
This paper explores ways to maximise the impact of open data with reference
to a case study of packaging code to facilitate reproducible analysis. We
present the jtstats project, which consists of R and Python packages for
importing, processing, and visualising large and complex datasets representing
journey times, for many modes and purposes at multiple geographic levels,
released by the UK Department of Transport. jtstats shows how domain specific
packages can enable reproducible research within the public sector and beyond,
saving duplicated effort and reducing the risks of errors from repeated
analyses. We hope that the jtstats project inspires others, particularly those
in the public sector, to add value to their data sets by making them more
accessible.
- Abstract(参考訳): 意思決定を伝えるためのデータの有効性と倫理的利用は、特に透明性があり再現性があり、堅牢なデータ処理ワークフローによって提供される場合、公共セクターに大きな価値をもたらす。
政府がこの価値を解き放つ一つの方法は、データを公開し、より多くの人々や組織が洞察を導き出すことである。
公開されているデータセットは、RやPythonのような一般的なデータサイエンスツールから分析可能な形式でアクセスできなければなりません。
本稿では,複製可能な解析を容易にするパッケージングコードのケーススタディを参考に,オープンデータの影響を最大化する方法について検討する。
我々は、英国運輸省がリリースした複数の地理的レベルで多くのモードと目的のために、旅程を表す大規模で複雑なデータセットをインポート、処理、視覚化するためのRおよびPythonパッケージからなるjtstatsプロジェクトを提示する。
jtstatsは、ドメイン固有のパッケージがパブリックセクタ内の再現可能な研究を可能にし、重複した労力を省き、繰り返し分析によるエラーのリスクを減らす方法を示している。
jtstatsプロジェクトは、他の、特に公共セクターの人たちに、よりアクセスしやすくすることで、データセットに価値を加えるよう促すことを願っています。
関連論文リスト
- Enabling Advanced Land Cover Analytics: An Integrated Data Extraction Pipeline for Predictive Modeling with the Dynamic World Dataset [1.3757956340051605]
Dynamic Worldデータセットを扱うために、フレキシブルで効率的なエンドツーエンドパイプラインを提示します。
これには、ノイズ除去に取り組む前処理および表現フレームワーク、大量のデータの効率的な抽出、LULCデータの再表現が含まれる。
パイプラインのパワーを実証するために、都市化予測問題のためのデータを抽出し、優れたパフォーマンスで機械学習モデルのスイートを構築する。
論文 参考訳(メタデータ) (2024-10-11T16:13:01Z) - Using Large Language Models to Enrich the Documentation of Datasets for Machine Learning [1.8270184406083445]
大規模言語モデル(LLM)を用いて,文書から次元を自動的に抽出する戦略について検討する。
当社のアプローチは、データパブリッシャや実践者がマシン可読なドキュメントを作成するのに役立ちます。
我々は、我々のアプローチを実装するオープンソースツールと、実験のコードと結果を含むレプリケーションパッケージをリリースした。
論文 参考訳(メタデータ) (2024-04-04T10:09:28Z) - UniTraj: A Unified Framework for Scalable Vehicle Trajectory Prediction [93.77809355002591]
さまざまなデータセット、モデル、評価基準を統一する包括的なフレームワークであるUniTrajを紹介する。
我々は広範な実験を行い、他のデータセットに転送するとモデルの性能が大幅に低下することがわかった。
これらの知見を説明するために,データセットの特徴に関する洞察を提供する。
論文 参考訳(メタデータ) (2024-03-22T10:36:50Z) - A Survey on Data Selection for Language Models [148.300726396877]
データ選択方法は、トレーニングデータセットに含まれるデータポイントを決定することを目的としている。
ディープラーニングは、主に実証的な証拠によって駆動され、大規模なデータに対する実験は高価である。
広範なデータ選択研究のリソースを持つ組織はほとんどない。
論文 参考訳(メタデータ) (2024-02-26T18:54:35Z) - The Data Provenance Initiative: A Large Scale Audit of Dataset Licensing
& Attribution in AI [41.32981860191232]
法的および機械学習の専門家は、1800以上のテキストデータセットを体系的に監査し、追跡する。
私たちのランドスケープ分析は、コンポジションの急激な分断と、商業的にオープンなデータセットとクローズドなデータセットの焦点を浮き彫りにしています。
広く使用されているデータセットホスティングサイトでは、ライセンスが70%以上、エラー率が50%以上である。
論文 参考訳(メタデータ) (2023-10-25T17:20:26Z) - LargeST: A Benchmark Dataset for Large-Scale Traffic Forecasting [65.71129509623587]
道路交通予測はスマートシティのイニシアチブにおいて重要な役割を担い、ディープラーニングの力によって大きな進歩を遂げている。
しかし、現在の公開データセットで達成される有望な結果は、現実的なシナリオには適用できないかもしれない。
カリフォルニアで合計8,600のセンサーと5年間の時間カバレッジを含む、LargeSTベンチマークデータセットを紹介します。
論文 参考訳(メタデータ) (2023-06-14T05:48:36Z) - infoVerse: A Universal Framework for Dataset Characterization with
Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。
infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。
実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-30T18:12:48Z) - Customs Import Declaration Datasets [12.306592823750385]
我々は、税関行政におけるドメインエキスパートと多様なドメインの研究者の協力を促進するために、インポート宣言データセットを導入する。
データセットには、54,000の人工的に生成された取引と22のキー属性が含まれている。
我々は、より高度なアルゴリズムが詐欺を検知しやすくすることを実証的に示している。
論文 参考訳(メタデータ) (2022-08-04T06:20:20Z) - The Problem of Zombie Datasets:A Framework For Deprecating Datasets [55.878249096379804]
我々は、ImageNet、8000 Million Tiny Images、MS-Celeb-1M、Duke MTMC、Brainwash、HRT Transgenderなど、いくつかの著名なデータセットの公開後処理について検討する。
本稿では,リスクの考慮,影響の緩和,アピール機構,タイムライン,非推奨プロトコル,公開チェックなどを含むデータセットの非推奨化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-18T20:13:51Z) - Open Bandit Dataset and Pipeline: Towards Realistic and Reproducible
Off-Policy Evaluation [10.135719343010178]
オフ政治評価(OPE)は、異なる政策によって生成されたデータを用いて仮説的政策のパフォーマンスを推定することを目的としている。
しかし、OPEの評価を可能にする現実世界のパブリックデータセットは存在しない。
大規模なeコマースプラットフォームであるZOZOTOWN上で収集した,公開ログ付きバンディットデータセットであるOpen Banditデータセットを提案する。
論文 参考訳(メタデータ) (2020-08-17T08:23:50Z) - Open Graph Benchmark: Datasets for Machine Learning on Graphs [86.96887552203479]
スケーラブルで堅牢で再現可能なグラフ機械学習(ML)の研究を容易にするために,Open Graph Benchmark(OGB)を提案する。
OGBデータセットは大規模で、複数の重要なグラフMLタスクを含み、さまざまなドメインをカバーする。
各データセットに対して,有意義なアプリケーション固有のデータ分割と評価指標を用いた統一評価プロトコルを提供する。
論文 参考訳(メタデータ) (2020-05-02T03:09:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。