論文の概要: OpenHealth Lake: Designing and testing a data lakehouse platform for health applications
- arxiv url: http://arxiv.org/abs/2605.19922v1
- Date: Tue, 19 May 2026 14:45:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.407197
- Title: OpenHealth Lake: Designing and testing a data lakehouse platform for health applications
- Title(参考訳): OpenHealth Lake: 医療アプリケーションのためのデータレイクハウスプラットフォームの設計とテスト
- Authors: Danilo Silva, Monika Moir, Cheryl Baxter, Tulio de Oliveira, Joicymara Xavier, Marcel Dunaiski,
- Abstract要約: OpenHealth Lakeは、データレイクハウスアーキテクチャ、データフェデレーション、FAIR原則に基づく、データ管理のプロトタイププラットフォームである。
現在のプロトタイププラットフォームは、ユーザフレンドリなWebサイト、オープンAPI、PythonとRパッケージで構成されており、ユーザは複数の方法でプラットフォームと対話できる。
- 参考スコア(独自算出の注目度): 0.2539920413471809
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data management can be a complex challenge in fields such as bioinformatics and health sciences, which continuously generate extensive heterogeneous datasets. In the context of collaborative global health initiatives, secure storage and sharing of data are crucial to support impactful research. However, the absence of a unified data management platform complicates efficient data exchange and governance within these initiatives. In this paper, we introduce the design process of OpenHealth Lake, a data management prototype platform based on a data lakehouse architecture, data federation, and the FAIR principles. The platform is designed using open-source tools, guided by system requirements identified in previously published studies and complemented by insights from the existing literature. The current prototype platform comprises a user-friendly website, an open API, Python and R packages, allowing users to interact with the platform in multiple ways. Through a user study that included participants with varying technical backgrounds, we showed that our proposed data management prototype is both usable and useful. Our prototype design showcases the adaptability, scalability, and reproducibility of a lakehouse system that can be used by any organisation. It is designed as a flexible and complementary approach that allows organisations to customise data management systems to their specific requirements and resources, including cloud-based or self-hosted storage choices.
- Abstract(参考訳): データ管理は、バイオインフォマティクスや健康科学といった分野において複雑な課題になり得る。
協力的なグローバルヘルスイニシアチブの文脈では、安全なストレージとデータの共有は、影響のある研究を支援するために不可欠である。
しかし、統一データ管理プラットフォームが存在しないことは、これらのイニシアチブ内での効率的なデータ交換とガバナンスを複雑にします。
本稿では,データレイクハウスアーキテクチャ,データフェデレーション,FAIR原則に基づくデータ管理プロトタイププラットフォームであるOpenHealth Lakeの設計プロセスを紹介する。
プラットフォームはオープンソースツールを使用して設計されており、以前に公開された研究で特定されたシステム要件によってガイドされ、既存の文献からの洞察によって補完される。
現在のプロトタイププラットフォームは、ユーザフレンドリなWebサイト、オープンAPI、PythonとRパッケージで構成されており、ユーザは複数の方法でプラットフォームと対話できる。
さまざまな技術的背景を持つ参加者を含むユーザスタディを通じて,提案したデータ管理プロトタイプが有用かつ有用であることを示す。
私たちのプロトタイプ設計では、あらゆる組織で使用可能なレイクハウスシステムの適応性、スケーラビリティ、再現性を示しています。
柔軟性のある補完的なアプローチとして設計されており、クラウドベースやセルフホスト型ストレージの選択など、データ管理システムを独自の要件とリソースにカスタマイズすることができる。
関連論文リスト
- Project Imaging-X: A Survey of 1000+ Open-Access Medical Imaging Datasets for Foundation Model Development [314.80153557710616]
我々は、1,000以上のオープンアクセスデータセットをカバーする、医療画像データセットの現在における最大の調査を提示する。
私たちの分析では、範囲が狭いタスクにまたがって断片化され、臓器やモダリティに不均一に分散した、質素なスケールのランドスケープを公開しています。
本稿では,メタデータ駆動型融合パラダイム(MDFP)を提案する。
論文 参考訳(メタデータ) (2026-03-29T00:46:53Z) - A Framework and Prototype for a Navigable Map of Datasets in Engineering Design and Systems Engineering [0.0]
本稿では,EDSEにおけるデータセットマップの体系的枠組みを提案する。
このフレームワークは、ドメイン、ライフサイクルステージ、データタイプ、フォーマットごとにエンジニアリングデータセットを分類するために設計された多次元分類に基づいて構築されている。
現在のデータランドスケープの分析では、初期段階の設計とシステムアーキテクチャにおける未表現の領域(データ砂漠)と、予測保守と自律システムにおける比較的よく表現された領域(データオース)が明らかにされている。
論文 参考訳(メタデータ) (2026-03-16T17:08:20Z) - AI-Powered Multi-Stakeholder Ecosystems for Global Development: A Design Research Study on the GSI D-Hub Proof-of-Concept Platform [0.0]
本稿では,データ駆動協調プラットフォームであるGlobal Solutions Initiative (GSI) D-Hubについて述べる。
このシステムは構造化データモデル、解釈可能なアルゴリズム、合成データパイプラインを統合し、情報非対称性を低減する。
結果は、説明可能なレコメンデーションとコンテキストダッシュボードが信頼、ユーザビリティ、意思決定の信頼性を高めることを示している。
論文 参考訳(メタデータ) (2026-01-25T22:27:01Z) - LLM-based Multi-Agent Blackboard System for Information Discovery in Data Science [69.1690891731311]
従来のAIモデルのためのブラックボードアーキテクチャに着想を得た,新しいマルチエージェント通信パラダイムを提案する。
このフレームワークでは、中央エージェントが共有ブラックボードにリクエストをポストし、自律的な従属エージェントがその能力に基づいて応答する。
明示的なデータ発見を必要とする3つのベンチマークに対して,本手法の評価を行った。
論文 参考訳(メタデータ) (2025-09-30T22:34:23Z) - Data-Juicer 2.0: Cloud-Scale Adaptive Data Processing for and with Foundation Models [83.65386456026441]
Data-Juicer 2.0は、テキスト、画像、ビデオ、オーディオのモダリティにまたがる100以上のデータ処理オペレータがバックアップするデータ処理システムである。
データ分析、合成、アノテーション、基礎モデルのポストトレーニングなど、より重要なタスクをサポートする。
このシステムは公開されており、さまざまな研究分野やAlibaba Cloud PAIのような現実世界の製品で広く採用されている。
論文 参考訳(メタデータ) (2024-12-23T08:29:57Z) - Architectural Design Decisions for Self-Serve Data Platforms in Data
Meshes [3.627365672061558]
データメッシュは、分析的エンタープライズデータから大規模に価値を管理し、生成するための、新たな分散型アプローチである。
データの所有権は、データに最も近いビジネスドメインに移行し、データの共有と管理を自律的な製品として促進し、フェデレートされた自動データガバナンスモデルを使用する。
データメッシュは、データプロダクトを効率的に構築、共有、管理するために、ドメインチームとガバナンスチームにサービスを提供するマネージドデータプラットフォームに依存しています。
論文 参考訳(メタデータ) (2024-02-07T09:13:26Z) - A Versatile Data Fabric for Advanced IoT-Based Remote Health Monitoring [0.8789651809819904]
本稿では,デジタルヘルスアプリケーション用に設計された,データ中心でセキュリティを重視したデータファブリックについて述べる。
提案するデータファブリックは、異種データソースの統合を容易にするアーキテクチャとツールキットから構成される。
本稿では,高齢者を対象とした在宅遠隔監視研究プロジェクトにおいて,データファブリックの実装について紹介する。
論文 参考訳(メタデータ) (2023-10-02T22:05:48Z) - YMIR: A Rapid Data-centric Development Platform for Vision Applications [82.67319997259622]
本稿では,コンピュータビジョンアプリケーションの開発を迅速化するオープンソースプラットフォームについて紹介する。
このプラットフォームは、効率的なデータ開発を機械学習開発プロセスの中心に置く。
論文 参考訳(メタデータ) (2021-11-19T05:02:55Z) - CateCom: a practical data-centric approach to categorization of
computational models [77.34726150561087]
本稿では,物理モデルとデータ駆動型計算モデルのランドスケープを整理する取り組みについて述べる。
オブジェクト指向設計の概念を適用し、オープンソース協調フレームワークの基礎を概説する。
論文 参考訳(メタデータ) (2021-09-28T02:59:40Z) - INODE: Building an End-to-End Data Exploration System in Practice
[Extended Vision] [30.411996388471817]
INODEはエンドツーエンドのデータ探索システムです。
私達は癌のバイオマーカーのReearch、研究および革新の方針の作成および天体物理学の分野の3つの重要な使用例でそれを実証します。
論文 参考訳(メタデータ) (2021-04-09T05:04:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。