Fugu-MT 論文翻訳(概要): Semantic Modelling of Organizational Knowledge as a Basis for Enterprise Data Governance 4.0 -- Application to a Unified Clinical Data Model

論文の概要: Semantic Modelling of Organizational Knowledge as a Basis for Enterprise Data Governance 4.0 -- Application to a Unified Clinical Data Model

arxiv url: http://arxiv.org/abs/2311.02082v1
Date: Fri, 20 Oct 2023 19:36:03 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-12 19:57:04.157634
Title: Semantic Modelling of Organizational Knowledge as a Basis for Enterprise Data Governance 4.0 -- Application to a Unified Clinical Data Model
Title（参考訳）: 企業データガバナンスの基盤としての組織知識のセマンティックモデリング 4.0 --統一臨床データモデルへの応用
Authors: Miguel AP Oliveira, Stephane Manara, Bruno Mol\'e, Thomas Muller, Aur\'elien Guillouche, Lysann Hesske, Bruce Jordan, Gilles Hubert, Chinmay Kulkarni, Pralipta Jagdev and Cedric R. Berger
Abstract要約: メタデータ駆動、アジャイル、および(半)自動化されたデータガバナンスを可能にする、シンプルでコスト効率のよいフレームワークを確立します。企業規模で25年間の臨床研究データを、完全に生産的な環境で統合するために、このフレームワークをどのように実装し、利用するかを説明します。
参考スコア（独自算出の注目度）: 6.302916372143144
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Individuals and organizations cope with an always-growing data amount, heterogeneous in contents and formats. Prerequisites to get value out this data and minimise inherent risks related to multiple usages are adequate data management processes yielding data quality and control over its lifecycle. Common data governance frameworks relying on people and policies falls short of the overwhelming data complexity. Yet, harnessing this complexity is necessary to achieve high quality standards. The later will condition the outcome of any downstream data usage, including generative artificial intelligence trained on this data. In this paper, we report our concrete experience establishing a simple, cost-efficient framework, that enables metadata-driven, agile and (semi-)automated data governance (i.e. Data Governance 4.0). We explain how we implement and use this framework to integrate 25 years of clinical study data at enterprise scale, in a fully productive environment. The framework encompasses both methodologies and technologies leveraging semantic web principles. We built an knowledge graph describing data assets avatars in their business context including governance principles. Multiple ontologies articulated by an enterprise upper ontology enable key governance actions such as FAIRification, lifecycle management, definition of roles and responsibilities, lineage across transformations and provenance from source systems. This metadata model is a prerequisite to automatize data governance, make it fit-for-purpose to each use case and dynamically adapting it to business changes.
Abstract（参考訳）: 個人や組織は常に成長するデータ量に対処し、内容やフォーマットは異質である。このデータから価値を得て、複数の利用に関連する固有のリスクを最小化する前提条件は、データの品質とライフサイクルの制御をもたらす適切なデータ管理プロセスである。人とポリシーに依存する一般的なデータガバナンスフレームワークは、圧倒的なデータ複雑性に欠けています。しかし、高品質な標準を達成するためには、この複雑さを活用する必要がある。後者は、このデータで訓練された生成的人工知能を含む、ダウンストリームのデータ使用の結果を条件とする。本稿では,メタデータ駆動,アジャイル,(準)自動データガバナンス(すなわちデータガバナンス 4.0)を実現する,シンプルでコスト効率のよいフレームワークを構築した具体的経験を報告する。我々は,25年間の臨床研究データを企業規模で,完全に生産的な環境で統合するために,このフレームワークの実装と利用について説明する。このフレームワークはセマンティックウェブの原則を利用する方法論と技術の両方を含んでいる。ガバナンスの原則を含むビジネスコンテキストにおけるデータ資産アバターを記述するナレッジグラフを構築しました。エンタープライズ上のオントロジーによって記述された複数のオントロジーは、FAIRification、ライフサイクル管理、役割と責任の定義、トランスフォーメーション間の血統、ソースコードからの証明といった重要なガバナンスのアクションを可能にします。このメタデータモデルは、データガバナンスを自動化し、各ユースケースに適合させ、ビジネスの変化に動的に適用するための前提条件です。

関連論文リスト

Data Science and Technology Towards AGI Part I: Tiered Data Management [53.64581824953229]
我々は、人工知能の開発がデータモデル共進化の新しい段階に入ったと論じる。我々は、未処理のリソースから組織的で検証可能な知識まで、L0-L4階層のデータ管理フレームワークを紹介します。提案手法の有効性を実証研究により検証する。
論文参考訳（メタデータ） (2026-02-09T18:47:51Z)
EntWorld: A Holistic Environment and Benchmark for Verifiable Enterprise GUI Agents [12.7922877987936]
EntWorldは6つの代表的なエンタープライズドメインにわたる1,756タスクからなる大規模なベンチマークである。基礎となるデータベーススキーマからビジネスロジックを直接リバースエンジニアリングするスキーマ基底タスク生成フレームワークを提案する。現状のモデルでは,EntWorldで47.61%の成功率を達成した。
論文参考訳（メタデータ） (2026-01-25T06:58:15Z)
DataGovBench: Benchmarking LLM Agents for Real-World Data Governance Workflows [22.16698382751559]
大規模言語モデル(LLM)は、ユーザの意図をコードに変換することによって、データガバナンスを自動化するための有望なソリューションとして登場した。既存の自動データサイエンスのベンチマークでは、スニペットレベルのコーディングや高レベルの分析が強調されることが多い。データGovBenchは、実際のケースのデータに基づいて構築された、現実世界のシナリオに基盤を置く150の多様なタスクを特徴とするベンチマークです。
論文参考訳（メタデータ） (2025-12-04T03:25:12Z)
UtilGen: Utility-Centric Generative Data Augmentation with Dual-Level Task Adaptation [70.2215233759276]
UtilGenは、コンピュータビジョンタスクのための新しいユーティリティ中心のデータ拡張フレームワークである。 UtilGenは、常に優れたデータセットを達成しており、平均精度は以前のSOTAよりも3.87%向上している。データの影響と分布のさらなる分析により、UtilGenはより影響のあるタスク関連合成データを生成することが明らかになった。
論文参考訳（メタデータ） (2025-10-28T10:17:11Z)
Scaling Generalist Data-Analytic Agents [95.05161133349242]
DataMindは、汎用データ分析エージェントを構築するために設計されたスケーラブルなデータ合成およびエージェントトレーニングレシピである。 DataMindは、オープンソースのデータ分析エージェントを構築する上で重要な3つの課題に取り組む。
論文参考訳（メタデータ） (2025-09-29T17:23:08Z)
Autonomous Data Agents: A New Opportunity for Smart Data [50.02229219403014]
DataAgentsは、自律的なデータから知識システムへのパラダイムシフトを表している、とReportは主張する。 DataAgentsは、複雑で非構造化されたデータをコヒーレントで行動可能な知識に変換する。エージェントAIとデータ・トゥ・ナレッジシステムの収束が重要なトレンドとなっている理由を最初に検討する。
論文参考訳（メタデータ） (2025-09-23T06:46:41Z)
Meta-Statistical Learning: Supervised Learning of Statistical Inference [59.463430294611626]
この研究は、大きな言語モデル(LLM)の成功を駆動するツールと原則が、分散レベルのタスクに取り組むために再利用可能であることを実証している。本稿では,統計的推論タスクを教師付き学習問題として再構成するマルチインスタンス学習に触発されたメタ統計学習を提案する。
論文参考訳（メタデータ） (2025-02-17T18:04:39Z)
Data-Juicer 2.0: Cloud-Scale Adaptive Data Processing for and with Foundation Models [64.28420991770382]
Data-Juicer 2.0は、テキスト、画像、ビデオ、オーディオのモダリティにまたがるデータ処理オペレーターがバックアップするデータ処理システムである。データ分析、アノテーション、基礎モデルポストトレーニングなど、より重要なタスクをサポートする。さまざまな研究分野やAlibaba Cloud PAIのような現実世界の製品で広く採用されている。
論文参考訳（メタデータ） (2024-12-23T08:29:57Z)
A Systematic Review of NeurIPS Dataset Management Practices [7.974245534539289]
我々はNeurIPSトラックで公開されたデータセットの体系的なレビューを行い、証明、配布、倫理的開示、ライセンスの4つの重要な側面に焦点を当てる。この結果から, データセットの出現は不明瞭なフィルタリングやキュレーションのプロセスのため, しばしば不明瞭であることが明らかとなった。これらの矛盾は、データセットの公開と管理のための標準化されたデータインフラストラクチャーの緊急の必要性を浮き彫りにする。
論文参考訳（メタデータ） (2024-10-31T23:55:41Z)
Flex: End-to-End Text-Instructed Visual Navigation with Foundation Models [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。この知見はFlex (Fly-lexically) で合成され,VLM(Vision Language Models) をフリーズしたパッチワイド特徴抽出器として利用するフレームワークである。本研究では,本手法が4段階のフライ・トゥ・ターゲットタスクにおいて有効であることを示す。
論文参考訳（メタデータ） (2024-10-16T19:59:31Z)
A Theoretical Framework for AI-driven data quality monitoring in high-volume data environments [1.2753215270475886]
本稿では,高ボリューム環境におけるデータ品質維持の課題に対処するために,AIによるデータ品質監視システムに関する理論的枠組みを提案する。本稿では,ビッグデータのスケール,速度,多様性の管理における従来の手法の限界について検討し,高度な機械学習技術を活用した概念的アプローチを提案する。主なコンポーネントは、インテリジェントデータ取り込み層、適応前処理機構、コンテキスト認識機能抽出、AIベースの品質評価モジュールなどである。
論文参考訳（メタデータ） (2024-10-11T07:06:36Z)
Blockchain-Enabled Accountability in Data Supply Chain: A Data Bill of Materials Approach [16.31469678670097]
データ請求書(Data Bill of Materials, DataBOM)は、特定のメタデータを格納することで、異なるデータセットと利害関係者間の依存関係関係をキャプチャする。ブロックチェーンベースのDataBOMサービスを提供するためのプラットフォームアーキテクチャを実証し、利害関係者のためのインタラクションプロトコルを提示し、DataBOMメタデータの最小要件について議論する。
論文参考訳（メタデータ） (2024-08-16T05:34:50Z)
DataGen: Unified Synthetic Dataset Generation via Large Language Models [88.16197692794707]
DataGenは、多様な、正確で、高度に制御可能なデータセットを生成するように設計された包括的なフレームワークである。データ多様性を強化するため、DataGenは属性誘導生成モジュールとグループチェック機能を備えている。大規模な実験は、DataGenによって生成されたデータの優れた品質を示す。
論文参考訳（メタデータ） (2024-06-27T07:56:44Z)
Efficient Data Collection for Robotic Manipulation via Compositional Generalization [70.76782930312746]
本研究では, 環境要因をデータから構成し, 未確認の要因の組み合わせに遭遇した場合に成功できることを示す。コンポジションを利用したドメイン内データ収集手法を提案する。ビデオはhttp://iliad.stanford.edu/robot-data-comp/で公開しています。
論文参考訳（メタデータ） (2024-03-08T07:15:38Z)
An Integrated Data Processing Framework for Pretraining Foundation Models [57.47845148721817]
研究者や実践者は、しばしば異なるソースからデータセットを手動でキュレートする必要がある。本稿では,処理モジュールと解析モジュールを統合したデータ処理フレームワークを提案する。提案されたフレームワークは使いやすく、柔軟です。
論文参考訳（メタデータ） (2024-02-26T07:22:51Z)
Transforming Agriculture with Intelligent Data Management and Insights [3.027257459810039]
現代の農業は、気候変動と天然資源の枯渇の制約の下で、食料、燃料、飼料、繊維の需要の増加に対応するための大きな課題に直面している。データ革新は、アグロエコシステムの生産性、持続可能性、レジリエンスの確保と改善に緊急に必要です。
論文参考訳（メタデータ） (2023-11-07T22:02:54Z)
Robot Fleet Learning via Policy Merging [58.5086287737653]
我々はFLEET-MERGEを提案し、艦隊設定における政策を効率的にマージする。本稿では,FLEET-MERGEがメタワールド環境における50のタスクで訓練されたポリシーの行動を統合することを示す。合成・接触に富んだロボット操作タスクにおけるフリートポリシー学習のための新しいロボットツール用ベンチマークであるFLEET-TOOLSを導入する。
論文参考訳（メタデータ） (2023-10-02T17:23:51Z)
1st ICLR International Workshop on Privacy, Accountability, Interpretability, Robustness, Reasoning on Structured Data (PAIR^2Struct) [28.549151517783287]
データプライバシ、説明可能性、解釈可能性、ロバスト性、推論は、決定クリティカルおよび/またはプライバシに敏感なアプリケーションに機械学習(ML)技術を使用する基本的な原則として認識されている。本質的に構造化された知識を利用することで、より関連性の高い変数を特定し、使用して信頼性の高い決定を行うための、妥当なアプローチを設計することができる。
論文参考訳（メタデータ） (2022-10-07T15:12:03Z)
TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文参考訳（メタデータ） (2022-08-16T20:46:08Z)
CateCom: a practical data-centric approach to categorization of computational models [77.34726150561087]
本稿では,物理モデルとデータ駆動型計算モデルのランドスケープを整理する取り組みについて述べる。オブジェクト指向設計の概念を適用し、オープンソース協調フレームワークの基礎を概説する。
論文参考訳（メタデータ） (2021-09-28T02:59:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。