Fugu-MT 論文翻訳(概要): Semantic Data Management in Data Lakes

論文の概要: Semantic Data Management in Data Lakes

arxiv url: http://arxiv.org/abs/2310.15373v1
Date: Mon, 23 Oct 2023 21:16:50 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-25 21:30:31.990026
Title: Semantic Data Management in Data Lakes
Title（参考訳）: データレイクにおけるセマンティックデータ管理
Authors: Sayed Hoseini, Johannes Theissen-Lipp, Christoph Quix
Abstract要約: 近年では、現代のデータ分析のために大量の異種データを管理するために、データレイクが遠くに現れた。データレイクが運用不能なデータ湿地になるのを防ぐ方法の1つは、セマンティックデータ管理である。我々は,そのアプローチを (i) 基本的な意味データ管理, (ii) データレイクにおけるメタデータの充実のためのセマンティックモデリングアプローチ, (iii) オントロジーに基づくデータアクセスのための手法に分類する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In recent years, data lakes emerged as away to manage large amounts of heterogeneous data for modern data analytics. One way to prevent data lakes from turning into inoperable data swamps is semantic data management. Some approaches propose the linkage of metadata to knowledge graphs based on the Linked Data principles to provide more meaning and semantics to the data in the lake. Such a semantic layer may be utilized not only for data management but also to tackle the problem of data integration from heterogeneous sources, in order to make data access more expressive and interoperable. In this survey, we review recent approaches with a specific focus on the application within data lake systems and scalability to Big Data. We classify the approaches into (i) basic semantic data management, (ii) semantic modeling approaches for enriching metadata in data lakes, and (iii) methods for ontologybased data access. In each category, we cover the main techniques and their background, and compare latest research. Finally, we point out challenges for future work in this research area, which needs a closer integration of Big Data and Semantic Web technologies.
Abstract（参考訳）: 近年、現代のデータ分析のために大量の異種データを管理するために、データレイクが登場した。データレイクが運用不能なデータ沼になるのを防ぐ方法のひとつは、セマンティックデータ管理である。いくつかのアプローチでは、湖内のデータに対してより意味と意味を提供するために、Linked Data原則に基づいた知識グラフへのメタデータのリンクを提案する。このようなセマンティクスレイヤは、データ管理だけでなく、異種ソースからのデータ統合の問題にも対処して、データアクセスをより表現豊かで相互運用可能なものにすることもできる。本調査では,データレイクシステム内のアプリケーションとビッグデータのスケーラビリティに着目した最近のアプローチについて概説する。私たちはアプローチを分類します (i)基本的な意味的データ管理 (ii)データレイクにおけるメタデータ強化のための意味モデリング手法 (iii)オントロジベースのデータアクセス方法。各カテゴリにおいて、主要な技術とその背景をカバーし、最新の研究と比較する。最後に、ビッグデータとセマンティックweb技術のより緊密な統合を必要とするこの研究分野における今後の取り組みの課題を指摘する。

関連論文リスト

Is Exchangeability better than I.I.D to handle Data Distribution Shifts while Pooling Data for Data-scarce Medical image segmentation? [12.292774988144949]
データ不足は、特にディープラーニングモデルにおいて、医療画像における大きな課題である。深層ネットワークのすべての層にまたがる前景特徴差を制御できる手法を提案する。本手法は,5つのデータセットにまたがる病理組織像と超音波画像における最先端のセグメンテーション性能を実現する。
論文参考訳（メタデータ） (2025-07-25T17:55:06Z)
DataMIL: Selecting Data for Robot Imitation Learning with Datamodels [77.48472034791213]
データモデルパラダイムに基づいて構築されたポリシー駆動型データ選択フレームワークであるDataMILを紹介する。品質の概念を使ってデータをフィルタリングする標準的なプラクティスとは異なり、DataMILはタスクの成功のためにデータ選択を直接最適化する。我々は60以上のシミュレーションと実世界の操作タスクのスイートに対して,我々のアプローチを検証する。
論文参考訳（メタデータ） (2025-05-14T17:55:10Z)
Data Advisor: Dynamic Data Curation for Safety Alignment of Large Language Models [79.65071553905021]
所望のデータセットの特徴を考慮したデータ生成手法であるデータアドバイザを提案する。 Data Advisorは生成されたデータの状態を監視し、現在のデータセットの弱点を特定し、データ生成の次のイテレーションをアドバイスする。
論文参考訳（メタデータ） (2024-10-07T17:59:58Z)
Putting Data at the Centre of Offline Multi-Agent Reinforcement Learning [3.623224034411137]
オフラインマルチエージェント強化学習(英語: offline multi-agent reinforcement learning, MARL)は、静的データセットを用いてマルチエージェントシステムの最適制御ポリシーを見つける研究のエキサイティングな方向である。この分野は定義上はデータ駆動型だが、これまでのところ、最先端の結果を達成するための努力は、データを無視してきた。研究の大部分は、一貫した方法論を使わずに独自のデータセットを生成し、これらのデータセットの特徴に関するまばらな情報を提供する。
論文参考訳（メタデータ） (2024-09-18T14:13:24Z)
Research and Implementation of Data Enhancement Techniques for Graph Neural Networks [10.575426305555538]
実用工学の応用では、より多くのデータが得られない状況や、データを取得するコストが高すぎる状況によって、いくつかのデータが影響を受ける。本稿では、まず、グラフニューラルネットワークのデータ強化技術の要点を解析し、同時にグラフニューラルネットワークの奥行きの合成を紹介する。
論文参考訳（メタデータ） (2024-06-18T14:07:38Z)
OpenDataLab: Empowering General Artificial Intelligence with Open Datasets [53.22840149601411]
本稿では,多様なデータソース間のギャップと統一データ処理の必要性を埋めるプラットフォームであるOpenDataLabを紹介する。 OpenDataLabは、幅広いオープンソースのAIデータセットを統合し、インテリジェントクエリと高速ダウンロードサービスを通じて、データ取得効率を向上させる。我々は,OpenDataLabが人工知能(AGI)の研究を大幅に促進し,関連するAI分野の進歩を促進することを期待する。
論文参考訳（メタデータ） (2024-06-04T10:42:01Z)
Scaling Laws for Data Filtering -- Data Curation cannot be Compute Agnostic [99.3682210827572]
ビジョン言語モデル(VLM)は、慎重にキュレートされたWebデータセット上で数千のGPU時間でトレーニングされる。データキュレーション戦略は通常、トレーニングに利用可能な計算を知らないように開発されている。ウェブデータの非均一性を考慮したニューラルスケーリング法則を導入する。
論文参考訳（メタデータ） (2024-04-10T17:27:54Z)
Empowering Data Mesh with Federated Learning [5.087058648342379]
新しいパラダイムであるData Meshは、中央チームから各データドメインにデータオーナシップを分散することで、ドメインを第一級の関心事として扱う。 Paypal、Netflix、Zalandoといった数十万ドルの企業はすでに、この新しいアーキテクチャに基づいてデータ分析パイプラインを変革している。我々はフェデレートラーニングをData Meshに組み込む先駆的なアプローチを導入します。
論文参考訳（メタデータ） (2024-03-26T17:10:15Z)
Retrieve, Merge, Predict: Augmenting Tables with Data Lakes [7.449868392714658]
結合可能なテーブルを検索し、情報をマージし、結果のテーブルと予測する。データレイクとして、論文ではYADL(Yet Another Data Lake)と、よく参照された実際のデータレイクであるOpen Data USを使用している。
論文参考訳（メタデータ） (2024-02-09T09:48:38Z)
A Comprehensive Survey of Dataset Distillation [73.15482472726555]
限られた計算能力で無制限に成長するデータを扱うことは困難になっている。ディープラーニング技術はこの10年で前例のない発展を遂げた。本稿では,多面的なデータセット蒸留の総合的な理解を提供する。
論文参考訳（メタデータ） (2023-01-13T15:11:38Z)
Federated Causal Discovery [74.37739054932733]
本稿では,DAG-Shared Federated Causal Discovery (DS-FCD) という勾配学習フレームワークを開発する。ローカルデータに直接触れることなく因果グラフを学習し、データの不均一性を自然に扱うことができる。合成および実世界の両方のデータセットに対する大規模な実験により,提案手法の有効性が検証された。
論文参考訳（メタデータ） (2021-12-07T08:04:12Z)
A Big Data Lake for Multilevel Streaming Analytics [0.4640835690336652]
本稿では,データレイクと呼ばれるデータストレージアーキテクチャにおいて,高ボリューム,速度,多種多様なデータを生の形式で保存することに焦点を当てる。データレイクの開発に使用できるさまざまなオープンソースと商用プラットフォームについて議論し、比較する。データストリームの取り込み、ステージング、マルチレベルストリーミング分析のための実世界のデータレイク開発ユースケースを提案する。
論文参考訳（メタデータ） (2020-09-25T19:57:21Z)
Neural Data Server: A Large-Scale Search Engine for Transfer Learning Data [78.74367441804183]
我々は,ターゲットドメインに最も有用な転送学習データを見つけるための大規模検索エンジンであるNeural Data Server (NDS)を紹介した。 NDSは、いくつかの人気のある画像データセットをインデックスするデータサーバで構成され、クライアントにデータを推奨することを目的としている。我々は,NDSが様々な伝達学習シナリオにおいて有効であることを示し,複数のターゲットデータセットに対して最先端の性能を示す。
論文参考訳（メタデータ） (2020-01-09T01:21:30Z)
DeGAN : Data-Enriching GAN for Retrieving Representative Samples from a Trained Classifier [58.979104709647295]
我々は、トレーニングされたネットワークの将来の学習タスクのために、利用可能なデータの豊富さと関連するデータの欠如の間のギャップを埋める。利用可能なデータは、元のトレーニングデータセットまたは関連するドメインデータセットの不均衡なサブセットである可能性があるため、代表サンプルを検索するために使用します。関連ドメインからのデータを活用して最先端のパフォーマンスを実現することを実証する。
論文参考訳（メタデータ） (2019-12-27T02:05:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。