論文の概要: DatAasee -- A Metadata-Lake as Metadata Catalog for a Virtual Data-Lake
- arxiv url: http://arxiv.org/abs/2409.05512v2
- Date: Tue, 06 May 2025 13:51:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-07 18:50:10.938581
- Title: DatAasee -- A Metadata-Lake as Metadata Catalog for a Virtual Data-Lake
- Title(参考訳): DatAasee - 仮想データレイクのためのメタデータカタログ
- Authors: Christian Himpe,
- Abstract要約: この作業は、データレイク(メタデータレイク)から派生したデータアーキテクチャを構築する。
提案するメタデータアグリゲータの概念実証実装を提示し,評価した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Metadata management for distributed data sources is a long-standing but ever-growing problem. To counter this challenge in a research-data and library-oriented setting, this work constructs a data architecture, derived from the data-lake: the metadata-lake. A proof-of-concept implementation of this proposed metadata aggregator is presented and also evaluated.
- Abstract(参考訳): 分散データソースのメタデータ管理は、長続きするが、絶え間ない問題である。
研究データおよびライブラリ指向の環境でこの問題に対処するため、この研究は、データレイクから派生したデータアーキテクチャ、メタデータレイクを構築する。
提案するメタデータアグリゲータの概念実証実装を提示し,評価した。
関連論文リスト
- LAND: A Longitudinal Analysis of Neuromorphic Datasets [47.84658158364453]
このレビューでは、既存のニューロモルフィックデータセットをキャプチャし、423以上のデータセットをカバーしている。
これらのデータセットの分析は、そのサイズ、標準化の欠如、実際のデータにアクセスする上での困難さを示している。
より重要な懸念は、シミュレーションまたはビデオ・ツー・イベントの手法によって生成される合成データセットの台頭である。
論文 参考訳(メタデータ) (2026-02-17T19:46:33Z) - Can LLMs Clean Up Your Mess? A Survey of Application-Ready Data Preparation with LLMs [66.63911043019294]
データ準備は、生のデータセットを識別し、データセット間の関係を解明し、それらから貴重な洞察を抽出することを目的としている。
本稿では,様々な下流タスクのためのデータ準備にLLM技術を用いることに焦点を当てる。
データクリーニング、標準化、エラー処理、計算、データ統合、データ豊か化という3つの主要なタスクにフィールドを編成するタスク中心の分類を導入します。
論文 参考訳(メタデータ) (2026-01-22T12:02:45Z) - Smart Metadata in Action: The Social Impact Data Commons [0.5545791216381869]
この記事では、ソーシャル・インパクト・データ・コモンズ(Social Impact Data Commons)におけるメタデータと標準の使用について説明する。
私たちはまず、Data Commonsの概念を導入し、その機能に注目し、Data Commonsの現在の実装の概要を示します。
次に、コアメタデータケーススタディを示し、スマートメタデータがData Commonsをどのようにサポートするかを示します。
論文 参考訳(メタデータ) (2025-11-21T16:18:47Z) - LLM/Agent-as-Data-Analyst: A Survey [54.08761322298559]
大規模言語モデル(LLM)とエージェント技術は、データ分析タスクの機能と開発パラダイムに根本的な変化をもたらした。
LLMは複雑なデータ理解、自然言語、意味分析機能、自律パイプラインオーケストレーションを可能にする。
論文 参考訳(メタデータ) (2025-09-28T17:31:38Z) - Flexible metadata harvesting for ecology using large language models [3.4117490081172774]
大規模言語モデル(LLM)に基づくメタデータ抽出装置を開発した。
任意のデータセットのランディングページからメタデータを柔軟に抽出する。
既存のメタデータ標準を使用して、これらをユーザ定義の統一フォーマットに変換する。
論文 参考訳(メタデータ) (2025-08-21T10:10:29Z) - Metadata Enrichment of Long Text Documents using Large Language Models [3.536523762475449]
本プロジェクトでは,1920年から2020年にかけて出版された英語のHatiTrust Digital Libraryから取得した長文文書のメタデータ,論文,論文のセマンティックエンリッチ化と拡張を行った。
このデータセットは、計算社会科学、デジタル人文科学、情報科学などの分野の研究を進めるための貴重なリソースを提供する。
論文 参考訳(メタデータ) (2025-06-26T00:55:47Z) - MOLE: Metadata Extraction and Validation in Scientific Papers Using LLMs [54.5729817345543]
MOLEは、アラビア語以外の言語のデータセットをカバーする科学論文からメタデータ属性を自動的に抽出するフレームワークである。
本手法では,複数の入力形式にまたがって文書全体を処理し,一貫した出力に対する堅牢な検証機構を組み込む。
論文 参考訳(メタデータ) (2025-05-26T10:31:26Z) - Data Advisor: Dynamic Data Curation for Safety Alignment of Large Language Models [79.65071553905021]
所望のデータセットの特徴を考慮したデータ生成手法であるデータアドバイザを提案する。
Data Advisorは生成されたデータの状態を監視し、現在のデータセットの弱点を特定し、データ生成の次のイテレーションをアドバイスする。
論文 参考訳(メタデータ) (2024-10-07T17:59:58Z) - Putting Data at the Centre of Offline Multi-Agent Reinforcement Learning [3.623224034411137]
オフラインマルチエージェント強化学習(英語: offline multi-agent reinforcement learning, MARL)は、静的データセットを用いてマルチエージェントシステムの最適制御ポリシーを見つける研究のエキサイティングな方向である。
この分野は定義上はデータ駆動型だが、これまでのところ、最先端の結果を達成するための努力は、データを無視してきた。
研究の大部分は、一貫した方法論を使わずに独自のデータセットを生成し、これらのデータセットの特徴に関するまばらな情報を提供する。
論文 参考訳(メタデータ) (2024-09-18T14:13:24Z) - An Integrated Data Processing Framework for Pretraining Foundation Models [57.47845148721817]
研究者や実践者は、しばしば異なるソースからデータセットを手動でキュレートする必要がある。
本稿では,処理モジュールと解析モジュールを統合したデータ処理フレームワークを提案する。
提案されたフレームワークは使いやすく、柔軟です。
論文 参考訳(メタデータ) (2024-02-26T07:22:51Z) - Semantic Data Management in Data Lakes [0.0]
近年では、現代のデータ分析のために大量の異種データを管理するために、データレイクが遠くに現れた。
データレイクが運用不能なデータ湿地になるのを防ぐ方法の1つは、セマンティックデータ管理である。
我々は,そのアプローチを (i) 基本的な意味データ管理, (ii) データレイクにおけるメタデータの充実のためのセマンティックモデリングアプローチ, (iii) オントロジーに基づくデータアクセスのための手法に分類する。
論文 参考訳(メタデータ) (2023-10-23T21:16:50Z) - Dataset Factory: A Toolchain For Generative Computer Vision Datasets [0.9013233848500058]
メタデータからサンプルの保存と処理を分離する「データセットファクトリ」を提案する。
これにより、機械学習チームや個々の研究者に対して、大規模にデータ中心の操作が可能になる。
論文 参考訳(メタデータ) (2023-09-20T19:43:37Z) - Modeling Data Analytics Architecture for Smart Cities Data-Driven
Applications using DAT [1.8945921149936187]
この記事では、DATを利用したデータ駆動スマートシティアプリケーションのためのモデル駆動エンジニアリングを使用したデータ分析アーキテクチャ(DAA)の開発経験について紹介します。
DAAは、DATを利用したデータ駆動スマートシティアプリケーションにモデル駆動エンジニアリングを使用する。
論文 参考訳(メタデータ) (2023-07-17T21:52:57Z) - infoVerse: A Universal Framework for Dataset Characterization with
Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。
infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。
実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-30T18:12:48Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - Metadata Representations for Queryable ML Model Zoos [73.24799582702326]
機械学習(ML)の実践者や組織は、事前訓練されたモデルのモデル動物園を構築しており、モデルの性質を記述するメタデータを含んでいる。
メタタダは現在標準化されておらず、表現力は限られている。
本稿では,MLモデルのメタデータ表現と管理の標準化を提唱し,そのメタデータの管理とクエリを支援するツールキットを提案する。
論文 参考訳(メタデータ) (2022-07-19T15:04:14Z) - Datasets: A Community Library for Natural Language Processing [55.48866401721244]
データセットは、現代のNLPのためのコミュニティライブラリである。
このライブラリには650以上のユニークなデータセットが含まれており、250以上のコントリビュータを抱えており、さまざまな新しいクロスデータセット研究プロジェクトを支援している。
論文 参考訳(メタデータ) (2021-09-07T03:59:22Z) - A Big Data Lake for Multilevel Streaming Analytics [0.4640835690336652]
本稿では,データレイクと呼ばれるデータストレージアーキテクチャにおいて,高ボリューム,速度,多種多様なデータを生の形式で保存することに焦点を当てる。
データレイクの開発に使用できるさまざまなオープンソースと商用プラットフォームについて議論し、比較する。
データストリームの取り込み、ステージング、マルチレベルストリーミング分析のための実世界のデータレイク開発ユースケースを提案する。
論文 参考訳(メタデータ) (2020-09-25T19:57:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。