Fugu-MT 論文翻訳(概要): Cross Modal Data Discovery over Structured and Unstructured Data Lakes

論文の概要: Cross Modal Data Discovery over Structured and Unstructured Data Lakes

arxiv url: http://arxiv.org/abs/2306.00932v3
Date: Sun, 16 Jul 2023 12:24:50 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-18 22:12:59.680969
Title: Cross Modal Data Discovery over Structured and Unstructured Data Lakes
Title（参考訳）: 構造データ湖と非構造データ湖のクロスモーダルデータ発見
Authors: Mohamed Y. Eltabakh, Mayuresh Kunjir, Ahmed Elmagarmid, Mohammad Shahmeer Ahmad
Abstract要約: 組織はデータ駆動意思決定のために、ますます大量のデータを集めています。これらのデータは、数千の構造化データセットと非構造化データセットからなる集中型リポジトリにダンプされることが多い。逆に、そのようなデータセットの混合は、ユーザのクエリや分析タスクに関連する要素を発見することを非常に困難にしている。
参考スコア（独自算出の注目度）: 5.270224494298927
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Organizations are collecting increasingly large amounts of data for data driven decision making. These data are often dumped into a centralized repository, e.g., a data lake, consisting of thousands of structured and unstructured datasets. Perversely, such mixture of datasets makes the problem of discovering elements (e.g., tables or documents) that are relevant to a user's query or an analytical task very challenging. Despite the recent efforts in data discovery, the problem remains widely open especially in the two fronts of (1) discovering relationships and relatedness across structured and unstructured datasets where existing techniques suffer from either scalability, being customized for a specific problem type (e.g., entity matching or data integration), or demolishing the structural properties on its way, and (2) developing a holistic system for integrating various similarity measurements and sketches in an effective way to boost the discovery accuracy. In this paper, we propose a new data discovery system, named CMDL, for addressing these two limitations. CMDL supports the data discovery process over both structured and unstructured data while retaining the structural properties of tables.
Abstract（参考訳）: 組織はデータ駆動意思決定のために、ますます大量のデータを集めています。これらのデータは、数千の構造化データセットと非構造化データセットからなるデータレイクなど、中央リポジトリにダンプされることが多い。逆に、そのようなデータセットの混合は、ユーザのクエリや分析タスクに関連する要素(例えばテーブルやドキュメント)を発見することを非常に困難にしている。 Despite the recent efforts in data discovery, the problem remains widely open especially in the two fronts of (1) discovering relationships and relatedness across structured and unstructured datasets where existing techniques suffer from either scalability, being customized for a specific problem type (e.g., entity matching or data integration), or demolishing the structural properties on its way, and (2) developing a holistic system for integrating various similarity measurements and sketches in an effective way to boost the discovery accuracy. 本稿では,この2つの制約に対処するための新しいデータディスカバリシステムcmdlを提案する。 CMDLは、テーブルの構造特性を維持しながら、構造化データと非構造化データの両方でデータ発見プロセスをサポートする。

関連論文リスト

OpenDataArena: A Fair and Open Arena for Benchmarking Post-Training Dataset Value [74.80873109856563]
OpenDataArena(ODA)は、トレーニング後のデータの本質的な価値をベンチマークするために設計された、総合的でオープンなプラットフォームである。 ODAは4つの主要な柱からなる包括的なエコシステムを確立している。 (i) 多様なモデル間で公平でオープンな比較を保証する統一的なトレーニング評価パイプライン、 (ii) 異なる軸数に沿ってデータ品質をプロファイリングする多次元スコアリングフレームワーク、 (iii) データセットの系図を視覚化してコンポーネントソースを識別するインタラクティブなデータ系統探索である。
論文参考訳（メタデータ） (2025-12-16T03:33:24Z)
CoDA: Agentic Systems for Collaborative Data Visualization [57.270599188947294]
深層研究はデータ分析に革命をもたらしたが、データサイエンティストは依然として手作業による視覚化にかなりの時間を費やしている。単純なシングルエージェントシステムやマルチエージェントシステムを含む既存のアプローチは、しばしばタスクを単純化する。本稿では,メタデータ分析,タスク計画,コード生成,自己回帰に特殊なLLMエージェントを利用するマルチエージェントシステムであるCoDAを紹介する。
論文参考訳（メタデータ） (2025-10-03T17:30:16Z)
A Case for Computing on Unstructured Data [6.425984481490725]
我々は、非構造化データ上での計算と呼ばれる新しいパラダイムを議論し、潜在構造の抽出、データ処理技術によるこの構造の変換、非構造化形式への投影という3つの段階に構築する。この双方向パイプラインは、構造化されていないデータに対して、構造化された計算の分析力の恩恵を受けると同時に、非構造化された表現のリッチ性とアクセシビリティを人間とAIの消費のために保持する。
論文参考訳（メタデータ） (2025-09-18T04:24:41Z)
WikiDBGraph: A Data Management Benchmark Suite for Collaborative Learning over Database Silos [48.88393315169039]
協調学習(CL)技術により、複数のパーティが生データを共有せずにモデルを共同でトレーニングできる。現在のCLベンチマークとアルゴリズムは、主に、分離、アライメント、結合可能なデータベースの仮定の下で学習ステップを目標としています。我々は1700万の重み付きエッジでリンクされた10万の現実世界のリレーショナルデータベースから構築された大規模なデータセットを構築した。
論文参考訳（メタデータ） (2025-05-22T13:07:06Z)
BabelBench: An Omni Benchmark for Code-Driven Analysis of Multimodal and Multistructured Data [61.936320820180875]
大規模言語モデル(LLM)は、様々な領域でますます重要になっている。 BabelBenchは、コード実行によるマルチモーダルなマルチ構造化データ管理におけるLLMの熟練度を評価する革新的なベンチマークフレームワークである。 BabelBenchの実験結果から,ChatGPT 4のような最先端モデルでさえ,大幅な改善の余地があることが示唆された。
論文参考訳（メタデータ） (2024-10-01T15:11:24Z)
Enhancing Structured-Data Retrieval with GraphRAG: Soccer Data Case Study [4.742245127121496]
Structured-GraphRAGは自然言語クエリにおける構造化データセット間の情報検索を強化するために設計された汎用フレームワークである。その結果,Structured-GraphRAGはクエリ処理効率を大幅に改善し,応答時間を短縮することがわかった。
論文参考訳（メタデータ） (2024-09-26T06:53:29Z)
Exploiting Formal Concept Analysis for Data Modeling in Data Lakes [0.29998889086656577]
本稿では,形式的概念分析(FCA)に根ざした実用的なデータ可視化と分析手法を提案する。データ構造をオブジェクトとして表現し、概念格子を分析し、これらの構造を統一し共通のスキーマを確立するための2つの戦略を提示します。私たちは、34の異なるフィールド名しか持たない、80%のデータ構造を完全にカバーしています。
論文参考訳（メタデータ） (2024-08-11T13:58:31Z)
DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文参考訳（メタデータ） (2024-07-01T18:58:22Z)
CMDBench: A Benchmark for Coarse-to-fine Multimodal Data Discovery in Compound AI Systems [10.71630696651595]
知識集約的なタスクを達成するエージェントとしてLLMを使用する複合AIシステム(CAS)は、データベースやAIコミュニティにおいて大きな関心を集めている。マルチモーダルデータソースのサイロは、そのタスクを達成するための適切なデータソースを特定するのを困難にしている。我々はエンタープライズデータプラットフォームの複雑さをモデル化したベンチマークであるCMDBenchを提案する。
論文参考訳（メタデータ） (2024-06-02T01:10:41Z)
Decoupled Subgraph Federated Learning [57.588938805581044]
複数のクライアントに分散したグラフ構造化データに対するフェデレーション学習の課題に対処する。我々は、このシナリオのための新しいフレームワーク、FedStructを紹介します。半教師付きノード分類のための6つのデータセットを用いて実験結果を用いてFedStructの有効性を検証する。
論文参考訳（メタデータ） (2024-02-29T13:47:23Z)
Federated Causal Discovery [74.37739054932733]
本稿では,DAG-Shared Federated Causal Discovery (DS-FCD) という勾配学習フレームワークを開発する。ローカルデータに直接触れることなく因果グラフを学習し、データの不均一性を自然に扱うことができる。合成および実世界の両方のデータセットに対する大規模な実験により,提案手法の有効性が検証された。
論文参考訳（メタデータ） (2021-12-07T08:04:12Z)
CateCom: a practical data-centric approach to categorization of computational models [77.34726150561087]
本稿では,物理モデルとデータ駆動型計算モデルのランドスケープを整理する取り組みについて述べる。オブジェクト指向設計の概念を適用し、オープンソース協調フレームワークの基礎を概説する。
論文参考訳（メタデータ） (2021-09-28T02:59:40Z)
Graph integration of structured, semistructured and unstructured data for data journalism [4.508924138721326]
ヘテロジニアスデータセットの動的集合を統合するための完全なアプローチについて述べる。提案手法はConnectionLensシステム内に実装されており,一連の実験を通じて検証する。
論文参考訳（メタデータ） (2020-12-16T09:59:27Z)
Graph integration of structured, semistructured and unstructured data for data journalism [0.0]
異種データソースの動的集合を統合するための完全なアプローチについて述べる。提案手法はConnectionLensシステム内に実装されており,一連の実験を通じて検証する。
論文参考訳（メタデータ） (2020-07-23T08:55:09Z)
DART: Open-Domain Structured Data Record to Text Generation [91.23798751437835]
82k以上のインスタンス(DART)を持つオープンドメイン構造化DAta Record to Text生成データセットであるDARTを提案する。本稿では,テーブルヘッダとテーブルタイトル間の意味的依存関係を利用して,その構造を符号化するテーブルから意味的三重項を抽出する手法を提案する。我々のデータセット構築フレームワークは、オープンドメイン意味解析と対話行動に基づく意味表現タスクからヘテロジニアスソースを効果的に統合する。
論文参考訳（メタデータ） (2020-07-06T16:35:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。