論文の概要: Graph integration of structured, semistructured and unstructured data
for data journalism
- arxiv url: http://arxiv.org/abs/2012.08830v1
- Date: Wed, 16 Dec 2020 09:59:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-03 02:51:47.415462
- Title: Graph integration of structured, semistructured and unstructured data
for data journalism
- Title(参考訳): データジャーナリズムのための構造化・半構造化・非構造化データのグラフ統合
- Authors: Angelos-Christos Anadiotis, Oana Balalau, Catarina Conceicao, Helena
Galhardas, Mhd Yamen Haddad, Ioana Manolescu, Tayeb Merabti, Jingmao You
- Abstract要約: ヘテロジニアスデータセットの動的集合を統合するための完全なアプローチについて述べる。
提案手法はConnectionLensシステム内に実装されており,一連の実験を通じて検証する。
- 参考スコア(独自算出の注目度): 4.508924138721326
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Digital data is a gold mine for modern journalism. However, datasets which
interest journalists are extremely heterogeneous, ranging from highly
structured (relational databases), semi-structured (JSON, XML, HTML), graphs
(e.g., RDF), and text. Journalists (and other classes of users lacking advanced
IT expertise, such as most non-governmental-organizations, or small public
administrations) need to be able to make sense of such heterogeneous corpora,
even if they lack the ability to define and deploy custom
extract-transform-load workflows, especially for dynamically varying sets of
data sources.
We describe a complete approach for integrating dynamic sets of heterogeneous
datasets along the lines described above: the challenges we faced to make such
graphs useful, allow their integration to scale, and the solutions we proposed
for these problems. Our approach is implemented within the ConnectionLens
system; we validate it through a set of experiments.
- Abstract(参考訳): デジタルデータは現代のジャーナリズムの金鉱である。
しかし、ジャーナリストに興味のあるデータセットは、高度に構造化された(リレーショナルデータベース)、半構造化された(json、xml、html)、グラフ(例えばrdf)、テキストなど、非常に異質である。
ジャーナリスト(ほとんどの非政府組織や小さな行政機関のような先進的なIT専門知識を欠いている他のクラスのユーザー)は、特別な抽出-変換-負荷ワークフローの定義とデプロイができない場合でも、このような異質なコーパスを理解する必要がある。
このようなグラフを有用にするために直面した課題は、それらの統合をスケール可能にすることであり、これらの問題に対して提案した解決策である。
提案手法はConnectionLensシステム内に実装されており,一連の実験を通じて検証する。
関連論文リスト
- DA-MoE: Addressing Depth-Sensitivity in Graph-Level Analysis through Mixture of Experts [70.21017141742763]
グラフニューラルネットワーク(GNN)は、グラフ構造化データを処理することで人気を集めている。
既存のメソッドは通常、固定数のGNNレイヤを使用して、すべてのグラフの表現を生成する。
本稿では,GNNに2つの改良を加えたDA-MoE法を提案する。
論文 参考訳(メタデータ) (2024-11-05T11:46:27Z) - Capturing and Anticipating User Intents in Data Analytics via Knowledge Graphs [0.061446808540639365]
この研究は、人間中心の複雑な分析を捉えるための基本的なフレームワークとして、知識グラフ(KG)の使用について検討する。
生成されたKGに格納されたデータは、これらのシステムと対話するユーザーに補助(例えばレコメンデーション)を提供するために利用される。
論文 参考訳(メタデータ) (2024-11-01T20:45:23Z) - Multi-Modal Dataset Creation for Federated Learning with DICOM Structured Reports [26.2463670182172]
フェデレーショントレーニングは、多種多様なデータストレージオプション、一貫性のない命名方式、さまざまなアノテーション手順、ラベル品質の相違により、しばしば異種データセットによって妨げられる。
これは、均一なデータ表現とフィルタリングオプションを含むデータセット調和が最重要となる、新興のマルチモーダル学習パラダイムにおいて特に顕著である。
我々は、マルチモーダルデータセットの組み立てプロセスを簡単にする、データ統合と対話型フィルタリング機能のためのオープンプラットフォームを開発した。
論文 参考訳(メタデータ) (2024-07-12T07:34:10Z) - Federated Neural Graph Databases [53.03085605769093]
プライバシを保ちながらマルチソースグラフベースのデータの推論を可能にする新しいフレームワークであるFederated Neural Graph Database (FedNGDB)を提案する。
既存の方法とは異なり、FedNGDBは複雑なグラフ構造と関係を扱うことができ、様々な下流タスクに適合する。
論文 参考訳(メタデータ) (2024-02-22T14:57:44Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - Competency Problems: On Finding and Removing Artifacts in Language Data [50.09608320112584]
複雑な言語理解タスクでは、すべての単純な特徴相関が突発的であると論じる。
人間バイアスを考慮したコンピテンシー問題に対するデータ作成の難しさを理論的に分析します。
論文 参考訳(メタデータ) (2021-04-17T21:34:10Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z) - Graph integration of structured, semistructured and unstructured data
for data journalism [0.0]
異種データソースの動的集合を統合するための完全なアプローチについて述べる。
提案手法はConnectionLensシステム内に実装されており,一連の実験を通じて検証する。
論文 参考訳(メタデータ) (2020-07-23T08:55:09Z) - ENT-DESC: Entity Description Generation by Exploring Knowledge Graph [53.03778194567752]
実際には、出力記述が最も重要な知識のみをカバーするため、入力知識は十分以上である可能性がある。
我々は、KG-to-textにおけるこのような実践的なシナリオの研究を容易にするために、大規模で挑戦的なデータセットを導入する。
本稿では,元のグラフ情報をより包括的に表現できるマルチグラフ構造を提案する。
論文 参考訳(メタデータ) (2020-04-30T14:16:19Z) - Siamese Graph Neural Networks for Data Integration [11.41207739004894]
本稿では,リレーショナルデータベースなどの構造化データからエンティティをモデリングし,統合するための一般的なアプローチと,ニュース記事からの自由テキストなどの構造化されていない情報源を提案する。
我々のアプローチは、エンティティ間の関係を明示的にモデル化し、活用することにより、利用可能なすべての情報を使用し、できるだけ多くのコンテキストを保存するように設計されています。
我々は,ビジネスエンティティに関するデータ統合作業における手法の評価を行い,グラフベース表現を使用しない他のディープラーニングアプローチと同様に,標準的なルールベースシステムよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-01-17T21:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。