論文の概要: Graph integration of structured, semistructured and unstructured data
for data journalism
- arxiv url: http://arxiv.org/abs/2007.12488v2
- Date: Fri, 30 Oct 2020 08:07:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 13:15:43.545323
- Title: Graph integration of structured, semistructured and unstructured data
for data journalism
- Title(参考訳): データジャーナリズムのための構造化・半構造化・非構造化データのグラフ統合
- Authors: Oana Balalau (CEDAR), Catarina Concei\c{c}{\~a}o (INESC-ID, IST),
Helena Galhardas (INESC-ID, IST), Ioana Manolescu (CEDAR), Tayeb Merabti
(CEDAR), Jingmao You (CEDAR, IP Paris), Youssr Youssef (CEDAR, ENSAE, IP
Paris)
- Abstract要約: 異種データソースの動的集合を統合するための完全なアプローチについて述べる。
提案手法はConnectionLensシステム内に実装されており,一連の実験を通じて検証する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Nowadays, journalism is facilitated by the existence of large amounts of
digital data sources, including many Open Data ones. Such data sources are
extremely heterogeneous, ranging from highly struc-tured (relational
databases), semi-structured (JSON, XML, HTML), graphs (e.g., RDF), and text.
Journalists (and other classes of users lacking advanced IT expertise, such as
most non-governmental-organizations, or small public administrations) need to
be able to make sense of such heterogeneous corpora, even if they lack the
ability to de ne and deploy custom extract-transform-load work ows. These are
di cult to set up not only for arbitrary heterogeneous inputs , but also given
that users may want to add (or remove) datasets to (from) the corpus. We
describe a complete approach for integrating dynamic sets of heterogeneous data
sources along the lines described above: the challenges we faced to make such
graphs useful, allow their integration to scale, and the solutions we proposed
for these problems. Our approach is implemented within the ConnectionLens
system; we validate it through a set of experiments.
- Abstract(参考訳): 今日では、多くのオープンデータを含む大量のデジタルデータソースの存在によってジャーナリズムが促進されている。
このようなデータソースは、高度に構造的な(リレーショナルデータベース)、半構造化(json、xml、html)、グラフ(例えばrdf)、テキストなど、非常に異種である。
ジャーナリスト(ほとんどの非政府組織や小さな行政機関のような先進的なIT専門知識を欠いている他のクラスのユーザー)は、たとえネを脱落させ、カスタムな抽出-変換-ロード作業の成果を展開できないとしても、このような異質なコーパスを理解できる必要がある。
これらは、任意の異種入力のために設定するdiカルトであるだけでなく、ユーザーがコーパスにデータセットを追加(または削除)したいと仮定する。
このようなグラフを便利にするために私たちが直面した課題は、それらの統合をスケール可能にすること、そして、我々がこれらの問題のために提案した解決策です。
提案手法はConnectionLensシステム内に実装されており,一連の実験を通じて検証する。
関連論文リスト
- Capturing and Anticipating User Intents in Data Analytics via Knowledge Graphs [0.061446808540639365]
この研究は、人間中心の複雑な分析を捉えるための基本的なフレームワークとして、知識グラフ(KG)の使用について検討する。
生成されたKGに格納されたデータは、これらのシステムと対話するユーザーに補助(例えばレコメンデーション)を提供するために利用される。
論文 参考訳(メタデータ) (2024-11-01T20:45:23Z) - SciER: An Entity and Relation Extraction Dataset for Datasets, Methods, and Tasks in Scientific Documents [49.54155332262579]
我々は,科学論文のデータセット,メソッド,タスクに関連するエンティティに対して,新たなエンティティと関係抽出データセットをリリースする。
我々のデータセットには、24k以上のエンティティと12kの関係を持つ106の注釈付きフルテキストの科学出版物が含まれています。
論文 参考訳(メタデータ) (2024-10-28T15:56:49Z) - Federated Neural Graph Databases [53.03085605769093]
プライバシを保ちながらマルチソースグラフベースのデータの推論を可能にする新しいフレームワークであるFederated Neural Graph Database (FedNGDB)を提案する。
既存の方法とは異なり、FedNGDBは複雑なグラフ構造と関係を扱うことができ、様々な下流タスクに適合する。
論文 参考訳(メタデータ) (2024-02-22T14:57:44Z) - Cross Modal Data Discovery over Structured and Unstructured Data Lakes [5.270224494298927]
組織はデータ駆動意思決定のために、ますます大量のデータを集めています。
これらのデータは、数千の構造化データセットと非構造化データセットからなる集中型リポジトリにダンプされることが多い。
逆に、そのようなデータセットの混合は、ユーザのクエリや分析タスクに関連する要素を発見することを非常に困難にしている。
論文 参考訳(メタデータ) (2023-06-01T17:34:42Z) - Deep Transfer Learning for Multi-source Entity Linkage via Domain
Adaptation [63.24594955429465]
マルチソースエンティティリンクは、データのクリーニングやユーザ縫合といった、高インパクトなアプリケーションにおいて重要である。
AdaMELは、多ソースエンティティリンクを実行するための一般的なハイレベルな知識を学ぶディープトランスファー学習フレームワークである。
本フレームワークは,教師付き学習に基づく平均的手法よりも8.21%向上した最先端の学習結果を実現する。
論文 参考訳(メタデータ) (2021-10-27T15:20:41Z) - Competency Problems: On Finding and Removing Artifacts in Language Data [50.09608320112584]
複雑な言語理解タスクでは、すべての単純な特徴相関が突発的であると論じる。
人間バイアスを考慮したコンピテンシー問題に対するデータ作成の難しさを理論的に分析します。
論文 参考訳(メタデータ) (2021-04-17T21:34:10Z) - Graph integration of structured, semistructured and unstructured data
for data journalism [4.508924138721326]
ヘテロジニアスデータセットの動的集合を統合するための完全なアプローチについて述べる。
提案手法はConnectionLensシステム内に実装されており,一連の実験を通じて検証する。
論文 参考訳(メタデータ) (2020-12-16T09:59:27Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z) - ENT-DESC: Entity Description Generation by Exploring Knowledge Graph [53.03778194567752]
実際には、出力記述が最も重要な知識のみをカバーするため、入力知識は十分以上である可能性がある。
我々は、KG-to-textにおけるこのような実践的なシナリオの研究を容易にするために、大規模で挑戦的なデータセットを導入する。
本稿では,元のグラフ情報をより包括的に表現できるマルチグラフ構造を提案する。
論文 参考訳(メタデータ) (2020-04-30T14:16:19Z) - Siamese Graph Neural Networks for Data Integration [11.41207739004894]
本稿では,リレーショナルデータベースなどの構造化データからエンティティをモデリングし,統合するための一般的なアプローチと,ニュース記事からの自由テキストなどの構造化されていない情報源を提案する。
我々のアプローチは、エンティティ間の関係を明示的にモデル化し、活用することにより、利用可能なすべての情報を使用し、できるだけ多くのコンテキストを保存するように設計されています。
我々は,ビジネスエンティティに関するデータ統合作業における手法の評価を行い,グラフベース表現を使用しない他のディープラーニングアプローチと同様に,標準的なルールベースシステムよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-01-17T21:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。