論文の概要: Relationships are Complicated! An Analysis of Relationships Between Datasets on the Web
- arxiv url: http://arxiv.org/abs/2408.14636v1
- Date: Mon, 26 Aug 2024 21:00:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-28 15:34:19.180195
- Title: Relationships are Complicated! An Analysis of Relationships Between Datasets on the Web
- Title(参考訳): 関係が複雑になる! Web 上のデータセット間の関係の分析
- Authors: Kate Lin, Tarfah Alrashed, Natasha Noy,
- Abstract要約: 我々は、Web上でデータセットを発見し、使用し、共有するユーザの視点から、データセットの関係について研究する。
まず、Web上のデータセット間の関係を包括的に分類し、これらの関係をデータセット発見中に実行されるユーザタスクにマッピングする。
データセットメタデータを用いた機械学習に基づく手法が,多クラス分類精度の90%を達成できることを実証した。
- 参考スコア(独自算出の注目度): 1.02801486034657
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Web today has millions of datasets, and the number of datasets continues to grow at a rapid pace. These datasets are not standalone entities; rather, they are intricately connected through complex relationships. Semantic relationships between datasets provide critical insights for research and decision-making processes. In this paper, we study dataset relationships from the perspective of users who discover, use, and share datasets on the Web: what relationships are important for different tasks? What contextual information might users want to know? We first present a comprehensive taxonomy of relationships between datasets on the Web and map these relationships to user tasks performed during dataset discovery. We develop a series of methods to identify these relationships and compare their performance on a large corpus of datasets generated from Web pages with schema.org markup. We demonstrate that machine-learning based methods that use dataset metadata achieve multi-class classification accuracy of 90%. Finally, we highlight gaps in available semantic markup for datasets and discuss how incorporating comprehensive semantics can facilitate the identification of dataset relationships. By providing a comprehensive overview of dataset relationships at scale, this paper sets a benchmark for future research.
- Abstract(参考訳): 現在Webには数百万のデータセットがあり、データセットの数は急速に増え続けている。
これらのデータセットはスタンドアロンのエンティティではなく、複雑な関係を通じて複雑に結びついている。
データセット間のセマンティックな関係は、研究と意思決定プロセスに重要な洞察を与える。
本稿では,Web上のデータセットを発見し,利用し,共有するユーザの視点から,データセットの関係について検討する。
ユーザが知りたいコンテキスト情報は何か?
まず、Web上のデータセット間の関係を包括的に分類し、これらの関係をデータセット発見中に実行されるユーザタスクにマッピングする。
我々はこれらの関係を識別する一連の手法を開発し、Webページから生成されたデータセットの大規模なコーパスとschema.orgマークアップを比較した。
データセットメタデータを用いた機械学習に基づく手法が,多クラス分類精度の90%を達成できることを実証した。
最後に、データセットの利用可能なセマンティックマークアップのギャップを強調し、包括的セマンティックスを組み込むことによってデータセット関係の識別が容易になる方法について論じる。
本論文は,大規模データセット関係の包括的概要を提供することで,今後の研究のベンチマークを定めている。
関連論文リスト
- Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - Relational Deep Learning: Graph Representation Learning on Relational
Databases [69.7008152388055]
複数のテーブルにまたがって配置されたデータを学ぶために、エンドツーエンドの表現アプローチを導入する。
メッセージパッシンググラフニューラルネットワークは、自動的にグラフを学習して、すべてのデータ入力を活用する表現を抽出する。
論文 参考訳(メタデータ) (2023-12-07T18:51:41Z) - Learning Representations without Compositional Assumptions [79.12273403390311]
本稿では,特徴集合をグラフノードとして表現し,それらの関係を学習可能なエッジとして表現することで,特徴集合の依存関係を学習するデータ駆動型アプローチを提案する。
また,複数のビューから情報を動的に集約するために,より小さな潜在グラフを学習する新しい階層グラフオートエンコーダLEGATOを導入する。
論文 参考訳(メタデータ) (2023-05-31T10:36:10Z) - Modeling Entities as Semantic Points for Visual Information Extraction
in the Wild [55.91783742370978]
文書画像から鍵情報を正確かつ堅牢に抽出する手法を提案する。
我々は、エンティティを意味的ポイントとして明示的にモデル化する。つまり、エンティティの中心点は、異なるエンティティの属性と関係を記述する意味情報によって豊かになる。
提案手法は,従来の最先端モデルと比較して,エンティティラベルとリンクの性能を著しく向上させることができる。
論文 参考訳(メタデータ) (2023-03-23T08:21:16Z) - Detection Hub: Unifying Object Detection Datasets via Query Adaptation
on Language Embedding [137.3719377780593]
新しいデザイン(De Detection Hubという名前)は、データセット認識とカテゴリ整列である。
データセットの不整合を緩和し、検出器が複数のデータセットをまたいで学習するための一貫性のあるガイダンスを提供する。
データセット間のカテゴリは、ワンホットなカテゴリ表現を単語埋め込みに置き換えることで、意味的に統一された空間に整列される。
論文 参考訳(メタデータ) (2022-06-07T17:59:44Z) - RTE: A Tool for Annotating Relation Triplets from Text [3.2958527541557525]
関係抽出では、2つの実体間の関係を参照する二項関係に焦点をあてる。
注釈付きクリーンデータセットの欠如は、この研究領域における重要な課題である。
本研究では、研究者が自身のデータセットで関係抽出に注釈を付けることができるウェブベースのツールを構築した。
論文 参考訳(メタデータ) (2021-08-18T14:54:22Z) - WebRED: Effective Pretraining And Finetuning For Relation Extraction On
The Web [4.702325864333419]
WebREDは、World Wide Webで見つかったテキストから関係を抽出するための強く監視された人間の注釈付きデータセットです。
弱教師付きデータセットの事前学習と、教師付きデータセットの微調整を組み合わせることで、関係抽出性能が向上することを示す。
論文 参考訳(メタデータ) (2021-02-18T23:56:12Z) - Mining Feature Relationships in Data [0.0]
特徴関係マイニング(FRM)は、データの連続的または分類的特徴間の象徴的関係を自動的に発見する遺伝的プログラミング手法である。
提案手法は,特徴間の関係を明確に発見することを目的とした,最初の象徴的アプローチである。
実世界の様々なデータセットに対する実証テストにより、提案手法は高品質で単純な特徴関係を見つけることができることを示した。
論文 参考訳(メタデータ) (2021-02-02T07:06:16Z) - Relation-Guided Representation Learning [53.60351496449232]
本稿では,サンプル関係を明示的にモデル化し,活用する表現学習手法を提案する。
私たちのフレームワークは、サンプル間の関係をよく保存します。
サンプルをサブスペースに埋め込むことにより,本手法が大規模なサンプル外問題に対処可能であることを示す。
論文 参考訳(メタデータ) (2020-07-11T10:57:45Z) - Exploration and Discovery of the COVID-19 Literature through Semantic
Visualization [9.687961759392559]
我々は,大規模な関係データセット上での探索と発見を可能にする意味可視化技術を開発している。
私たちの希望は、そうでなければ気づかないような複雑なデータの関連性に関する新しい推論を発見できることです。
論文 参考訳(メタデータ) (2020-07-03T16:40:37Z) - On Embeddings in Relational Databases [11.52782249184251]
低次元埋め込みを用いた関係データベースにおけるエンティティの分散表現学習の問題に対処する。
近年の埋め込み学習法は,すべてのテーブルの完全結合をリレーショナル化し,知識グラフとして表すことにより,データベースの完全非正規化を考慮に入れたナイーブな手法である。
本稿では,テーブル内の列の基本的なセマンティクスを利用して表現を学習する上で,関係結合と潜時関係を用いて,より優れた方法論を実証する。
論文 参考訳(メタデータ) (2020-05-13T17:21:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。