論文の概要: Text Data Integration
- arxiv url: http://arxiv.org/abs/2603.27055v1
- Date: Sat, 28 Mar 2026 00:03:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.755667
- Title: Text Data Integration
- Title(参考訳): テキストデータ統合
- Authors: Md Ataur Rahman, Dimitris Sacharidis, Oscar Romero, Sergi Nadal,
- Abstract要約: 本章では,テキストデータの統合を事例として,その課題,技術状況,オープンな課題について述べる。
これまで、ほとんどのデータ統合システムは、構造化されたデータソースの組み合わせにのみ依存してきた。
- 参考スコア(独自算出の注目度): 2.70201105073482
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data comes in many forms. From a shallow perspective, they can be viewed as being either in structured (e.g., as a relation, as key-value pairs) or unstructured (e.g., text, image) formats. So far, machines have been fairly good at processing and reasoning over structured data that follows a precise schema. However, the heterogeneity of data poses a significant challenge on how well diverse categories of data can be meaningfully stored and processed. Data Integration, a crucial part of the data engineering pipeline, addresses this by combining disparate data sources and providing unified data access to end-users. Until now, most data integration systems have leaned on only combining structured data sources. Nevertheless, unstructured data (a.k.a. free text) also contains a plethora of knowledge waiting to be utilized. Thus, in this chapter, we firstly make the case for the integration of textual data, to later present its challenges, state of the art and open problems.
- Abstract(参考訳): データは多種多様である。
浅い視点では、それらは構造化されている(例えば、キーと値のペアとして関係する)か、非構造化されていない(例えば、テキスト、イメージ)フォーマットと見なすことができる。
これまでのところ、機械は正確なスキーマに従う構造化データの処理と推論がかなり得意だった。
しかし、データの異質性は、データの多様なカテゴリがいかに有意義に保存され、処理されるかにおいて、重大な課題となる。
データエンジニアリングパイプラインの重要な部分であるデータ統合は、異なるデータソースを組み合わせて、エンドユーザに統一されたデータアクセスを提供することによって、この問題に対処する。
これまで、ほとんどのデータ統合システムは、構造化されたデータソースの組み合わせにのみ依存してきた。
それでも、構造化されていないデータ(フリーテキスト)には、使われるのを待っている知識が多々含まれている。
そこで本章では,まずテキストデータの統合を事例として,その課題,最先端,オープンな課題を提示する。
関連論文リスト
- Generative Data Transformation: From Mixed to Unified Data [57.84692191369066]
textscTaesarはtextbftarget-textbfal textbfregenerationのためのEmphdata中心のフレームワークである。
ドメイン間のコンテキストを対象のシーケンスにエンコードすることで、複雑な融合アーキテクチャを使わずに、標準的なモデルで複雑な依存関係を学習することができる。
論文 参考訳(メタデータ) (2026-02-26T08:30:09Z) - Cross Modal Data Discovery over Structured and Unstructured Data Lakes [5.270224494298927]
組織はデータ駆動意思決定のために、ますます大量のデータを集めています。
これらのデータは、数千の構造化データセットと非構造化データセットからなる集中型リポジトリにダンプされることが多い。
逆に、そのようなデータセットの混合は、ユーザのクエリや分析タスクに関連する要素を発見することを非常に困難にしている。
論文 参考訳(メタデータ) (2023-06-01T17:34:42Z) - A Comprehensive Survey of Dataset Distillation [73.15482472726555]
限られた計算能力で無制限に成長するデータを扱うことは困難になっている。
ディープラーニング技術はこの10年で前例のない発展を遂げた。
本稿では,多面的なデータセット蒸留の総合的な理解を提供する。
論文 参考訳(メタデータ) (2023-01-13T15:11:38Z) - ASDOT: Any-Shot Data-to-Text Generation with Pretrained Language Models [82.63962107729994]
Any-Shot Data-to-Text (ASDOT)は、多様な設定に柔軟に適用可能な新しいアプローチである。
データ曖昧化と文の融合という2つのステップから構成される。
実験の結果, ASDOT はベースラインよりも顕著な改善が得られた。
論文 参考訳(メタデータ) (2022-10-09T19:17:43Z) - Graph integration of structured, semistructured and unstructured data
for data journalism [4.508924138721326]
ヘテロジニアスデータセットの動的集合を統合するための完全なアプローチについて述べる。
提案手法はConnectionLensシステム内に実装されており,一連の実験を通じて検証する。
論文 参考訳(メタデータ) (2020-12-16T09:59:27Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z) - Graph integration of structured, semistructured and unstructured data
for data journalism [0.0]
異種データソースの動的集合を統合するための完全なアプローチについて述べる。
提案手法はConnectionLensシステム内に実装されており,一連の実験を通じて検証する。
論文 参考訳(メタデータ) (2020-07-23T08:55:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。