論文の概要: A Case for Computing on Unstructured Data
- arxiv url: http://arxiv.org/abs/2509.14601v1
- Date: Thu, 18 Sep 2025 04:24:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.057948
- Title: A Case for Computing on Unstructured Data
- Title(参考訳): 非構造化データによる計算の一事例
- Authors: Mushtari Sadia, Amrita Roy Chowdhury, Ang Chen,
- Abstract要約: 我々は、非構造化データ上での計算と呼ばれる新しいパラダイムを議論し、潜在構造の抽出、データ処理技術によるこの構造の変換、非構造化形式への投影という3つの段階に構築する。
この双方向パイプラインは、構造化されていないデータに対して、構造化された計算の分析力の恩恵を受けると同時に、非構造化された表現のリッチ性とアクセシビリティを人間とAIの消費のために保持する。
- 参考スコア(独自算出の注目度): 6.425984481490725
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unstructured data, such as text, images, audio, and video, comprises the vast majority of the world's information, yet it remains poorly supported by traditional data systems that rely on structured formats for computation. We argue for a new paradigm, which we call computing on unstructured data, built around three stages: extraction of latent structure, transformation of this structure through data processing techniques, and projection back into unstructured formats. This bi-directional pipeline allows unstructured data to benefit from the analytical power of structured computation, while preserving the richness and accessibility of unstructured representations for human and AI consumption. We illustrate this paradigm through two use cases and present the research components that need to be developed in a new data system called MXFlow.
- Abstract(参考訳): テキスト、画像、オーディオ、ビデオなどの構造化されていないデータは世界の情報の大部分を占めるが、計算の構造化形式に依存する従来のデータシステムではサポートされていない。
我々は、非構造化データ上での計算と呼ばれる新しいパラダイムを議論し、潜在構造の抽出、データ処理技術によるこの構造の変換、非構造化形式への投影という3つの段階に構築する。
この双方向パイプラインは、構造化されていないデータに対して、構造化された計算の分析力の恩恵を受けると同時に、非構造化された表現のリッチ性とアクセシビリティを人間とAIの消費のために保持する。
本稿では、このパラダイムを2つのユースケースを通して説明し、MXFlowと呼ばれる新しいデータシステムで開発する必要がある研究コンポーネントについて述べる。
関連論文リスト
- From Chaos to Automation: Enabling the Use of Unstructured Data for Robotic Process Automation [0.6144680854063939]
Unstructured Document Retrieval SyStem (UNDRESS) は、ファジィ正規表現、自然言語処理のための技術、そしてRPAプラットフォームが非構造化文書から情報を効率的に取得できるようにするための大きな言語モデルを使用するシステムである。
その結果、UNDRESSが非構造化データに対するRPA能力の向上に有効であることを示し、この分野において大きな進歩をもたらした。
論文 参考訳(メタデータ) (2025-07-15T14:32:49Z) - A Unifying Framework for Robust and Efficient Inference with Unstructured Data [2.07180164747172]
本稿では、非構造化データから導出されるパラメータの効率的な推論を行うための一般的な枠組みを提案する。
提案手法は,既存の推論手法を統一し拡張するフレームワークであるMAR-Sで定式化する。
このフレームワーク内では、記述的および因果推定の両方のための堅牢で効率的な推定器を開発する。
論文 参考訳(メタデータ) (2025-05-01T04:11:25Z) - Unifying Structured Data as Graph for Data-to-Text Pre-Training [69.96195162337793]
Data-to-text (D2T) の生成は、構造化されたデータを自然言語テキストに変換することを目的としている。
データからテキストへの事前学習は、D2T生成の強化に強力であることが証明された。
構造強化トランスを設計し,D2T生成のための構造強化事前学習手法を提案する。
論文 参考訳(メタデータ) (2024-01-02T12:23:49Z) - StructRe: Rewriting for Structured Shape Modeling [60.20359722058389]
本稿では,構造化形状モデリングの新しいアプローチとして,構造書換えシステムであるStructReを提案する。
ポイントとコンポーネントで表される3Dオブジェクトが与えられたら、StructReはそれを上向きに、より簡潔な構造に書き直すか、より詳細な構造に書き直すことができる。
論文 参考訳(メタデータ) (2023-11-29T10:35:00Z) - Cross Modal Data Discovery over Structured and Unstructured Data Lakes [5.270224494298927]
組織はデータ駆動意思決定のために、ますます大量のデータを集めています。
これらのデータは、数千の構造化データセットと非構造化データセットからなる集中型リポジトリにダンプされることが多い。
逆に、そのようなデータセットの混合は、ユーザのクエリや分析タスクに関連する要素を発見することを非常に困難にしている。
論文 参考訳(メタデータ) (2023-06-01T17:34:42Z) - Structural Biases for Improving Transformers on Translation into
Morphologically Rich Languages [120.74406230847904]
TP-Transformerは従来のTransformerアーキテクチャを拡張し、構造を表現するコンポーネントを追加する。
第2の方法は、形態的トークン化でデータをセグメント化することで、データレベルで構造を付与する。
これらの2つのアプローチのそれぞれが、ネットワークがより良いパフォーマンスを達成することを可能にすることは分かっていますが、この改善はデータセットのサイズに依存します。
論文 参考訳(メタデータ) (2022-08-11T22:42:24Z) - CateCom: a practical data-centric approach to categorization of
computational models [77.34726150561087]
本稿では,物理モデルとデータ駆動型計算モデルのランドスケープを整理する取り組みについて述べる。
オブジェクト指向設計の概念を適用し、オープンソース協調フレームワークの基礎を概説する。
論文 参考訳(メタデータ) (2021-09-28T02:59:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。