論文の概要: Data Transformation Strategies to Remove Heterogeneity
- arxiv url: http://arxiv.org/abs/2507.12677v1
- Date: Wed, 16 Jul 2025 23:27:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-18 20:10:24.298475
- Title: Data Transformation Strategies to Remove Heterogeneity
- Title(参考訳): 異質性を取り除くためのデータ変換戦略
- Authors: Sangbong Yoo, Jaeyoung Lee, Chanyoung Yoon, Geonyeong Son, Hyein Hong, Seongbum Seo, Soobin Yim, Chanyoung Jung, Jungsoo Park, Misuk Kim, Yun Jang,
- Abstract要約: データの不均一性は、様々な矛盾する要因から起因し、その利用を複雑にしている。
現在の方法論は、主にデータ構造とスキーマに関する紛争に対処し、多くの場合、データ変換によって引き起こされる重要な役割を見落としている。
この調査は、データ不均一性とその基盤となるソースの複雑さについて調査する。
- 参考スコア(独自算出の注目度): 15.025447093605615
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data heterogeneity is a prevalent issue, stemming from various conflicting factors, making its utilization complex. This uncertainty, particularly resulting from disparities in data formats, frequently necessitates the involvement of experts to find resolutions. Current methodologies primarily address conflicts related to data structures and schemas, often overlooking the pivotal role played by data transformation. As the utilization of artificial intelligence (AI) continues to expand, there is a growing demand for a more streamlined data preparation process, and data transformation becomes paramount. It customizes training data to enhance AI learning efficiency and adapts input formats to suit diverse AI models. Selecting an appropriate transformation technique is paramount in preserving crucial data details. Despite the widespread integration of AI across various industries, comprehensive reviews concerning contemporary data transformation approaches are scarce. This survey explores the intricacies of data heterogeneity and its underlying sources. It systematically categorizes and presents strategies to address heterogeneity stemming from differences in data formats, shedding light on the inherent challenges associated with each strategy.
- Abstract(参考訳): データの不均一性は、様々な矛盾する要因から起因し、その利用を複雑にしている。
この不確実性は、特にデータフォーマットの相違に起因するもので、しばしば、解像度を見つけるために専門家が関与する必要がある。
現在の方法論は、主にデータ構造とスキーマに関する紛争に対処し、多くの場合、データ変換によって引き起こされる重要な役割を見落としている。
人工知能(AI)の利用が拡大するにつれ、より合理化されたデータ準備プロセスへの需要が高まり、データ変換が最重要となる。
トレーニングデータをカスタマイズして、AI学習効率を向上させるとともに、入力フォーマットをさまざまなAIモデルに適合させる。
重要なデータの詳細を保存するためには、適切な変換テクニックを選択することが最重要である。
さまざまな産業でAIが広く統合されているにもかかわらず、現代のデータ変換アプローチに関する包括的なレビューは少ない。
この調査は、データ不均一性とその基盤となるソースの複雑さについて調査する。
データ形式の違いから生じる不均一性に対処する戦略を体系的に分類し提示し、それぞれの戦略に関連する固有の課題に光を当てる。
関連論文リスト
- Anomaly Detection and Generation with Diffusion Models: A Survey [51.61574868316922]
異常検出(AD)は、サイバーセキュリティ、金融、医療、工業製造など、さまざまな分野において重要な役割を担っている。
近年のディープラーニング,特に拡散モデル(DM)の進歩は,大きな関心を集めている。
この調査は、研究者や実践者が様々なアプリケーションにまたがる革新的なADソリューションにDMを利用することをガイドすることを目的としている。
論文 参考訳(メタデータ) (2025-06-11T03:29:18Z) - Addressing Heterogeneity in Federated Learning: Challenges and Solutions for a Shared Production Environment [1.2499537119440245]
フェデレートラーニング(FL)は、分散データソース間で機械学習モデルをトレーニングするための有望なアプローチとして登場した。
本稿では、FLにおけるデータ不均一性について、製造の文脈で概観する。
本研究は,これらの異種性がモデルトレーニングに与える影響について考察し,その悪影響を緩和するための現在の手法を概観する。
論文 参考訳(メタデータ) (2024-08-18T17:49:44Z) - Learning Divergence Fields for Shift-Robust Graph Representations [73.11818515795761]
本研究では,相互依存データに対する問題に対して,学習可能な分散場を持つ幾何学的拡散モデルを提案する。
因果推論によって新たな学習目標が導出され、ドメイン間で無神経な相互依存の一般化可能なパターンを学習するためのモデルが導出される。
論文 参考訳(メタデータ) (2024-06-07T14:29:21Z) - A Comprehensive Survey on Data Augmentation [55.355273602421384]
データ拡張(Data augmentation)は、既存のデータサンプルを操作することによって高品質な人工データを生成する技術である。
既存の文献調査では、特定のモダリティデータにのみ焦点が当てられている。
本稿では,異なる共通データモダリティのためのデータ拡張技術を含む,より啓蒙的な分類法を提案する。
論文 参考訳(メタデータ) (2024-05-15T11:58:08Z) - Machine Learning Techniques for Sensor-based Human Activity Recognition with Data Heterogeneity -- A Review [0.8142555609235358]
HAR(Human Activity Recognition)はユビキタスコンピューティングにおいて重要である。
HARは特にデータ分散の仮定において、課題に直面します。
本稿では,機械学習がHARにおけるデータの不均一性にどのように対処するかを検討する。
論文 参考訳(メタデータ) (2024-03-12T22:22:14Z) - Automatic Data Augmentation via Invariance-Constrained Learning [94.27081585149836]
下位のデータ構造は、しばしば学習タスクのソリューションを改善するために利用される。
データ拡張は、入力データに複数の変換を適用することで、トレーニング中にこれらの対称性を誘導する。
この作業は、学習タスクを解決しながらデータ拡張を自動的に適応することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2022-09-29T18:11:01Z) - Deep invariant networks with differentiable augmentation layers [87.22033101185201]
データ拡張ポリシーの学習方法は、保持データを必要とし、二段階最適化の問題に基づいている。
我々のアプローチは、現代の自動データ拡張技術よりも訓練が簡単で高速であることを示す。
論文 参考訳(メタデータ) (2022-02-04T14:12:31Z) - Non-IID data and Continual Learning processes in Federated Learning: A
long road ahead [58.720142291102135]
フェデレートラーニング(Federated Learning)は、複数のデバイスや機関が、データをプライベートに保存しながら、機械学習モデルを協調的にトレーニングすることを可能にする、新しいフレームワークである。
本研究では,データの統計的不均一性を正式に分類し,それに直面することのできる最も顕著な学習戦略をレビューする。
同時に、継続学習のような他の機械学習フレームワークからのアプローチを導入し、データの不均一性にも対処し、フェデレートラーニング設定に容易に適応できるようにします。
論文 参考訳(メタデータ) (2021-11-26T09:57:11Z) - Variational Selective Autoencoder: Learning from Partially-Observed
Heterogeneous Data [45.23338389559936]
本研究では,部分観測された異種データから表現を学習するための変分選択型オートエンコーダ(VSAE)を提案する。
vsaeは、観測データ、観測されていないデータ、およびインプテーションマスクの合同分布をモデル化することで、異種データの潜在依存関係を学習する。
その結果、データ生成や計算を含むさまざまな下流タスクの統一モデルが実現される。
論文 参考訳(メタデータ) (2021-02-25T04:39:13Z) - Propositionalization and Embeddings: Two Sides of the Same Coin [0.0]
本稿では,リレーショナル学習におけるデータ処理技術について概説する。
それは命題化とデータ変換のアプローチの埋め込みに焦点を当てている。
統一手法の2つの効率的な実装を提案する。
論文 参考訳(メタデータ) (2020-06-08T08:33:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。