論文の概要: Towards Data-Centric AI: A Comprehensive Survey of Traditional, Reinforcement, and Generative Approaches for Tabular Data Transformation
- arxiv url: http://arxiv.org/abs/2501.10555v1
- Date: Fri, 17 Jan 2025 21:05:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:24:55.256356
- Title: Towards Data-Centric AI: A Comprehensive Survey of Traditional, Reinforcement, and Generative Approaches for Tabular Data Transformation
- Title(参考訳): データ中心AIに向けて: 従来型,強化,生成的アプローチの総合的な調査
- Authors: Dongjie Wang, Yanyong Huang, Wangyang Ying, Haoyue Bai, Nanxu Gong, Xinyuan Wang, Sixun Dong, Tao Zhe, Kunpeng Liu, Meng Xiao, Pengfei Wang, Pengyang Wang, Hui Xiong, Yanjie Fu,
- Abstract要約: この調査では、データ空間の洗練に欠かせない技術として、特徴選択と特徴生成を強調し、データ中心型AIの重要な側面について検討する。
本稿では、最も関連性の高いデータ属性を識別・保持する機能選択手法の体系的なレビューと、複雑なデータパターンのキャプチャーを容易にする新機能を作成する機能生成アプローチについて述べる。
- 参考スコア(独自算出の注目度): 37.43210238341124
- License:
- Abstract: Tabular data is one of the most widely used formats across industries, driving critical applications in areas such as finance, healthcare, and marketing. In the era of data-centric AI, improving data quality and representation has become essential for enhancing model performance, particularly in applications centered around tabular data. This survey examines the key aspects of tabular data-centric AI, emphasizing feature selection and feature generation as essential techniques for data space refinement. We provide a systematic review of feature selection methods, which identify and retain the most relevant data attributes, and feature generation approaches, which create new features to simplify the capture of complex data patterns. This survey offers a comprehensive overview of current methodologies through an analysis of recent advancements, practical applications, and the strengths and limitations of these techniques. Finally, we outline open challenges and suggest future perspectives to inspire continued innovation in this field.
- Abstract(参考訳): タブラルデータは業界全体で最も広く使われているフォーマットの1つであり、金融、ヘルスケア、マーケティングといった分野において重要な応用を推進している。
データ中心AIの時代において、特に表型データを中心としたアプリケーションにおいて、モデルパフォーマンスを向上させるために、データ品質と表現の改善が不可欠になっている。
本調査では,データ空間の洗練に欠かせない技術として,特徴選択と特徴生成を強調し,表型データ中心型AIの重要な側面について検討する。
本稿では、最も関連性の高いデータ属性を識別・保持する機能選択手法の体系的なレビューと、複雑なデータパターンのキャプチャーを容易にする新機能を作成する機能生成アプローチについて述べる。
本調査は、最近の進歩、実用化、およびこれらの技術の強みと限界の分析を通じて、現在の方法論を包括的に概観する。
最後に、オープンな課題の概要と、この分野における継続的なイノベーションを刺激する今後の展望を提案する。
関連論文リスト
- A Survey on Data-Centric AI: Tabular Learning from Reinforcement Learning and Generative AI Perspective [23.25829868360603]
タブラルデータ(Tabular data)は、バイオインフォマティクス、医療、マーケティングなど、さまざまな領域で広く使われているデータフォーマットの1つである。
本調査では,データ空間を精製するための基本技術として,強化学習(RL)と特徴選択と特徴生成のための生成的アプローチについて検討する。
我々は,既存の課題を要約し,今後の研究の方向性について論じ,この分野の継続的なイノベーションを促進する洞察を提供することを目的とする。
論文 参考訳(メタデータ) (2025-02-12T22:34:50Z) - Deep Learning within Tabular Data: Foundations, Challenges, Advances and Future Directions [4.795774784702568]
タブラルデータはまだ、さまざまな現実世界のアプリケーションで広く使われているデータタイプのひとつだ。
しかし、この領域の効果的な表現学習は、不規則なパターン、不均一な特徴分布、複雑なカラム間の依存関係など、ユニークな課題を生んでいる。
論文 参考訳(メタデータ) (2025-01-07T05:23:36Z) - A Comprehensive Survey on Data Augmentation [55.355273602421384]
データ拡張(Data augmentation)は、既存のデータサンプルを操作することによって高品質な人工データを生成する技術である。
既存の文献調査では、特定のモダリティデータにのみ焦点が当てられている。
本稿では,異なる共通データモダリティのためのデータ拡張技術を含む,より啓蒙的な分類法を提案する。
論文 参考訳(メタデータ) (2024-05-15T11:58:08Z) - Label-Free Topic-Focused Summarization Using Query Augmentation [2.127049691404299]
本研究では、広範囲なラベル付きデータセットを必要としないトピック中心の要約のための新しい手法であるAQSを紹介した。
提案手法は,データ豊富な環境において,コスト効率の高いソリューションとしての可能性を示すとともに,関連性のある正確な要約を生成する能力を示す。
このイノベーションは、トピック中心の要約技術分野における幅広い応用とアクセシビリティの道を開いた。
論文 参考訳(メタデータ) (2024-04-25T08:39:10Z) - Data Augmentation in Human-Centric Vision [54.97327269866757]
本研究では,人間中心型視覚タスクにおけるデータ拡張手法の包括的分析を行う。
それは、人物のReID、人間のパーシング、人間のポーズ推定、歩行者検出など、幅広い研究領域に展開している。
我々の研究は、データ拡張手法をデータ生成とデータ摂動の2つの主なタイプに分類する。
論文 参考訳(メタデータ) (2024-03-13T16:05:18Z) - Large Language Models(LLMs) on Tabular Data: Prediction, Generation, and Understanding -- A Survey [17.19337964440007]
現在、この研究領域における主要なテクニック、メトリクス、データセット、モデル、最適化アプローチを要約し比較する包括的なレビューが欠如しています。
この調査は、これらの領域における最近の進歩を集約し、使用するデータセット、メトリクス、方法論の詳細な調査と分類を提供することによって、このギャップに対処することを目的としている。
既存の文献の強さ、限界、未探索領域、ギャップを識別し、この重要かつ急速に発展する分野における将来の研究の方向性についていくつかの洞察を提供する。
論文 参考訳(メタデータ) (2024-02-27T23:59:01Z) - A Survey on Data Selection for Language Models [148.300726396877]
データ選択方法は、トレーニングデータセットに含まれるデータポイントを決定することを目的としている。
ディープラーニングは、主に実証的な証拠によって駆動され、大規模なデータに対する実験は高価である。
広範なデータ選択研究のリソースを持つ組織はほとんどない。
論文 参考訳(メタデータ) (2024-02-26T18:54:35Z) - Capture the Flag: Uncovering Data Insights with Large Language Models [90.47038584812925]
本研究では,Large Language Models (LLMs) を用いてデータの洞察の発見を自動化する可能性について検討する。
そこで本稿では,データセット内の意味的かつ関連する情報(フラグ)を識別する能力を測定するために,フラグを捕捉する原理に基づく新しい評価手法を提案する。
論文 参考訳(メタデータ) (2023-12-21T14:20:06Z) - Research Trends and Applications of Data Augmentation Algorithms [77.34726150561087]
我々は,データ拡張アルゴリズムの適用分野,使用するアルゴリズムの種類,重要な研究動向,時間経過に伴う研究の進展,およびデータ拡張文学における研究ギャップを同定する。
我々は、読者がデータ拡張の可能性を理解し、将来の研究方向を特定し、データ拡張研究の中で質問を開くことを期待する。
論文 参考訳(メタデータ) (2022-07-18T11:38:32Z) - Towards an Integrated Platform for Big Data Analysis [4.5257812998381315]
本稿では,これらすべての側面を統合した,ビッグデータ解析のための統合型プレート形式のビジョンについて述べる。
このアプローチの主な利点は、プラットフォーム全体の拡張スケーラビリティ、アルゴリズムのパラメータ化の改善、エンドツーエンドのデータ分析プロセスにおけるユーザビリティの改善である。
論文 参考訳(メタデータ) (2020-04-27T03:15:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。