論文の概要: A Survey on Data-Centric AI: Tabular Learning from Reinforcement Learning and Generative AI Perspective
- arxiv url: http://arxiv.org/abs/2502.08828v1
- Date: Wed, 12 Feb 2025 22:34:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-14 13:49:51.897218
- Title: A Survey on Data-Centric AI: Tabular Learning from Reinforcement Learning and Generative AI Perspective
- Title(参考訳): データ中心AIに関する調査:強化学習と生成AIの視点からのタブラリラーニング
- Authors: Wangyang Ying, Cong Wei, Nanxu Gong, Xinyuan Wang, Haoyue Bai, Arun Vignesh Malarkkan, Sixun Dong, Dongjie Wang, Denghui Zhang, Yanjie Fu,
- Abstract要約: タブラルデータ(Tabular data)は、バイオインフォマティクス、医療、マーケティングなど、さまざまな領域で広く使われているデータフォーマットの1つである。
本調査では,データ空間を精製するための基本技術として,強化学習(RL)と特徴選択と特徴生成のための生成的アプローチについて検討する。
我々は,既存の課題を要約し,今後の研究の方向性について論じ,この分野の継続的なイノベーションを促進する洞察を提供することを目的とする。
- 参考スコア(独自算出の注目度): 23.25829868360603
- License:
- Abstract: Tabular data is one of the most widely used data formats across various domains such as bioinformatics, healthcare, and marketing. As artificial intelligence moves towards a data-centric perspective, improving data quality is essential for enhancing model performance in tabular data-driven applications. This survey focuses on data-driven tabular data optimization, specifically exploring reinforcement learning (RL) and generative approaches for feature selection and feature generation as fundamental techniques for refining data spaces. Feature selection aims to identify and retain the most informative attributes, while feature generation constructs new features to better capture complex data patterns. We systematically review existing generative methods for tabular data engineering, analyzing their latest advancements, real-world applications, and respective strengths and limitations. This survey emphasizes how RL-based and generative techniques contribute to the automation and intelligence of feature engineering. Finally, we summarize the existing challenges and discuss future research directions, aiming to provide insights that drive continued innovation in this field.
- Abstract(参考訳): タブラルデータ(Tabular data)は、バイオインフォマティクス、医療、マーケティングなど、さまざまな領域で広く使われているデータフォーマットの1つである。
人工知能がデータ中心の観点から進むにつれ、表型データ駆動アプリケーションにおけるモデルパフォーマンスを向上させるためには、データ品質の向上が不可欠である。
本調査は,データ空間の精細化のための基本手法として,強化学習(RL)と特徴選択のための生成的アプローチを検討することを目的とした,データ駆動型表型データ最適化に焦点を当てた。
機能選択は、最も有益な属性を特定し、保持することを目的としており、機能生成は、複雑なデータパターンをよりよくキャプチャするために、新しい機能を構築する。
本稿は,従来のグラフデータ工学における生成手法を体系的に検討し,その最新の進歩,実世界の応用,それぞれの強みと限界について分析する。
この調査では、RLベースの生成技術が機能エンジニアリングの自動化とインテリジェンスにどのように貢献するかを強調している。
最後に,既存の課題をまとめ,今後の研究方向性について論じるとともに,この分野におけるイノベーションの継続を促す洞察の提供を目指す。
関連論文リスト
- Towards Data-Centric AI: A Comprehensive Survey of Traditional, Reinforcement, and Generative Approaches for Tabular Data Transformation [37.43210238341124]
この調査では、データ空間の洗練に欠かせない技術として、特徴選択と特徴生成を強調し、データ中心型AIの重要な側面について検討する。
本稿では、最も関連性の高いデータ属性を識別・保持する機能選択手法の体系的なレビューと、複雑なデータパターンのキャプチャーを容易にする新機能を作成する機能生成アプローチについて述べる。
論文 参考訳(メタデータ) (2025-01-17T21:05:09Z) - Deep Learning within Tabular Data: Foundations, Challenges, Advances and Future Directions [4.795774784702568]
タブラルデータはまだ、さまざまな現実世界のアプリケーションで広く使われているデータタイプのひとつだ。
しかし、この領域の効果的な表現学習は、不規則なパターン、不均一な特徴分布、複雑なカラム間の依存関係など、ユニークな課題を生んでいる。
論文 参考訳(メタデータ) (2025-01-07T05:23:36Z) - A Survey on Data Synthesis and Augmentation for Large Language Models [35.59526251210408]
本稿では,大規模言語モデルのライフサイクルを通じてデータ生成手法をレビューし,要約する。
これらの手法が直面する現在の制約について考察し,今後の開発・研究の道筋について考察する。
論文 参考訳(メタデータ) (2024-10-16T16:12:39Z) - Generative AI like ChatGPT in Blockchain Federated Learning: use cases, opportunities and future [4.497001527881303]
本研究は、フェデレーション学習における生成AIの潜在的な統合について検討する。
GAN(generative adversarial Network)とVAE(variantal autoencoder)
合成データの生成は、限られたデータ可用性に関連する課題に、フェデレートされた学習を支援する。
論文 参考訳(メタデータ) (2024-07-25T19:43:49Z) - The Frontier of Data Erasure: Machine Unlearning for Large Language Models [56.26002631481726]
大規模言語モデル(LLM)はAIの進歩の基礎となっている。
LLMは機密情報、偏見情報、著作権情報を記憶し、広めることによってリスクを生じさせる。
機械学習は、これらの懸念を軽減するための最先端のソリューションとして現れます。
論文 参考訳(メタデータ) (2024-03-23T09:26:15Z) - A Survey on Data Selection for Language Models [148.300726396877]
データ選択方法は、トレーニングデータセットに含まれるデータポイントを決定することを目的としている。
ディープラーニングは、主に実証的な証拠によって駆動され、大規模なデータに対する実験は高価である。
広範なデータ選択研究のリソースを持つ組織はほとんどない。
論文 参考訳(メタデータ) (2024-02-26T18:54:35Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - On Responsible Machine Learning Datasets with Fairness, Privacy, and Regulatory Norms [56.119374302685934]
AI技術の信頼性に関する深刻な懸念があった。
機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。
本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-24T14:01:53Z) - Data-centric Artificial Intelligence: A Survey [47.24049907785989]
近年、AIにおけるデータの役割は大幅に拡大し、データ中心AIという新たな概念が生まれた。
本稿では,データ中心型AIの必要性について論じ,続いて3つの一般的なデータ中心型目標の全体像を考察する。
これは、データライフサイクルのさまざまな段階にわたるタスクのグローバルなビューを提供する、初めての総合的な調査である、と私たちは信じています。
論文 参考訳(メタデータ) (2023-03-17T17:44:56Z) - Research Trends and Applications of Data Augmentation Algorithms [77.34726150561087]
我々は,データ拡張アルゴリズムの適用分野,使用するアルゴリズムの種類,重要な研究動向,時間経過に伴う研究の進展,およびデータ拡張文学における研究ギャップを同定する。
我々は、読者がデータ拡張の可能性を理解し、将来の研究方向を特定し、データ拡張研究の中で質問を開くことを期待する。
論文 参考訳(メタデータ) (2022-07-18T11:38:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。