Fugu-MT 論文翻訳(概要): A Survey on Data-Centric AI: Tabular Learning from Reinforcement Learning and Generative AI Perspective

論文の概要: A Survey on Data-Centric AI: Tabular Learning from Reinforcement Learning and Generative AI Perspective

arxiv url: http://arxiv.org/abs/2502.08828v1
Date: Wed, 12 Feb 2025 22:34:50 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-14 20:05:35.023338
Title: A Survey on Data-Centric AI: Tabular Learning from Reinforcement Learning and Generative AI Perspective
Title（参考訳）: データ中心AIに関する調査:強化学習と生成AIの視点からのタブラリラーニング
Authors: Wangyang Ying, Cong Wei, Nanxu Gong, Xinyuan Wang, Haoyue Bai, Arun Vignesh Malarkkan, Sixun Dong, Dongjie Wang, Denghui Zhang, Yanjie Fu,
Abstract要約: タブラルデータ(Tabular data)は、バイオインフォマティクス、医療、マーケティングなど、さまざまな領域で広く使われているデータフォーマットの1つである。本調査では,データ空間を精製するための基本技術として,強化学習(RL)と特徴選択と特徴生成のための生成的アプローチについて検討する。我々は,既存の課題を要約し,今後の研究の方向性について論じ,この分野の継続的なイノベーションを促進する洞察を提供することを目的とする。
参考スコア（独自算出の注目度）: 23.25829868360603
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Tabular data is one of the most widely used data formats across various domains such as bioinformatics, healthcare, and marketing. As artificial intelligence moves towards a data-centric perspective, improving data quality is essential for enhancing model performance in tabular data-driven applications. This survey focuses on data-driven tabular data optimization, specifically exploring reinforcement learning (RL) and generative approaches for feature selection and feature generation as fundamental techniques for refining data spaces. Feature selection aims to identify and retain the most informative attributes, while feature generation constructs new features to better capture complex data patterns. We systematically review existing generative methods for tabular data engineering, analyzing their latest advancements, real-world applications, and respective strengths and limitations. This survey emphasizes how RL-based and generative techniques contribute to the automation and intelligence of feature engineering. Finally, we summarize the existing challenges and discuss future research directions, aiming to provide insights that drive continued innovation in this field.
Abstract（参考訳）: タブラルデータ(Tabular data)は、バイオインフォマティクス、医療、マーケティングなど、さまざまな領域で広く使われているデータフォーマットの1つである。人工知能がデータ中心の観点から進むにつれ、表型データ駆動アプリケーションにおけるモデルパフォーマンスを向上させるためには、データ品質の向上が不可欠である。本調査は,データ空間の精細化のための基本手法として,強化学習(RL)と特徴選択のための生成的アプローチを検討することを目的とした,データ駆動型表型データ最適化に焦点を当てた。機能選択は、最も有益な属性を特定し、保持することを目的としており、機能生成は、複雑なデータパターンをよりよくキャプチャするために、新しい機能を構築する。本稿は,従来のグラフデータ工学における生成手法を体系的に検討し,その最新の進歩,実世界の応用,それぞれの強みと限界について分析する。この調査では、RLベースの生成技術が機能エンジニアリングの自動化とインテリジェンスにどのように貢献するかを強調している。最後に,既存の課題をまとめ,今後の研究方向性について論じるとともに,この分野におけるイノベーションの継続を促す洞察の提供を目指す。

関連論文リスト

A Survey on Generative Recommendation: Data, Model, and Tasks [55.36322811257545]
ジェネレーティブ・レコメンデーションは、差別的なスコアではなく、世代としてのレコメンデーションを再認識する。この調査は、データ、モデル、タスク次元にまたがる統合された三部構成のフレームワークを通じて包括的な調査を提供する。世界知識の統合、自然言語理解、推論能力、スケーリング法則、創造的生成の5つの主要な利点を特定します。
論文参考訳（メタデータ） (2025-10-31T04:02:58Z)
Towards Data-Centric AI: A Comprehensive Survey of Traditional, Reinforcement, and Generative Approaches for Tabular Data Transformation [37.43210238341124]
この調査では、データ空間の洗練に欠かせない技術として、特徴選択と特徴生成を強調し、データ中心型AIの重要な側面について検討する。本稿では、最も関連性の高いデータ属性を識別・保持する機能選択手法の体系的なレビューと、複雑なデータパターンのキャプチャーを容易にする新機能を作成する機能生成アプローチについて述べる。
論文参考訳（メタデータ） (2025-01-17T21:05:09Z)
Deep Learning within Tabular Data: Foundations, Challenges, Advances and Future Directions [4.795774784702568]
タブラルデータはまだ、さまざまな現実世界のアプリケーションで広く使われているデータタイプのひとつだ。しかし、この領域の効果的な表現学習は、不規則なパターン、不均一な特徴分布、複雑なカラム間の依存関係など、ユニークな課題を生んでいる。
論文参考訳（メタデータ） (2025-01-07T05:23:36Z)
A Survey on Data Synthesis and Augmentation for Large Language Models [35.59526251210408]
本稿では,大規模言語モデルのライフサイクルを通じてデータ生成手法をレビューし,要約する。これらの手法が直面する現在の制約について考察し,今後の開発・研究の道筋について考察する。
論文参考訳（メタデータ） (2024-10-16T16:12:39Z)
Generative AI like ChatGPT in Blockchain Federated Learning: use cases, opportunities and future [4.497001527881303]
本研究は、フェデレーション学習における生成AIの潜在的な統合について検討する。 GAN(generative adversarial Network)とVAE(variantal autoencoder) 合成データの生成は、限られたデータ可用性に関連する課題に、フェデレートされた学習を支援する。
論文参考訳（メタデータ） (2024-07-25T19:43:49Z)
The Frontier of Data Erasure: Machine Unlearning for Large Language Models [56.26002631481726]
大規模言語モデル(LLM)はAIの進歩の基礎となっている。 LLMは機密情報、偏見情報、著作権情報を記憶し、広めることによってリスクを生じさせる。機械学習は、これらの懸念を軽減するための最先端のソリューションとして現れます。
論文参考訳（メタデータ） (2024-03-23T09:26:15Z)
A Survey on Data Selection for Language Models [148.300726396877]
データ選択方法は、トレーニングデータセットに含まれるデータポイントを決定することを目的としている。ディープラーニングは、主に実証的な証拠によって駆動され、大規模なデータに対する実験は高価である。広範なデータ選択研究のリソースを持つ組織はほとんどない。
論文参考訳（メタデータ） (2024-02-26T18:54:35Z)
Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文参考訳（メタデータ） (2023-10-25T20:32:02Z)
On Responsible Machine Learning Datasets with Fairness, Privacy, and Regulatory Norms [56.119374302685934]
AI技術の信頼性に関する深刻な懸念があった。機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
論文参考訳（メタデータ） (2023-10-24T14:01:53Z)
Data-centric Artificial Intelligence: A Survey [47.24049907785989]
近年、AIにおけるデータの役割は大幅に拡大し、データ中心AIという新たな概念が生まれた。本稿では,データ中心型AIの必要性について論じ,続いて3つの一般的なデータ中心型目標の全体像を考察する。これは、データライフサイクルのさまざまな段階にわたるタスクのグローバルなビューを提供する、初めての総合的な調査である、と私たちは信じています。
論文参考訳（メタデータ） (2023-03-17T17:44:56Z)
Research Trends and Applications of Data Augmentation Algorithms [77.34726150561087]
我々は,データ拡張アルゴリズムの適用分野,使用するアルゴリズムの種類,重要な研究動向,時間経過に伴う研究の進展,およびデータ拡張文学における研究ギャップを同定する。我々は、読者がデータ拡張の可能性を理解し、将来の研究方向を特定し、データ拡張研究の中で質問を開くことを期待する。
論文参考訳（メタデータ） (2022-07-18T11:38:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。