論文の概要: Reinforcement Learning-based Feature Generation Algorithm for Scientific Data
- arxiv url: http://arxiv.org/abs/2507.03498v1
- Date: Fri, 04 Jul 2025 11:52:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.754339
- Title: Reinforcement Learning-based Feature Generation Algorithm for Scientific Data
- Title(参考訳): 強化学習に基づく科学データの特徴生成アルゴリズム
- Authors: Meng Xiao, Junfeng Zhou, Yuanchun Zhou,
- Abstract要約: 特徴生成(FG)は、高次特徴の組み合わせを構築し、冗長な特徴を取り除くことにより、元のデータの予測可能性を高めることを目的としている。
本稿では、マルチエージェント特徴生成(MAFG)フレームワークを提案する。具体的には、マルチエージェントは、協調的に数学的変換方程式を構築し、高情報コンテンツを禁止した特徴組合せを合成し、識別し、強化学習機構を利用して戦略を進化させる。
- 参考スコア(独自算出の注目度): 6.449769135199048
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Feature generation (FG) aims to enhance the prediction potential of original data by constructing high-order feature combinations and removing redundant features. It is a key preprocessing step for tabular scientific data to improve downstream machine-learning model performance. Traditional methods face the following two challenges when dealing with the feature generation of scientific data: First, the effective construction of high-order feature combinations in scientific data necessitates profound and extensive domain-specific expertise. Secondly, as the order of feature combinations increases, the search space expands exponentially, imposing prohibitive human labor consumption. Advancements in the Data-Centric Artificial Intelligence (DCAI) paradigm have opened novel avenues for automating feature generation processes. Inspired by that, this paper revisits the conventional feature generation workflow and proposes the Multi-agent Feature Generation (MAFG) framework. Specifically, in the iterative exploration stage, multi-agents will construct mathematical transformation equations collaboratively, synthesize and identify feature combinations ex-hibiting high information content, and leverage a reinforcement learning mechanism to evolve their strategies. Upon completing the exploration phase, MAFG integrates the large language models (LLMs) to interpreta-tively evaluate the generated features of each significant model performance breakthrough. Experimental results and case studies consistently demonstrate that the MAFG framework effectively automates the feature generation process and significantly enhances various downstream scientific data mining tasks.
- Abstract(参考訳): 特徴生成(FG)は、高次特徴の組み合わせを構築し、冗長な特徴を取り除くことにより、元のデータの予測可能性を高めることを目的としている。
これは、下流の機械学習モデルのパフォーマンスを改善するために、表形式の科学データのための重要な前処理ステップである。
まず、科学的データにおける高次の特徴の組み合わせを効果的に構築するには、深遠で広範なドメイン固有の専門知識が必要です。
第二に、機能の組み合わせの順序が大きくなるにつれて、検索空間は指数関数的に拡大し、不当な人間の労働消費を示唆する。
Data-Centric Artificial Intelligence (DCAI)パラダイムの進歩は、特徴生成プロセスを自動化するための新しい道を開いた。
そこで本研究では,従来の特徴生成ワークフローを再考し,マルチエージェント特徴生成(MAFG)フレームワークを提案する。
具体的には、反復探索段階において、マルチエージェントは、協調的に数学的変換方程式を構築し、高情報コンテンツを禁止した特徴組合せを合成し、識別し、強化学習機構を利用して戦略を進化させる。
探索フェーズを完了すると、MAFGは大きな言語モデル(LLM)を統合し、各重要なモデル性能のブレークスルーの生成した特徴を的確に評価する。
実験結果と事例研究は、MAFGフレームワークが特徴生成プロセスを効果的に自動化し、下流の様々な科学的データマイニングタスクを大幅に強化することを示した。
関連論文リスト
- Exploring Training and Inference Scaling Laws in Generative Retrieval [50.82554729023865]
生成検索は、検索を自己回帰生成タスクとして再構成し、大きな言語モデルがクエリから直接ターゲット文書を生成する。
生成的検索におけるトレーニングと推論のスケーリング法則を体系的に検討し,モデルのサイズ,トレーニングデータスケール,推論時間計算が協調的に性能に与える影響について検討した。
論文 参考訳(メタデータ) (2025-03-24T17:59:03Z) - Generative Fuzzy System for Sequence Generation [16.20988290308979]
本稿では,データと知識駆動型メカニズムを組み合わせたファジィ・システムを提案する。
我々はFuzzyS2Sと呼ばれるシーケンス生成のためのエンドツーエンドのGenFSモデルを提案する。
12のデータセットに対して,3つの異なる生成タスクのカテゴリを網羅した一連の実験を行った。
論文 参考訳(メタデータ) (2024-11-21T06:03:25Z) - Unleashing LLM Reasoning Capability via Scalable Question Synthesis from Scratch [54.12139707822201]
本稿では,新しい,スケーラブルで費用対効果の高いデータ合成手法であるScaleQuestを提案する。
スクラッチから多様な質問を生成することで、100万の問題解決ペアのデータセットを生成します。
私たちの実験では、データに基づいてトレーニングされたモデルが、既存のオープンソースデータセットより優れています。
論文 参考訳(メタデータ) (2024-10-24T12:42:04Z) - A Simple Background Augmentation Method for Object Detection with Diffusion Model [53.32935683257045]
コンピュータビジョンでは、データの多様性の欠如がモデル性能を損なうことはよく知られている。
本稿では, 生成モデルの進歩を生かして, 単純かつ効果的なデータ拡張手法を提案する。
背景強化は、特にモデルの堅牢性と一般化能力を大幅に改善する。
論文 参考訳(メタデータ) (2024-08-01T07:40:00Z) - Evolutionary Large Language Model for Automated Feature Transformation [44.64296052383581]
自動特徴変換のための進化的Large Language Model (LLM) フレームワークを提案する。
本フレームワークは,1)RLデータコレクタによるマルチポピュレーションデータベースの構築,2)大規模言語モデル(LLM)のシーケンス理解能力を活用した2つの部分から構成される。
提案手法の有効性と汎用性を実証的に示す。
論文 参考訳(メタデータ) (2024-05-25T12:27:21Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - Data-Centric Long-Tailed Image Recognition [49.90107582624604]
ロングテールモデルは高品質なデータに対する強い需要を示している。
データ中心のアプローチは、モデルパフォーマンスを改善するために、データの量と品質の両方を強化することを目的としています。
現在、情報強化の有効性を説明するメカニズムに関する研究が不足している。
論文 参考訳(メタデータ) (2023-11-03T06:34:37Z) - Traceable Automatic Feature Transformation via Cascading Actor-Critic
Agents [25.139229855367088]
特徴変換は機械学習(ML)の有効性と解釈可能性を高めるための必須課題である
特徴変換タスクを、特徴生成と選択の反復的、ネストされたプロセスとして定式化する。
高次元データにおけるSOTAとロバスト性と比較すると,F1スコアの24.7%の改善が見られた。
論文 参考訳(メタデータ) (2022-12-27T08:20:19Z) - Audacity of huge: overcoming challenges of data scarcity and data
quality for machine learning in computational materials discovery [1.0036312061637764]
機械学習(ML)に加速された発見は、予測構造とプロパティの関係を明らかにするために大量の高忠実度データを必要とする。
材料発見に関心を持つ多くの特性において、データ生成の挑戦的な性質と高いコストは、人口が少なく、疑わしい品質を持つデータランドスケープを生み出している。
手作業によるキュレーションがなければ、より洗練された自然言語処理と自動画像解析により、文献から構造-プロパティ関係を学習できるようになる。
論文 参考訳(メタデータ) (2021-11-02T21:43:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。