論文の概要: Transforming Datasets to Requested Complexity with Projection-based Many-Objective Genetic Algorithm
- arxiv url: http://arxiv.org/abs/2507.15132v1
- Date: Sun, 20 Jul 2025 21:42:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:32.208433
- Title: Transforming Datasets to Requested Complexity with Projection-based Many-Objective Genetic Algorithm
- Title(参考訳): 投影型多目的遺伝的アルゴリズムによる要求複雑度へのデータセット変換
- Authors: Joanna Komorniczak,
- Abstract要約: この研究は、さまざまな問題複雑度を含むデータセットの可用性を高めることを目的としている。
分類には10の複雑性尺度を用いており、回帰タスクでは、有望な最適化能力を示す4つの尺度が選択された。
実験により、提案された遺伝的アルゴリズムは様々な難易度でデータセットを生成できることが確認された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The research community continues to seek increasingly more advanced synthetic data generators to reliably evaluate the strengths and limitations of machine learning methods. This work aims to increase the availability of datasets encompassing a diverse range of problem complexities by proposing a genetic algorithm that optimizes a set of problem complexity measures for classification and regression tasks towards specific targets. For classification, a set of 10 complexity measures was used, while for regression tasks, 4 measures demonstrating promising optimization capabilities were selected. Experiments confirmed that the proposed genetic algorithm can generate datasets with varying levels of difficulty by transforming synthetically created datasets to achieve target complexity values through linear feature projections. Evaluations involving state-of-the-art classifiers and regressors revealed a correlation between the complexity of the generated data and the recognition quality.
- Abstract(参考訳): 研究コミュニティは、機械学習手法の強みと限界を確実に評価するために、より高度な合成データジェネレータを模索し続けている。
この研究は、特定の目標に向けて分類および回帰タスクの一連の問題複雑さ対策を最適化する遺伝的アルゴリズムを提案することによって、多様な問題複雑さを含むデータセットの可用性を向上させることを目的としている。
分類には10の複雑性尺度を用いており、回帰タスクでは、有望な最適化能力を示す4つの尺度が選択された。
実験により、提案した遺伝的アルゴリズムは、合成されたデータセットを変換して、線形特徴投影によってターゲットの複雑性値を達成することにより、様々な難易度でデータセットを生成することができることを確認した。
最先端の分類器と回帰器による評価では, 生成したデータの複雑さと認識品質との間に相関が認められた。
関連論文リスト
- RV-Syn: Rational and Verifiable Mathematical Reasoning Data Synthesis based on Structured Function Library [58.404895570822184]
RV-Synは、新しい数学的合成手法である。
このライブラリからPython形式の関数を組み合わせることで、グラフをソリューションとして生成する。
構築したグラフに基づいて,解誘導論理認識問題生成を実現する。
論文 参考訳(メタデータ) (2025-04-29T04:42:02Z) - Dataset Properties Shape the Success of Neuroimaging-Based Patient Stratification: A Benchmarking Analysis Across Clustering Algorithms [38.321248253111776]
人工脳形態計測コホートを用いて, HYDRA, SuStaIn, SmileGAN, SurrealGANの4つの広く用いられている層状化アルゴリズムについて検討した。
122の合成シナリオにおいて、データの複雑さは、成層化の成功を予測するアルゴリズムの選択を常に上回った。
十分に分離されたクラスターは全ての手法で高い精度を示し、重なり合い、不等サイズ、微妙な効果により精度は最大50%低下した。
論文 参考訳(メタデータ) (2025-03-15T09:44:00Z) - Weighted Diversified Sampling for Efficient Data-Driven Single-Cell Gene-Gene Interaction Discovery [56.622854875204645]
本稿では,遺伝子・遺伝子相互作用の探索に先進的なトランスフォーマーモデルを活用する,データ駆動型計算ツールを活用した革新的なアプローチを提案する。
新たな重み付き多様化サンプリングアルゴリズムは、データセットのたった2パスで、各データサンプルの多様性スコアを算出する。
論文 参考訳(メタデータ) (2024-10-21T03:35:23Z) - Adaptive-RAG: Learning to Adapt Retrieval-Augmented Large Language Models through Question Complexity [59.57065228857247]
Retrieval-augmented Large Language Models (LLMs) は、質問回答(QA)のようなタスクにおける応答精度を高めるための有望なアプローチとして登場した。
本稿では,クエリの複雑さに基づいて,LLMの最適戦略を動的に選択できる適応型QAフレームワークを提案する。
オープンドメインのQAデータセットを用いて、複数のクエリの複雑さを網羅し、QAシステムの全体的な効率性と精度を高めることを示す。
論文 参考訳(メタデータ) (2024-03-21T13:52:30Z) - Fast and Functional Structured Data Generators Rooted in Out-of-Equilibrium Physics [44.97217246897902]
エネルギーモデルを用いて、構造化データセットで高品質なラベル特化データを生成するという課題に対処する。
伝統的な訓練方法は、マルコフ連鎖モンテカルロ混合による困難に遭遇する。
非平衡効果を利用した新しいトレーニングアルゴリズムを用いる。
論文 参考訳(メタデータ) (2023-07-13T15:08:44Z) - Personalized Decentralized Multi-Task Learning Over Dynamic
Communication Graphs [59.96266198512243]
本稿では,正と負の相関関係を持つタスクに対する分散・フェデレーション学習アルゴリズムを提案する。
本アルゴリズムでは,タスク間の相関関係を自動的に計算し,コミュニケーショングラフを動的に調整して相互に有益なタスクを接続し,互いに悪影響を及ぼす可能性のあるタスクを分離する。
合成ガウスデータセットと大規模セレブ属性(CelebA)データセットについて実験を行った。
論文 参考訳(メタデータ) (2022-12-21T18:58:24Z) - Dataset Complexity Assessment Based on Cumulative Maximum Scaled Area
Under Laplacian Spectrum [38.65823547986758]
DCNNモデルをトレーニングする前にデータセットの複雑さを効果的に評価することで分類性能を予測することが重要である。
本稿では,ラプラシアンスペクトル(cmsAULS)の下での累積最大スケール領域という新しい手法を提案する。
論文 参考訳(メタデータ) (2022-09-29T13:02:04Z) - Towards Automated Imbalanced Learning with Deep Hierarchical
Reinforcement Learning [57.163525407022966]
不均衡学習はデータマイニングにおいて基本的な課題であり、各クラスにトレーニングサンプルの不均等な比率が存在する。
オーバーサンプリングは、少数民族のための合成サンプルを生成することによって、不均衡な学習に取り組む効果的な手法である。
我々は,異なるレベルの意思決定を共同で最適化できる自動オーバーサンプリングアルゴリズムであるAutoSMOTEを提案する。
論文 参考訳(メタデータ) (2022-08-26T04:28:01Z) - Complexity Measures for Multi-objective Symbolic Regression [2.4087148947930634]
多目的的シンボリック回帰は、学習したモデルの精度が最大化される一方で、その複雑さが自動的に適応されるという利点がある。
NSGA-IIを用いて多目的最適化を行う場合, シンボリック回帰においてどの複雑性尺度が最適に使用されるかを検討する。
論文 参考訳(メタデータ) (2021-09-01T08:22:41Z) - Sparse PCA via $l_{2,p}$-Norm Regularization for Unsupervised Feature
Selection [138.97647716793333]
再構成誤差を$l_2,p$ノルム正規化と組み合わせることで,単純かつ効率的な特徴選択手法を提案する。
提案する非教師付きモデルを解くための効率的な最適化アルゴリズムを提案し,アルゴリズムの収束と計算の複雑さを理論的に解析する。
論文 参考訳(メタデータ) (2020-12-29T04:08:38Z) - Classifier Pool Generation based on a Two-level Diversity Approach [14.617208698215808]
本稿では,データの複雑さと決定に基づいて推定された多様性によって導かれるプール生成手法について述べる。
後部プール適応のために,各サブサンプルに高いばらつきを有する複雑性尺度が選択され,進化的アルゴリズムが複雑性と決定空間の多様性を最適化する。
その結果,動的選択法と動的アンサンブル選択法を適用した場合,69.4%の精度向上が得られた。
論文 参考訳(メタデータ) (2020-11-03T18:41:53Z) - Object-Attribute Biclustering for Elimination of Missing Genotypes in
Ischemic Stroke Genome-Wide Data [2.0236506875465863]
欠落した遺伝子型は、一般的な疾患や形質の遺伝的変異を識別するための機械学習アプローチの有効性に影響を与える可能性がある。
この問題は、異なるDNAマイクロアレイで異なる実験から遺伝子型データを収集する際に起こり、それぞれが無名(欠失)遺伝子型のパターンによって特徴づけられる。
我々は、オブジェクト-属性・ビクラスタのよく発達した概念と、二項関係の密接な部分関係に対応する形式的概念を用いる。
論文 参考訳(メタデータ) (2020-10-22T12:27:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。